狗子 发表于 2023-3-24 14:03:40

OpenAI 推出 ChatGPT 插件

ChatGPT 的演进速度令人震惊。从 iPhone 推出到 App Store 推出过去了一年多,而插件系统的上线距离 ChatGPT 过去仅三个月。OpenAI 的两个核心目标是通用人工智能(AGI)和人工智能的安全交互,这样的原则可以从 OpenAI 的博客中明显感受到,越来越多的应用被人工智能影响,并且每项应用都应尽可能在安全的条件下运行。

OpenAI 正在以迭代部署的方式逐步推出 ChatGPT 的插件。插件是专门为语言模型设计的工具,以安全为核心原则,并帮助 ChatGPT 访问最新的信息,运行计算,或使用第三方服务。
OpenAI 展示了几个插件的应用,下文将简单介绍这些应用及 OpenAI 对它们的安全考虑:
网页浏览
代码解释
检索
浏览
已经有工作研究从互联网上获取信息提供给语言模型,这扩大了它们可以讨论的内容,超越了训练语料库,获取最新的信息。
以下是一个 ChatGPT 在训练数据之外,在互联网上检索最近的奥斯卡信息,然后进行整合,并将在互联网上的阅读过程进行呈现。
浏览的安全考虑
这一操作可能引发安全担忧,而这一步被设定为模型只能发出 GET 请求,减少了一些安全风险,使得模型无法在网络上进行某些事务性的操作,比如表单的提交。
这一点十分必要,假设浏览器执行的指令是未加限制的,一些奇怪的提示(Prompt)可能引发一个在互联网上活跃的不受控程序。
浏览功能使用了 Bing 搜索 API,继承了微软的大量工作。插件在独立的服务中运行,ChatGPT 的浏览与架构的其他部分是分离的。
浏览器的用户代理标记是 ChatGPT-User,而不会伪装人类。它仅遵从用户的指令浏览,而不主动浏览,并且采取了限速,避免发送过多流量。

代码解释器
模型现在具备一个 Python 解释器,在一个沙盒、防火墙的执行环境中,还有一些临时的磁盘空间。由解释器插件运行的代码会在一个持久的会话中进行评估,该会话在聊天对话期间是有效的(有一个上限超时)。

模型支持将文件上传到对话工作区并下载运行结果。
OpenAI 希望模型能够使用他们的编程技能,为计算机的大多数基本功能提供一个更自然的界面。这相当于,有一个非常热心的初级程序员以指尖的速度工作,可以使这个新的工作流程毫不费力和高效,也可以向新的受众普及编程的好处。

从用户研究中,OpenAI 确定了使用代码解释器特别有用的用例:

解决数学问题,包括定量和定性的数学问题
进行数据分析和可视化
在不同格式之间转换文件
代码解释器的安全考虑
将模型连接到编程语言解释器的主要考虑因素是适当的沙盒执行,以便人工智能生成的代码不会在现实世界中产生意想不到的副作用。模型在一个安全的环境中执行代码,并使用严格的网络控制来防止外部互联网访问所执行的代码。

此外,每个会话有资源限制。禁用互联网访问限制了我们的代码沙盒的功能,但 OpenAI 相信这是初始阶段的正确权衡。第三方插件的设计原则是以安全第一的形式将模型与外部世界连接起来。

检索
开源的检索插件使 ChatGPT 能够访问个人或组织的信息源(经许可)。它允许用户通过提问或用自然语言表达需求,从他们的数据源中获得最相关的文件片段,如文件、笔记、电子邮件或公共文档。

作为开源和自托管的解决方案,开发者可以部署自己的插件版本,并在 ChatGPT 注册。该插件利用 OpenAI embeddings,并允许开发者选择一个向量数据库(Milvus、Pinecone、Qdrant、Redis、Weaviate 或 Zilliz)来索引和搜索文档。信息源可以使用 webhooks 与数据库同步。这意味着这些个人或组织的向量数据库的语义搜索功能,可以被 OpenAI 模型提供的 embedding 检索取代,并直接在与 ChatGPT 中的会话形式中使用。

OpenAI 开放了一个检索插件仓库:openai/chatgpt-retrieval-plugin (github.com)

检索的安全考虑
检索插件允许 ChatGPT 搜索一个矢量数据库的内容,并将最佳结果添加到ChatGPT会话中。这意味着它没有任何外部影响,主要风险是数据授权和隐私。开发者应该只在他们的检索插件中添加他们被授权使用的内容,并可以在用户的 ChatGPT 会话中分享。

第三方插件
OpenAI 期待更多的第三方插件:Getting Started - OpenAI API

目前如何使用插件?
目前(03.24),浏览网页、代码解释等功能仅限 ChatGPT Plus 提供,并且是 Alpha 版本的独立预览功能,而暂时没有整合进统一的 GPT-4。

页: [1]
查看完整版本: OpenAI 推出 ChatGPT 插件