我的编程空间,编程开发者的网络收藏夹
学习永远不晚

如何使用MyScale将知识库引入OpenAI的GPT

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

如何使用MyScale将知识库引入OpenAI的GPT

审校 | 重楼

2023年11月6日,OpenAI公司对外发布了ChatGPT。在这个无代码平台上,专业(或业余)开发人员可以使用工具和提示构建定制的GPT或聊天机器人,有效地改变他们与OpenAI GPT的交互。以前的交互LangChain或LlamaIndex强制使用动态提示从GPT检索响应。现在,OpenAI GPT通过调用外部API或工具来处理动态提示。

这也改变了开发人员在MyScale构建RAG系统的方式,从构建带有服务器端场景的提示到将这些场景引入GPT模型。

MyScale简化了将场景引入GPT的方式。例如,OpenAI公司的方法是通过Web UI将文件上传到GPT平台。同时,MyScale允许开发使用SQL WHERE子句混合结构化数据过滤和语义搜索,以更低的成本处理和存储更大的知识库,以及在多个GPT之间共享一个知识库。

现在就可以在GPT商店试用MyScaleGPT,或者将MyScale的开放知识库与托管在Hugging Face上的API集成到应用程序中。

BYOK:采用自己的知识

GPT在过去的一年中有了很大的发展,它在共享知识领域获得的知识比最初发布时要多得多。然而,仍然有GPT一无所知或不确定的特定主题,例如特定领域的知识和当前事件。因此,正如在之前的文章所描述的,必须将存储在MyScale中的外部知识库集成到GPT中,以提高其真实性和有用性。

当开发人员使用MyScale构建RAG时,将LLM引入他们的链(或堆栈)。这一次需要将MyScale数据库带到GPT平台。不幸的是,目前还不可能直接在GPT和MyScale之间建立连接。因此,调整了查询接口,将其公开为REST API。

由于之前在OpenAI函数调用方面的成功,现在可以设计一个类似的接口,其中GPT可以使用类似SQL的过滤器字符串编写向量搜索查询。在OpenAPI中的参数如下:

 "parameters": [
  {
    "name": "subject",
    "in": "query",
    "description": "A sentence or phrase describes the subject you want to query.",
    "required": true,
    "schema": {
      "type": "string"
    }
  },
  {
    "name": "where_str",
    "in": "query",
    "description": "a SQL-like where string to build filter",
    "required": true,
    "schema": {
      "type": "string"
    }
  },
  {
    "name": "limit",
    "in": "query",
    "description": "desired number of retrieved documents",
    "schema": {
      "type": "integer",
      "default": 4
    }
  }
 ]

有了这样的接口,GPT可以用SQL编写的过滤器提取关键字来描述所需的查询。

向不同的表提供查询条目

有时可能需要查询不同的表。这可以使用单独的API条目来实现。每个API条目在其文档下都有自己的模式和提示。GPT将读取适用的API文档,并将正确的查询写入相应的表。

值得注意的是,之前介绍的方法(例如自查询检索器和向量SQL)都需要动态或半动态提示来描述表结构。与其相反,GPT的功能类似于LangChain中的会话代理,其中代理使用不同的工具来查询表。

例如,API条目可以在OpenAPI 3.0中编写如下:

JSON 
 "paths": {
  // query entry to arxiv table
  "/get_related_arxiv": {
    "get": {
      // descriptions will be injected into the tool prompt
      // so that GPT will know how and when to use this query tool
      "description": "Get some related papers."
                      "You should use schema here:\n"
                      "CREATE TABLE ArXiv ("
                      "    `id` String,"
                      "    `abstract` String,"
                      "    `pubdate` DateTime,"
                      "    `title` String,"
                      "    `categories` Array(String), -- arxiv category"
                      "    `authors` Array(String),"
                      "    `comment` String,"
                      "ORDER BY id",
      "operationId": "get_related_arxiv",
      "parameters": [
        // parameters mentioned above
      ],
    }
  },
  // query entry to wiki table
  "/get_related_wiki": {
    "get": {
      "description": "Get some related wiki pages. "
                      "You should use schema here:\n\n"
                      "CREATE TABLE Wikipedia ("
                      "    `id` String,"
                      "    `text` String,"
                      "    `title` String,"
                      "    `view` Float32,"
                      "    `url` String, -- URL to this wiki page"
                      "ORDER BY id\n"
                      "You should avoid using LIKE on long text columns.",
      "operationId": "get_related_wiki",
      "parameters": [
        // parameters mentioned above
      ]
    }
  }
 }

根据这个代码片段,GPT知道有两个知识库可以帮助回答用户的问题。

在为知识库检索配置GPT操作后,只需填写指令并告诉GPT如何查询知识库,然后回答用户问题:

注:尽量回答问题。随意使用任何可用的工具来查找相关信息。在调用搜索函数时,保留查询中的所有详细信息。使用MyScale知识库查询字符串数组时,请使用has(column, value)进行匹配。对于发布日期,使用parsedatetime32bestefort()将时间戳值从字符串格式转换为日期时间对象,不使用这个函数转换日期时间类型的列。开发人员应该始终为其使用的文档添加参考链接。

将数据库托管为OpenAPI

GPT采用OpenAI 3.0标准下的API。有些应用程序(例如数据库)没有OpenAPI接口。因此,需要使用中间件将GPT与MyScale集成在一起。

开发人员已经在Hugging Face上托管了与OpenAI兼容的接口的数据库。使用flask-restx app.py, funcs.py来简化和自动化实现,因此代码小、干净、易于阅读。

这样做的好处是提示和函数都绑定在一起了。因此,不需要过多考虑提示、功能和可扩展性的组合;用人类可读的格式来写。GPT将从转储的OpenAI JSON文件中读取这个文档。

注:flask restx只生成Swagger 2.0格式的API。必须首先使用Swagger Editor将它们转换为OpenAPI 3.0格式。可以在Hugging Face上使用JSON API作为参考。

GPT使用API中的场景运行

在适当的指导下,GPT将使用特殊函数仔细处理不同的数据类型。这些数据类型的示例包括ClickHouse SQL函数,例如用于数组列的has(column, value)和用于时间戳列的parsedatetime32bestefort (value)。

在将正确的查询发送给API之后,它(或API)将使用WHERE子句字符串中的过滤器构造向量搜索查询。返回的值被格式化为字符串,作为从数据库检索到的额外知识。正如以下的代码示例所描述的,这个实现非常简单。

Python 
1 class ArXivKnowledgeBase:
2    def __init__(self, embedding: SentenceTransformer) -> None:
3        # This is our open knowledge base that contains default.ChatArXiv and wiki.Wikipedia
4        self.db = clickhouse_connect.get_client(
5            host='msc-4a9e710a.us-east-1.aws.staging.myscale.cloud',
6            port=443,
7            username='chatdata',
8            password='myscale_rocks'
9        )
10        self.embedding: SentenceTransformer = INSTRUCTOR('hkunlp/instructor-xl')
11        self.table: str = 'default.ChatArXiv'
12        self.embedding_col = "vector"
13        self.must_have_cols: List[str] = ['id', 'abstract', 'authors', 'categories', 'comment', 'title', 'pubdate']
14
15
16    def __call__(self, subject: str, where_str: str = None, limit: int = 5) -> Tuple[str, int]:
17        q_emb = self.embedding.encode(subject).tolist()
18        q_emb_str = ",".join(map(str, q_emb))
19        if where_str:
20            where_str = f"WHERE {where_str}"
21        else:
22            where_str = ""
23        # Simply inject the query vector and where_str into the query
24        # And you can check it if you want
25        q_str = f"""
26            SELECT dist, {','.join(self.must_have_cols)}
27            FROM {self.table}
28            {where_str}
29            ORDER BY distance({self.embedding_col}, [{q_emb_str}])
30                AS dist ASC
31            LIMIT {limit}
32            """
33        docs = [r for r in self.db.query(q_str).named_results()]
34        return '\n'.join([str(d) for d in docs]), len(docs)

结论

GPT确实是OpenAI开发者界面的重大改进。开发人员不需要编写太多代码来构建他们的聊天机器人,而且工具现在可以自带提示。我们为GPT创造一个生态系统是很美好的。另一方面,鼓励开源社区重新考虑将LLM和工具结合起来的现有方式。

因为相信将外部知识库存储在外部数据库中,将会提高LLM的真实性和有用性。很多人正在寻找新的方法来整合像MyScale这样的矢量数据库和LLM。

原文Bring Your Knowledge Base Into OpenAI’s GPTs With MyScale,作者:Fangrui Liu

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

如何使用MyScale将知识库引入OpenAI的GPT

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

如何使用MyScale将知识库引入OpenAI的GPT

本文描述了如何使用MyScale将开发人员的知识库与OpenAI的GPT结合起来。MyScale简化了将场景引入GPT的方式。
OpenAIMyScale2024-11-30

如何使用Django基础模板优化自己的知识库

如何使用Django基础模板优化自己的知识库 ,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。我有时候会把文章同步到头条上,发现了一个蛮有意思的现象。公众号里的文
2023-06-04

如何使用Python将数据传入阿里云数据库中的数据

本文将详细介绍如何使用Python将数据传入阿里云数据库中的数据,包括使用pymysql库连接数据库、执行SQL语句以及使用pandas库将数据导入到数据库中。具体内容:首先,我们需要安装必要的Python库。在Python环境中,可以通过pip命令来安装这些库。以下是需要安装的库:pythonpipinstal
如何使用Python将数据传入阿里云数据库中的数据
2024-01-25

如何合理使用MySQL索引,优化数据库性能?技术同学须知的设计规约!

如何合理使用MySQL索引,优化数据库性能?技术同学须知的设计规约!引言:在当今互联网时代,数据量不断增长,数据库性能优化成为了一个非常重要的课题。而MySQL作为最流行的关系型数据库之一,索引的合理使用对于提升数据库性能至关重要。本文将介
2023-10-22

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录