来自内部和外部来源的数据上传到 Cloud Storage。此上传会触发一个通知嵌入服务的事件。然后,嵌入服务会检索数据,使用 Ray Data 进行预处理(可能涉及分块和格式化),并使用 intfloat/multilingual-e5-small 等开源模型生成向量嵌入。然后,这些嵌入会被写入 Cloud SQL for PostgreSQL 向量数据库,该数据库针对存储和检索高维向量进行了优化。
“ 服务子系统中的请求-响应流
用户通过基于 Web 的聊天界面提交自然语言请求。运行在 GKE 上的前端服务器使用 LangChain 将请求转换为嵌入。此嵌入用于在向量数据库中执行语义搜索,检索相关数据。然后,将原始请求与检索到的数据结合起来,创建一个上下文提示,并将其发送到推理服务器。由 Hugging Face TGI 提供支持的推理服务器使用开源 LLM(例如 Mistral-7B-Instruct 或 Gemma)生成响应。在将响应发送回用户之前,会使用 Responsible AI (RAI) 服务对其进行安全过滤。
“ 使用的关键 Google Cloud 和开源产品
该架构利用了多项关键的 Google Cloud 和开源产品。Google Kubernetes Engine (GKE) 提供了容器编排平台。Cloud Storage 提供可扩展的对象存储。Cloud SQL for PostgreSQL,通过 pgvector 扩展增强,用作向量数据库。开源工具包括用于 LLM 服务 Hugging Face Text Generation Inference (TGI)、用于分布式计算的 Ray 以及用于构建 LLM 驱动的应用的 LangChain。
我们使用对我们网站运行至关重要的 cookies。为了改进我们的网站,我们希望使用额外的 cookies 来帮助我们了解访问者如何使用它,衡量来自社交媒体平台的流量,并个性化您的体验。其中一些 cookies 由第三方提供。点击"接受"以接受所有 cookies,或点击"拒绝"以拒绝所有可选 cookies。
评论(0)