Skip to main content
Weaviate 是一个开源的向量数据库,可同时存储对象和向量,支持将向量搜索与结构化过滤相结合。LangChain 通过 weaviate-client 包(Weaviate 的官方 TypeScript 客户端)连接到 Weaviate。 本指南提供了快速入门 Weaviate 向量存储 的概述。有关 WeaviateStore 所有功能和配置的详细文档,请参阅 API 参考

概述

集成详情

设置

要使用 Weaviate 向量存储,您需要设置一个 Weaviate 实例并安装 @langchain/weaviate 集成包。您还应安装 weaviate-client 包以初始化客户端连接到您的实例,如果需要为索引文档分配 ID,还需安装 uuid 包。 本指南还将使用 OpenAI 嵌入,这需要您安装 @langchain/openai 集成包。您也可以使用 其他支持的嵌入模型
npm install @langchain/weaviate @langchain/core weaviate-client uuid @langchain/openai
您需要在本地或服务器上运行 Weaviate。更多信息请参阅 Weaviate 文档

凭证

设置好实例后,设置以下环境变量:
// 如果在本地运行,请包含端口,例如 "localhost:8080"
process.env.WEAVIATE_URL = "YOUR_WEAVIATE_URL";
// 可选,用于云部署
process.env.WEAVIATE_API_KEY = "YOUR_API_KEY";
如果您在本指南中使用 OpenAI 嵌入,还需要设置您的 OpenAI 密钥:
process.env.OPENAI_API_KEY = "YOUR_API_KEY";
如果您希望自动追踪模型调用,还可以通过取消注释以下内容来设置 LangSmith API 密钥:
// process.env.LANGSMITH_TRACING="true"
// process.env.LANGSMITH_API_KEY="your-api-key"

实例化

连接 Weaviate 客户端

在大多数情况下,您应使用其中一个连接辅助函数来连接到您的 Weaviate 实例:
  • connectToWeaviateCloud
  • connectToLocal
  • connectToCustom
import { WeaviateStore } from "@langchain/weaviate";
import { OpenAIEmbeddings } from "@langchain/openai";
import weaviate from "weaviate-client";

const embeddings = new OpenAIEmbeddings({
  model: "text-embedding-3-small",
});

const weaviateClient = weaviate.connectToWeaviateCloud({
   clusterURL: process.env.WEAVIATE_URL!,
  options : {
      authCredentials: new weaviate.ApiKey(process.env.WEAVIATE_API_KEY || ""),
      headers: {
        "X-OpenAI-Api-Key": process.env.OPENAI_API_KEY || "",
        "X-Cohere-Api-Key": process.env.COHERE_API_KEY || "",
      },
    },
});

初始化向量存储

要创建集合,至少需要指定集合名称。如果不指定任何属性,auto-schema 会自动创建它们。
const vectorStore = new WeaviateStore(embeddings, {
  client: weaviateClient,
  indexName: "Langchainjs_test",
});
要使用 Weaviate 的命名向量、向量化器、重排序器、生成模型等,请在启用向量存储时使用 schema 属性。创建向量存储时,schema 中的集合名称和其他属性将优先。
const vectorStore = new WeaviateStore(embeddings, {
  client: weaviateClient,
  schema: {
    name: "Langchainjs_test",
    description: "一个简单的数据集",
    properties: [
      {
        name: "title",
        dataType: dataType.TEXT,
      },
      {
        name: "foo",
        dataType: dataType.TEXT,
      },
    ],
    vectorizers: [
      vectorizer.text2VecOpenAI({
        name: "title",
        sourceProperties: ["title"], // (可选)设置源属性
        // vectorIndexConfig: configure.vectorIndex.hnsw()   // (可选)设置向量索引配置
      }),
    ],
    generative: weaviate.configure.generative.openAI(),
    reranker: weaviate.configure.reranker.cohere(),
  },
});

管理向量存储

向向量存储添加项目

注意: 如果您想为索引文档关联 ID,它们必须是 UUID。
import type { Document } from "@langchain/core/documents";
import { v4 as uuidv4 } from "uuid";

const document1: Document = {
  pageContent: "细胞的动力源是线粒体",
  metadata: { source: "https://example.com" }
};

const document2: Document = {
  pageContent: "建筑物由砖块构成",
  metadata: { source: "https://example.com" }
};

const document3: Document = {
  pageContent: "线粒体由脂质构成",
  metadata: { source: "https://example.com" }
};

const document4: Document = {
  pageContent: "2024 年奥运会在巴黎举行",
  metadata: { source: "https://example.com" }
}

const documents = [document1, document2, document3, document4];
const uuids = [uuidv4(), uuidv4(), uuidv4(), uuidv4()];

await vectorStore.addDocuments(documents, { ids: uuids });
[
  '610f9b92-9bee-473f-a4db-8f2ca6e3442d',
  '995160fa-441e-41a0-b476-cf3785518a0d',
  '0cdbe6d4-0df8-4f99-9b67-184009fee9a2',
  '18a8211c-0649-467b-a7c5-50ebb4b9ca9d'
]

从向量存储删除项目

您可以通过传递 filter 参数按 ID 删除:
await vectorStore.delete({ ids: [uuids[3]] });

查询向量存储

创建向量存储并添加相关文档后,您很可能希望在运行链或代理时查询它。 在 Weaviate 的 v3 版本中,客户端主要通过 collections 与数据库中的对象交互。collection 对象可以在整个代码库中重复使用。

直接查询

执行简单的相似性搜索可以如下进行。Filter 辅助类使得使用带条件的过滤器更加容易。v3 客户端简化了 Filter 的使用方式,使您的代码更简洁。 有关 Weaviate 过滤器语法的更多信息,请参阅 此页面
import { Filters } from "weaviate-client";

const collection = client.collections.use('Langchainjs_test');

const filter = Filters.and(collection.filter.byProperty("source").equal("https://example.com"))

const similaritySearchResults = await vectorStore.similaritySearch("生物学", 2, filter);

for (const doc of similaritySearchResults) {
  console.log(`* ${doc.pageContent} [${JSON.stringify(doc.metadata, null)}]`);
}
* 细胞的动力源是线粒体 [{"source":"https://example.com"}]
* 线粒体由脂质构成 [{"source":"https://example.com"}]
如果您想执行相似性搜索并获取相应的分数,可以运行:
const similaritySearchWithScoreResults = await vectorStore.similaritySearchWithScore("生物学", 2, filter)

for (const [doc, score] of similaritySearchWithScoreResults) {
  console.log(`* [SIM=${score.toFixed(3)}] ${doc.pageContent} [${JSON.stringify(doc.metadata)}]`);
}
* [SIM=0.835] 细胞的动力源是线粒体 [{"source":"https://example.com"}]
* [SIM=0.852] 线粒体由脂质构成 [{"source":"https://example.com"}]

混合搜索

在 Weaviate 中,混合搜索 通过融合两个结果集,将向量搜索和关键词(BM25F)搜索的结果结合起来。要更改关键词和向量组件的相对权重,请在查询中设置 alpha 值。 查看 文档 获取混合搜索选项的完整列表。
const results = await vectorStore.hybridSearch("生物学",
  {
    limit: 1,
    alpha: 0.25,
    targetVector: ["title"],
    rerank: {
      property: "title",
      query: "greeting",
    },
});

检索增强生成 (RAG)

检索增强生成 (RAG) 将信息检索与生成式 AI 模型相结合。 在 Weaviate 中,RAG 查询由两部分组成:一个搜索查询和一个模型提示。Weaviate 首先执行搜索,然后将搜索结果和您的提示传递给生成式 AI 模型,最后返回生成的响应。
  • @param query 要搜索的查询。
  • @param options 执行混合搜索的可用选项
  • @param generate 生成的可用选项。查看文档获取完整列表
const results = await vectorStore.generate("hello world",
    {
        singlePrompt: {
            prompt: "将其翻译成德语:{title}",
        },
        config: generativeParameters.openAI({
            model: "gpt-3.5-turbo",
        }),
    },
    {
        limit: 2,
        targetVector: ["title"],
    }
);

转换为检索器进行查询

您还可以将向量存储转换为 检索器,以便在链中更轻松地使用。
const retriever = vectorStore.asRetriever({
  // 可选过滤器
  filter: filter,
  k: 2,
});
await retriever.invoke("生物学");
[
  Document {
    pageContent: '细胞的动力源是线粒体',
    metadata: { source: 'https://example.com' },
    id: undefined
  },
  Document {
    pageContent: '线粒体由脂质构成',
    metadata: { source: 'https://example.com' },
    id: undefined
  }
]

用于检索增强生成

有关如何使用此向量存储进行检索增强生成 (RAG) 的指南,请参阅以下部分:

API 参考

有关 WeaviateStore 所有功能和配置的详细文档,请参阅 API 参考