WeaviateStore 集成 - LangChain中文版文档

Weaviate 是一个开源的向量数据库，可同时存储对象和向量，支持将向量搜索与结构化过滤相结合。LangChain 通过 weaviate-client 包（Weaviate 的官方 TypeScript 客户端）连接到 Weaviate。本指南提供了快速入门 Weaviate 向量存储的概述。有关 WeaviateStore 所有功能和配置的详细文档，请参阅 API 参考。

概述

集成详情

类	包	Python 支持	版本
`WeaviateStore`	`@langchain/weaviate`	✅

设置

要使用 Weaviate 向量存储，您需要设置一个 Weaviate 实例并安装 @langchain/weaviate 集成包。您还应安装 weaviate-client 包以初始化客户端连接到您的实例，如果需要为索引文档分配 ID，还需安装 uuid 包。本指南还将使用 OpenAI 嵌入，这需要您安装 @langchain/openai 集成包。您也可以使用其他支持的嵌入模型。

npm install @langchain/weaviate @langchain/core weaviate-client uuid @langchain/openai

yarn add @langchain/weaviate @langchain/core weaviate-client uuid @langchain/openai

pnpm add @langchain/weaviate @langchain/core weaviate-client uuid @langchain/openai

您需要在本地或服务器上运行 Weaviate。更多信息请参阅 Weaviate 文档。

凭证

设置好实例后，设置以下环境变量：

// 如果在本地运行，请包含端口，例如 "localhost:8080"
process.env.WEAVIATE_URL = "YOUR_WEAVIATE_URL";
// 可选，用于云部署
process.env.WEAVIATE_API_KEY = "YOUR_API_KEY";

如果您在本指南中使用 OpenAI 嵌入，还需要设置您的 OpenAI 密钥：

process.env.OPENAI_API_KEY = "YOUR_API_KEY";

如果您希望自动追踪模型调用，还可以通过取消注释以下内容来设置 LangSmith API 密钥：

// process.env.LANGSMITH_TRACING="true"
// process.env.LANGSMITH_API_KEY="your-api-key"

实例化

连接 Weaviate 客户端

在大多数情况下，您应使用其中一个连接辅助函数来连接到您的 Weaviate 实例：

connectToWeaviateCloud
connectToLocal
connectToCustom

import { WeaviateStore } from "@langchain/weaviate";
import { OpenAIEmbeddings } from "@langchain/openai";
import weaviate from "weaviate-client";

const embeddings = new OpenAIEmbeddings({
  model: "text-embedding-3-small",
});

const weaviateClient = weaviate.connectToWeaviateCloud({
   clusterURL: process.env.WEAVIATE_URL!,
  options : {
      authCredentials: new weaviate.ApiKey(process.env.WEAVIATE_API_KEY || ""),
      headers: {
        "X-OpenAI-Api-Key": process.env.OPENAI_API_KEY || "",
        "X-Cohere-Api-Key": process.env.COHERE_API_KEY || "",
      },
    },
});

初始化向量存储

要创建集合，至少需要指定集合名称。如果不指定任何属性，auto-schema 会自动创建它们。

const vectorStore = new WeaviateStore(embeddings, {
  client: weaviateClient,
  indexName: "Langchainjs_test",
});

要使用 Weaviate 的命名向量、向量化器、重排序器、生成模型等，请在启用向量存储时使用 schema 属性。创建向量存储时，schema 中的集合名称和其他属性将优先。

const vectorStore = new WeaviateStore(embeddings, {
  client: weaviateClient,
  schema: {
    name: "Langchainjs_test",
    description: "一个简单的数据集",
    properties: [
      {
        name: "title",
        dataType: dataType.TEXT,
      },
      {
        name: "foo",
        dataType: dataType.TEXT,
      },
    ],
    vectorizers: [
      vectorizer.text2VecOpenAI({
        name: "title",
        sourceProperties: ["title"], // （可选）设置源属性
        // vectorIndexConfig: configure.vectorIndex.hnsw()   // （可选）设置向量索引配置
      }),
    ],
    generative: weaviate.configure.generative.openAI(),
    reranker: weaviate.configure.reranker.cohere(),
  },
});

管理向量存储

向向量存储添加项目

注意： 如果您想为索引文档关联 ID，它们必须是 UUID。

import type { Document } from "@langchain/core/documents";
import { v4 as uuidv4 } from "uuid";

const document1: Document = {
  pageContent: "细胞的动力源是线粒体",
  metadata: { source: "https://example.com" }
};

const document2: Document = {
  pageContent: "建筑物由砖块构成",
  metadata: { source: "https://example.com" }
};

const document3: Document = {
  pageContent: "线粒体由脂质构成",
  metadata: { source: "https://example.com" }
};

const document4: Document = {
  pageContent: "2024 年奥运会在巴黎举行",
  metadata: { source: "https://example.com" }
}

const documents = [document1, document2, document3, document4];
const uuids = [uuidv4(), uuidv4(), uuidv4(), uuidv4()];

await vectorStore.addDocuments(documents, { ids: uuids });

[
  '610f9b92-9bee-473f-a4db-8f2ca6e3442d',
  '995160fa-441e-41a0-b476-cf3785518a0d',
  '0cdbe6d4-0df8-4f99-9b67-184009fee9a2',
  '18a8211c-0649-467b-a7c5-50ebb4b9ca9d'
]

从向量存储删除项目

您可以通过传递 filter 参数按 ID 删除：

await vectorStore.delete({ ids: [uuids[3]] });

查询向量存储

创建向量存储并添加相关文档后，您很可能希望在运行链或代理时查询它。在 Weaviate 的 v3 版本中，客户端主要通过 collections 与数据库中的对象交互。collection 对象可以在整个代码库中重复使用。

直接查询

执行简单的相似性搜索可以如下进行。Filter 辅助类使得使用带条件的过滤器更加容易。v3 客户端简化了 Filter 的使用方式，使您的代码更简洁。有关 Weaviate 过滤器语法的更多信息，请参阅此页面。

import { Filters } from "weaviate-client";

const collection = client.collections.use('Langchainjs_test');

const filter = Filters.and(collection.filter.byProperty("source").equal("https://example.com"))

const similaritySearchResults = await vectorStore.similaritySearch("生物学", 2, filter);

for (const doc of similaritySearchResults) {
  console.log(`* ${doc.pageContent} [${JSON.stringify(doc.metadata, null)}]`);
}

* 细胞的动力源是线粒体 [{"source":"https://example.com"}]
* 线粒体由脂质构成 [{"source":"https://example.com"}]

如果您想执行相似性搜索并获取相应的分数，可以运行：

const similaritySearchWithScoreResults = await vectorStore.similaritySearchWithScore("生物学", 2, filter)

for (const [doc, score] of similaritySearchWithScoreResults) {
  console.log(`* [SIM=${score.toFixed(3)}] ${doc.pageContent} [${JSON.stringify(doc.metadata)}]`);
}

* [SIM=0.835] 细胞的动力源是线粒体 [{"source":"https://example.com"}]
* [SIM=0.852] 线粒体由脂质构成 [{"source":"https://example.com"}]

混合搜索

在 Weaviate 中，混合搜索 通过融合两个结果集，将向量搜索和关键词（BM25F）搜索的结果结合起来。要更改关键词和向量组件的相对权重，请在查询中设置 alpha 值。查看文档获取混合搜索选项的完整列表。

const results = await vectorStore.hybridSearch("生物学",
  {
    limit: 1,
    alpha: 0.25,
    targetVector: ["title"],
    rerank: {
      property: "title",
      query: "greeting",
    },
});

检索增强生成 (RAG)

检索增强生成 (RAG) 将信息检索与生成式 AI 模型相结合。在 Weaviate 中，RAG 查询由两部分组成：一个搜索查询和一个模型提示。Weaviate 首先执行搜索，然后将搜索结果和您的提示传递给生成式 AI 模型，最后返回生成的响应。

@param query 要搜索的查询。
@param options 执行混合搜索的可用选项
@param generate 生成的可用选项。查看文档获取完整列表

const results = await vectorStore.generate("hello world",
    {
        singlePrompt: {
            prompt: "将其翻译成德语：{title}",
        },
        config: generativeParameters.openAI({
            model: "gpt-3.5-turbo",
        }),
    },
    {
        limit: 2,
        targetVector: ["title"],
    }
);

转换为检索器进行查询

您还可以将向量存储转换为检索器，以便在链中更轻松地使用。

const retriever = vectorStore.asRetriever({
  // 可选过滤器
  filter: filter,
  k: 2,
});
await retriever.invoke("生物学");

[
  Document {
    pageContent: '细胞的动力源是线粒体',
    metadata: { source: 'https://example.com' },
    id: undefined
  },
  Document {
    pageContent: '线粒体由脂质构成',
    metadata: { source: 'https://example.com' },
    id: undefined
  }
]

用于检索增强生成

有关如何使用此向量存储进行检索增强生成 (RAG) 的指南，请参阅以下部分：

API 参考

有关 WeaviateStore 所有功能和配置的详细文档，请参阅 API 参考。

Edit this page on GitHub or file an issue.

Connect these docs to Claude, VSCode, and more via MCP for real-time answers.

​概述

​集成详情

​设置

​凭证

​实例化

​连接 Weaviate 客户端

​初始化向量存储

​管理向量存储

​向向量存储添加项目

​从向量存储删除项目

​查询向量存储

​直接查询

​混合搜索

​检索增强生成 (RAG)

​转换为检索器进行查询

​用于检索增强生成

​API 参考

概述

集成详情

设置

凭证

实例化

连接 Weaviate 客户端

初始化向量存储

管理向量存储

向向量存储添加项目

从向量存储删除项目

查询向量存储

直接查询

混合搜索

检索增强生成 (RAG)

转换为检索器进行查询

用于检索增强生成

API 参考