本概述涵盖基于文本的嵌入模型。LangChain 目前暂不支持多模态嵌入。
嵌入模型将原始文本(如句子、段落或推文)转换为固定长度的数字向量,以捕捉其语义含义。这些向量使机器能够基于含义而非精确词汇来比较和搜索文本。
在实践中,这意味着具有相似思想的文本在向量空间中会被放置得很近。例如,嵌入不仅可以匹配短语 “机器学习”,还能检索出讨论相关概念的文档,即使使用了不同的措辞。
工作原理
- 向量化 — 模型将每个输入字符串编码为一个高维向量。
- 相似度评分 — 使用数学度量来比较向量,以衡量底层文本的关联程度。
相似度度量
比较嵌入时常用的几种度量方法:
- 余弦相似度 — 测量两个向量之间的夹角。
- 欧几里得距离 — 测量点之间的直线距离。
- 点积 — 测量一个向量在另一个向量上的投影量。
LangChain 通过 Embeddings 接口为文本嵌入模型(例如 OpenAI、Cohere、Hugging Face)提供了标准接口。
提供两个主要方法:
embedDocuments(documents: string[]) → number[][]:嵌入文档列表。
embedQuery(text: string) → number[]:嵌入单个查询。
该接口允许查询和文档使用不同的策略进行嵌入,尽管在实践中大多数提供商会以相同的方式处理它们。
安装与使用
安装依赖项:添加环境变量:OPENAI_API_KEY=your-api-key
实例化模型:import { OpenAIEmbeddings } from "@langchain/openai";
const embeddings = new OpenAIEmbeddings({
model: "text-embedding-3-large"
});
安装依赖项添加环境变量:AZURE_OPENAI_API_INSTANCE_NAME=<YOUR_INSTANCE_NAME>
AZURE_OPENAI_API_KEY=<YOUR_KEY>
AZURE_OPENAI_API_VERSION="2024-02-01"
实例化模型:import { AzureOpenAIEmbeddings } from "@langchain/openai";
const embeddings = new AzureOpenAIEmbeddings({
azureOpenAIApiEmbeddingsDeploymentName: "text-embedding-ada-002"
});
安装依赖项:添加环境变量:BEDROCK_AWS_REGION=your-region
实例化模型:import { BedrockEmbeddings } from "@langchain/aws";
const embeddings = new BedrockEmbeddings({
model: "amazon.titan-embed-text-v1"
});
安装依赖项:npm i @langchain/google-genai
添加环境变量:GOOGLE_API_KEY=your-api-key
实例化模型:import { GoogleGenerativeAIEmbeddings } from "@langchain/google-genai";
const embeddings = new GoogleGenerativeAIEmbeddings({
model: "text-embedding-004"
});
安装依赖项:npm i @langchain/google-vertexai
添加环境变量:GOOGLE_APPLICATION_CREDENTIALS=credentials.json
实例化模型:import { VertexAIEmbeddings } from "@langchain/google-vertexai";
const embeddings = new VertexAIEmbeddings({
model: "gemini-embedding-001"
});
安装依赖项:npm i @langchain/mistralai
添加环境变量:MISTRAL_API_KEY=your-api-key
实例化模型:import { MistralAIEmbeddings } from "@langchain/mistralai";
const embeddings = new MistralAIEmbeddings({
model: "mistral-embed"
});
安装依赖项:添加环境变量:COHERE_API_KEY=your-api-key
实例化模型:import { CohereEmbeddings } from "@langchain/cohere";
const embeddings = new CohereEmbeddings({
model: "embed-english-v3.0"
});
安装依赖项:实例化模型:import { OllamaEmbeddings } from "@langchain/ollama";
const embeddings = new OllamaEmbeddings({
model: "llama2",
baseUrl: "http://localhost:11434", // 默认值
});
嵌入可以被存储或临时缓存,以避免重复计算。
可以使用 CacheBackedEmbeddings 来缓存嵌入。这个包装器将嵌入存储在键值存储中,其中文本被哈希处理,哈希值用作缓存中的键。
初始化 CacheBackedEmbeddings 的主要支持方式是 fromBytesStore。它接受以下参数:
- underlyingEmbeddings:用于嵌入的嵌入器。
- documentEmbeddingStore:用于缓存文档嵌入的任何
BaseStore。
- options.namespace:(可选,默认为
"")用于文档缓存的命名空间。有助于避免冲突(例如,将其设置为嵌入模型名称)。
import { CacheBackedEmbeddings } from "@langchain/classic/embeddings/cache_backed";
import { InMemoryStore } from "@langchain/core/stores";
const underlyingEmbeddings = new OpenAIEmbeddings();
const inMemoryStore = new InMemoryStore();
const cacheBackedEmbeddings = CacheBackedEmbeddings.fromBytesStore(
underlyingEmbeddings,
inMemoryStore,
{
namespace: underlyingEmbeddings.model,
}
);
// 示例:缓存查询嵌入
const tic = Date.now();
const queryEmbedding = cacheBackedEmbeddings.embedQuery("Hello, world!");
console.log(`首次调用耗时:${Date.now() - tic}ms`);
// 示例:缓存文档嵌入
const tic = Date.now();
const documentEmbedding = cacheBackedEmbeddings.embedDocuments(["Hello, world!"]);
console.log(`缓存创建时间:${Date.now() - tic}ms`);
在生产环境中,通常会使用更健壮的持久化存储,例如数据库或云存储。请参阅存储集成了解相关选项。
所有集成