ClickHouse 是用于实时应用和分析的最快、资源效率最高的开源数据库,支持完整的 SQL 以及广泛的功能,协助用户编写分析查询。最近添加的数据结构和距离搜索函数(如 L2Distance)以及 近似最近邻搜索索引 使得 ClickHouse 能够作为高性能且可扩展的向量数据库,通过 SQL 存储和搜索向量。
本笔记本展示了如何使用与 ClickHouse 向量存储相关的功能。
设置
首先使用 docker 设置本地 clickhouse 服务器:langchain-community 和 clickhouse-connect 才能使用此集成
凭据
本笔记本没有凭据,只需确保你已如上所示安装了软件包。 如果你希望获得最佳级别的模型调用自动化追踪,你也可以通过取消注释以下内容来设置你的 LangSmith API 密钥:实例化
管理向量存储
创建向量存储后,我们可以通过添加和删除不同项来与其交互。向向量存储添加项
我们可以使用add_documents 函数将项添加到我们的向量存储中。
从向量存储删除项
我们可以使用delete 函数通过 ID 从我们的向量存储中删除项。
查询向量存储
一旦创建了向量存储并添加了相关文档,在运行链或代理时,你很可能会想要查询它。直接查询
相似度搜索
执行简单的相似度搜索可以如下进行:带分数的相似度搜索
你也可以带分数进行搜索:过滤
你可以直接访问 ClickHouse SQL 的 where 语句。你可以按照标准 SQL 编写WHERE 子句。
注意:请注意 SQL 注入风险,此接口不应由最终用户直接调用。
如果你在设置下自定义了 column_map,则可以使用以下方式进行带过滤器的搜索:
其他搜索方法
本笔记本未涵盖各种其他搜索方法,例如 MMR 搜索或通过向量搜索。转换为检索器进行查询
你也可以将向量存储转换为检索器,以便在链中更轻松地使用。 以下是如何将向量存储转换为检索器,然后使用简单查询和过滤器调用检索器的方法。检索增强生成用法
有关如何使用此向量存储进行检索增强生成 (RAG) 的指南,请参阅以下部分: 更多请查看 使用 Astra DB 的完整 RAG 模板。Connect these docs to Claude, VSCode, and more via MCP for real-time answers.

