CheerioWebBaseLoader 文档加载器 的概述。有关 CheerioWebBaseLoader 所有功能和配置的详细文档,请参阅 API 参考。
概述
集成详情
本示例介绍如何使用 Cheerio 从网页加载数据。每个网页将创建一个文档。 Cheerio 是一个快速轻量的库,允许您使用类似 jQuery 的语法解析和遍历 HTML 文档。您可以使用 Cheerio 从网页提取数据,而无需在浏览器中渲染它们。 然而,Cheerio 不模拟网页浏览器,因此无法在页面上执行 JavaScript 代码。这意味着它无法从需要 JavaScript 渲染的动态网页提取数据。为此,您可以使用PlaywrightWebBaseLoader 或 PuppeteerWebBaseLoader。
| 类 | 包 | 本地 | 可序列化 | Python 支持 |
|---|---|---|---|---|
CheerioWebBaseLoader | @langchain/community | ✅ | ✅ | ❌ |
加载器特性
| 来源 | 网页支持 | Node 支持 |
|---|---|---|
CheerioWebBaseLoader | ✅ | ✅ |
设置
要访问CheerioWebBaseLoader 文档加载器,您需要安装 @langchain/community 集成包以及 cheerio 对等依赖项。
凭证
如果您希望获取模型调用的自动跟踪,还可以通过取消注释以下内容来设置您的 LangSmith API 密钥:安装
LangChain CheerioWebBaseLoader 集成位于@langchain/community 包中:
实例化
现在我们可以实例化模型对象并加载文档:加载
额外配置
CheerioWebBaseLoader 在实例化加载器时支持额外配置。以下是一个使用 selector 字段的示例,使其仅从提供的 HTML 类名加载内容:
API 参考
有关CheerioWebBaseLoader 所有功能和配置的详细文档,请参阅 API 参考。
Connect these docs to Claude, VSCode, and more via MCP for real-time answers.

