SitemapLoader 继承自 WebBaseLoader,它从给定的 URL 加载站点地图,然后抓取并加载站点地图中的所有页面,将每个页面作为一个 Document 返回。
抓取过程是并发进行的。并发请求有合理的限制,默认每秒 2 个请求。如果您不担心成为良好网络公民,或者您控制被抓取的服务器,或者不关心负载,可以增加此限制。请注意,虽然这会加快抓取过程,但可能导致服务器屏蔽您。请谨慎操作!
概述
集成详情
| 类 | 包 | 本地 | 可序列化 | JS 支持 |
|---|---|---|---|---|
SiteMapLoader | langchain-community | ✅ | ❌ | ✅ |
加载器特性
| 来源 | 文档惰性加载 | 原生异步支持 |
|---|---|---|
SiteMapLoader | ✅ | ❌ |
设置
要使用 SiteMap 文档加载器,您需要安装langchain-community 集成包。
凭证
运行此功能无需凭证。 要启用模型调用的自动追踪,请设置您的 LangSmith API 密钥:安装
安装 langchain-community。修复 notebook 的 asyncio 错误
初始化
现在我们可以实例化模型对象并加载文档:加载
requests_per_second 参数以增加最大并发请求数,并使用 requests_kwargs 在发送请求时传递关键字参数。
惰性加载
您也可以惰性加载页面,以最小化内存负载。过滤站点地图 URL
站点地图可能是包含数千个 URL 的巨大文件。通常您不需要其中的每一个。您可以通过向filter_urls 参数传递字符串列表或正则表达式模式来过滤 URL。只有匹配其中一个模式的 URL 才会被加载。
添加自定义抓取规则
SitemapLoader 使用 beautifulsoup4 进行抓取过程,默认情况下会抓取页面上的每个元素。SitemapLoader 构造函数接受一个自定义抓取函数。此功能有助于根据您的特定需求定制抓取过程;例如,您可能希望避免抓取页眉或导航元素。
以下示例展示了如何开发和使用自定义函数来避免导航和页眉元素。
安装 beautifulsoup4 库并定义自定义函数。
SitemapLoader 对象。
本地站点地图
站点地图加载器也可用于加载本地文件。API 参考
有关SiteMapLoader 所有功能和配置的详细文档,请前往 API 参考
Connect these docs to Claude, VSCode, and more via MCP for real-time answers.

