概述
Apify 是一个用于网络爬虫和数据提取的云平台,它提供了一个包含超过 10,000 个现成应用程序(称为 Actors)的生态系统,适用于各种网络爬虫、抓取和数据提取用例。 本指南展示如何从 Apify 数据集 加载文档:这是一种可扩展的仅追加存储,专为存储结构化的网络抓取结果(例如产品列表或 Google 搜索结果页面)而设计,然后可以将它们导出为 JSON、CSV 或 Excel 等多种格式。 数据集通常用于保存不同 Actors 的结果。例如:- 网站内容爬虫 Actor 深度抓取网站(如文档、知识库、帮助中心或博客),并将网页的文本内容存储到数据集中
- RAG 网络浏览器 Actor 查询 Google 搜索,抓取结果中的前 N 个页面,并以 Markdown 格式返回清理后的内容,供大型语言模型进一步处理
集成详情
加载器特性
| 来源 | 文档惰性加载 | 原生异步支持 |
|---|---|---|
| Apify 数据集 | ❌ | ❌ |
设置
凭证
您需要注册一个 Apify 账户 并获取您的 Apify API 令牌。将其设置为环境变量:安装
您首先需要安装官方的 Apify 客户端和 LangChain 包:npm
定价
许多 Actors 支持按事件付费 (PPE) 定价,您需要为 Actor 作者定义的明确事件(例如,每个数据集项)付费。 这可能非常适合代理工作负载,因为您希望获得清晰、按操作计算的成本。 Apify 还提供按使用量付费的定价,并提供免费套餐。 定价因 Actor 而异——有些 Actors 是免费的(您只需支付平台使用费),而其他 Actors 则按结果或事件收费。详情请参阅 Apify 定价。使用
从新数据集(抓取网站并将数据存储在 Apify 数据集中)
如果您在 Apify 平台上还没有现有的数据集,则需要通过调用一个 Actor 并等待结果来初始化文档加载器。 在下面的示例中,我们使用 网站内容爬虫 Actor 来抓取 LangChain 文档,将结果存储在 Apify 数据集中,然后使用ApifyDatasetLoader 加载该数据集。
为了演示,我们将使用快速的 Cheerio 爬虫类型,并将抓取的页面数量限制为 10。
注意: 运行网站内容爬虫可能需要一些时间,具体取决于网站的大小。对于大型网站,可能需要几个小时甚至几天!
示例如下:
何时使用 Apify
Apify 在以下情况下非常理想:- 需要访问数千个预构建的 Actors,适用于各种平台(社交媒体、电子商务、搜索引擎等)
- 需要超出简单搜索的自定义网络抓取和自动化工作流
- 灵活的 Actor 生态系统:可以运行 Apify Store 中的任何 Actor
从现有数据集
如果您已经运行了一个 Actor 并且在 Apify 平台上有一个现有的数据集,您可以直接使用构造函数初始化文档加载器其他 Actor 示例
Apify Store 包含数千个预构建的 Actors。以下是您可以使用文档加载器的其他流行 Actors 示例:Instagram 抓取器
Google 搜索结果抓取器
使用 Apify MCP 服务器
不确定使用哪个 Actor 或其需要哪些参数? Apify MCP(模型上下文协议)服务器 可以帮助您发现可用的 Actors、探索其输入模式并了解参数要求。 通过 HTTP 连接到 Apify MCP 服务器时,请在请求头中包含您的 Apify 令牌:Connect these docs to Claude, VSCode, and more via MCP for real-time answers.

