HyperbrowserLoader 集成 - LangChain中文版文档

Hyperbrowser 是一个用于运行和扩展无头浏览器的平台。它允许您大规模启动和管理浏览器会话，并为任何网页抓取需求（例如抓取单个页面或爬取整个网站）提供易于使用的解决方案。主要特性：

即时扩展性 - 无需担心基础设施问题，几秒钟内即可启动数百个浏览器会话
简单集成 - 与 Puppeteer 和 Playwright 等流行工具无缝协作
强大的 API - 易于使用的 API，用于抓取/爬取任何网站，以及更多功能
绕过反机器人措施 - 内置隐身模式、广告拦截、自动验证码解决和轮换代理

本指南提供了快速入门 HyperbrowserLoader 文档加载器的概述。有关 Hyperbrowser 的更多信息，请访问 Hyperbrowser 网站，或者如果您想查看文档，可以访问 Hyperbrowser 文档。

概述

集成详情

类	包	本地	可序列化	JS 支持
`HyperbrowserLoader`	langchain-hyperbrowser	❌	❌	❌

加载器特性

来源	文档惰性加载	原生异步支持
`HyperbrowserLoader`	✅	✅

设置

要使用 Hyperbrowser 文档加载器，您需要安装 langchain-hyperbrowser 集成包，并创建一个 Hyperbrowser 账户并获取 API 密钥。

凭证

前往 Hyperbrowser 注册并生成 API 密钥。完成后，设置 HYPERBROWSER_API_KEY 环境变量：

安装

安装 langchain-hyperbrowser。

pip install -qU langchain-hyperbrowser

初始化

现在我们可以实例化模型对象并加载文档：

from langchain_hyperbrowser import HyperbrowserLoader

loader = HyperbrowserLoader(
    urls="https://example.com",
    api_key="YOUR_API_KEY",
)

加载

docs = loader.load()
docs[0]

Document(metadata={'title': 'Example Domain', 'viewport': 'width=device-width, initial-scale=1', 'sourceURL': 'https://example.com'}, page_content='Example Domain\n\n# Example Domain\n\nThis domain is for use in illustrative examples in documents. You may use this\ndomain in literature without prior coordination or asking for permission.\n\n[More information...](https://www.iana.org/domains/example)')

print(docs[0].metadata)

惰性加载

page = []
for doc in loader.lazy_load():
    page.append(doc)
    if len(page) >= 10:
        # 执行一些分页操作，例如
        # index.upsert(page)

        page = []

高级用法

您可以指定加载器要执行的操作。默认操作是 scrape。对于 scrape，您可以提供单个 URL 或要抓取的 URL 列表。对于 crawl，您只能提供单个 URL。crawl 操作将爬取提供的页面及其子页面，并为每个页面返回一个文档。

loader = HyperbrowserLoader(
    urls="https://hyperbrowser.ai", api_key="YOUR_API_KEY", operation="crawl"
)

加载器的可选参数也可以在 params 参数中提供。有关支持的参数的更多信息，请访问 docs.hyperbrowser.ai/reference/sdks/python/scrape#start-scrape-job-and-wait 或 docs.hyperbrowser.ai/reference/sdks/python/crawl#start-crawl-job-and-wait。

loader = HyperbrowserLoader(
    urls="https://example.com",
    api_key="YOUR_API_KEY",
    operation="scrape",
    params={"scrape_options": {"include_tags": ["h1", "h2", "p"]}},
)

API 参考

Edit this page on GitHub or file an issue.

Connect these docs to Claude, VSCode, and more via MCP for real-time answers.

​概述

​集成详情

​加载器特性

​设置

​凭证

​安装

​初始化

​加载

​惰性加载

​高级用法

​API 参考

概述

集成详情

加载器特性

设置

凭证

安装

初始化

加载

惰性加载

高级用法

API 参考