- 即时扩展能力 - 无需基础设施烦恼,数秒内启动数百个浏览器会话
- 简单集成 - 与 Puppeteer 和 Playwright 等流行工具无缝协作
- 强大的 API - 易于使用的 API 用于抓取/爬取任何网站,以及更多功能
- 绕过反机器人措施 - 内置隐身模式、广告拦截、自动验证码解决和代理轮换
核心功能
抓取
Hyperbrowser 提供强大的抓取功能,允许您从任何网页提取数据。该抓取工具可以将网页内容转换为结构化格式(如 markdown 或 HTML),使处理和数据分析变得容易。爬取
爬取功能使您能够自动导航网站的多个页面。您可以设置参数(如页面限制)来控制爬虫探索站点的程度,收集其访问的每个页面的数据。提取
Hyperbrowser 的提取功能使用 AI 根据您的定义模式从网页中提取特定信息。这允许您将非结构化的网页内容转换为您确切要求的结构化数据。概述
集成详情
| 工具 | 包 | 本地 | 可序列化 | JS 支持 |
|---|---|---|---|---|
| 爬取工具 | langchain-hyperbrowser | ❌ | ❌ | ❌ |
| 抓取工具 | langchain-hyperbrowser | ❌ | ❌ | ❌ |
| 提取工具 | langchain-hyperbrowser | ❌ | ❌ | ❌ |
设置
要访问 Hyperbrowser 网页工具,您需要安装langchain-hyperbrowser 集成包,并创建 Hyperbrowser 账户获取 API 密钥。
凭据
前往 Hyperbrowser 注册并生成 API 密钥。完成后,设置HYPERBROWSER_API_KEY 环境变量:
安装
安装 langchain-hyperbrowser。实例化
爬取工具
HyperbrowserCrawlTool 是一个强大的工具,可以从给定 URL 开始爬取整个网站。它支持可配置的页面限制和抓取选项。
抓取工具
HyperbrowserScrapeTool 是一个可以从网页抓取内容的工具。它支持 markdown 和 HTML 输出格式,以及元数据提取。
提取工具
HyperbrowserExtractTool 是一个强大的工具,使用 AI 从网页提取结构化数据。它可以根据预定义的模式提取信息。
调用
基本用法
爬取工具
抓取工具
提取工具
使用自定义选项
带自定义选项的爬取工具
带自定义选项的抓取工具
带自定义模式的提取工具
异步用法
所有工具都支持异步用法:在智能体中使用
以下是如何在智能体中使用任何网页工具的方法:配置选项
通用选项
所有工具都支持这些基本配置选项:url: 要处理的 URLsession_options: 浏览器会话配置use_proxy: 是否使用代理solve_captchas: 是否自动解决验证码accept_cookies: 是否接受 Cookie
工具特定选项
爬取工具
max_pages: 要爬取的最大页数scrape_options: 抓取每个页面的选项formats: 输出格式列表(markdown, html)
抓取工具
scrape_options: 抓取页面的选项formats: 输出格式列表(markdown, html)
提取工具
schema: 定义要提取结构的 Pydantic 模型extraction_prompt: 用于提取的自然语言提示
API 参考
Connect these docs to Claude, VSCode, and more via MCP for real-time answers.

