接口
每个文档加载器可以定义自己的参数,但它们共享一个通用的 API:load(): 一次性加载所有文档。loadAndSplit(): 一次性加载所有文档,并将其拆分为更小的文档。
按类别划分
LangChain.js 以两种不同的方式对文档加载器进行分类:文件加载器
如果您想贡献一个集成,请参阅贡献集成。
| 文档加载器 | 描述 | 包/API |
|---|---|---|
PDFLoader | 使用 pdf-parse 加载和解析 PDF 文件 | 包 |
常见文件类型
专用文件加载器
| 文档加载器 | 描述 | 包/API |
|---|---|---|
DirectoryLoader | 从目录加载所有文件,支持自定义加载器映射 | 包 |
UnstructuredLoader | 使用 Unstructured API 加载多种文件类型 | API |
MultiFileLoader | 从多个独立文件路径加载数据 | 包 |
ChatGPT | 加载 ChatGPT 对话导出文件 | 包 |
| Notion Markdown | 加载导出为 Markdown 的 Notion 页面 | 包 |
OracleDocLoader | 摄取 Oracle AI Vector Search 表或 Oracle Text 支持的文件 | 包 |
| OpenAI Whisper Audio | 使用 OpenAI Whisper API 转录音频文件 | API |
网络加载器
网页
| 文档加载器 | 描述 | 网络支持 | 包/API |
|---|---|---|---|
Cheerio | 使用 Cheerio 加载网页(轻量级,不执行 JavaScript) | ✅ | 包 |
Playwright | 使用 Playwright 加载动态网页(支持 JavaScript 渲染) | ❌ | 包 |
Puppeteer | 使用 Puppeteer 加载动态网页(无头 Chrome) | ❌ | 包 |
FireCrawl | 爬取网站并将其转换为适合 LLM 的 Markdown | ✅ | API |
Spider | 快速爬虫,将网站转换为 HTML、Markdown 或文本 | ✅ | API |
RecursiveUrlLoader | 递归加载网页,跟随链接 | ❌ | 包 |
Sitemap | 从 sitemap.xml 加载所有页面 | ✅ | 包 |
Browserbase | 使用托管的无头浏览器加载网页,支持隐身模式 | ✅ | API |
WebPDFLoader | 在网络环境中加载 PDF 文件 | ✅ | 包 |
云提供商
| 文档加载器 | 描述 | 网络支持 | 包/API |
|---|---|---|---|
S3 | 从 AWS S3 存储桶加载文件 | ❌ | 包 |
| Azure Blob Storage Container | 从 Azure Blob Storage 容器加载所有文件 | ❌ | 包 |
| Azure Blob Storage File | 从 Azure Blob Storage 加载单个文件 | ❌ | 包 |
| Google Cloud Storage | 从 Google Cloud Storage 存储桶加载文件 | ❌ | 包 |
| Google Cloud SQL for PostgreSQL | 从 Cloud SQL PostgreSQL 数据库加载文档 | ✅ | 包 |
生产力工具
| 文档加载器 | 描述 | 网络支持 | 包/API |
|---|---|---|---|
| Notion API | 通过 API 加载 Notion 页面和数据库 | ✅ | API |
Figma | 加载 Figma 文件数据 | ✅ | API |
Confluence | 从 Confluence 空间加载页面 | ❌ | API |
GitHub | 从 GitHub 仓库加载文件 | ✅ | API |
GitBook | 加载 GitBook 文档页面 | ✅ | 包 |
Jira | 从 Jira 项目加载问题 | ❌ | API |
Airtable | 从 Airtable 基础加载记录 | ✅ | API |
Taskade | 加载 Taskade 项目数据 | ✅ | API |
搜索与数据 API
| 文档加载器 | 描述 | 网络支持 | 包/API |
|---|---|---|---|
SearchAPI | 从 SearchAPI 加载网络搜索结果(Google、YouTube 等) | ✅ | API |
SerpApi | 从 SerpApi 加载网络搜索结果 | ✅ | API |
| Apify Dataset | 从 Apify 平台加载抓取的数据 | ✅ | API |
音频与视频
| 文档加载器 | 描述 | 网络支持 | 包/API |
|---|---|---|---|
YouTube | 加载 YouTube 视频字幕 | ✅ | 包 |
AssemblyAI | 使用 AssemblyAI API 转录音频和视频文件 | ✅ | API |
Soniox | 使用 Soniox API 转录多语言音频文件,支持可选翻译 | ✅ | API |
Sonix | 使用 Sonix API 转录音频文件 | ❌ | API |
其他
| 文档加载器 | 描述 | 网络支持 | 包/API |
|---|---|---|---|
Couchbase | 使用 SQL++ 查询从 Couchbase 数据库加载文档 | ✅ | 包 |
LangSmith | 从 LangSmith 加载数据集和跟踪记录 | ✅ | API |
| Hacker News | 加载 Hacker News 主题和评论 | ✅ | 包 |
IMSDB | 从 Internet Movie Script Database 加载电影剧本 | ✅ | 包 |
| College Confidential | 从 College Confidential 加载大学信息 | ✅ | 包 |
| Blockchain Data | 通过 Sort.xyz API 加载区块链数据(NFT、交易) | ✅ | API |
所有文档加载器
Airtable
Apify Dataset
AssemblyAI Audio Transcript
Azure Blob Storage Container
Azure Blob Storage File
Blockchain Data
Browserbase
ChatGPT
Cheerio
College Confidential
Confluence
Couchbase
CSV
DirectoryLoader
DOCX
EPUB
Figma
FireCrawl
GitHub
GitBook
Google Cloud SQL for PostgreSQL
Google Cloud Storage
Hacker News
IMSDB
Jira
JSON
JSONLines
LangSmith
MultiFileLoader
Notion API
Notion Markdown
OpenAI Whisper Audio
OracleDocLoader
PDFLoader
Playwright
PPTX
Puppeteer
RecursiveUrlLoader
S3
SearchAPI
SerpApi
Sitemap
Soniox
Sonix Audio
Spider
Subtitles
Taskade
Text
UnstructuredLoader
WebPDFLoader
YouTube
Connect these docs to Claude, VSCode, and more via MCP for real-time answers.

