Skip to main content
文档加载器提供了一个标准接口,用于从不同来源(如 Slack、Notion 或 Google Drive)读取数据,并将其转换为 LangChain 的 Document 格式。 这确保了无论数据来源如何,都能以一致的方式进行处理。 所有文档加载器都实现了 BaseLoader 接口。

接口

每个文档加载器可以定义自己的参数,但它们共享一个通用的 API:
  • load(): 一次性加载所有文档。
  • loadAndSplit(): 一次性加载所有文档,并将其拆分为更小的文档。
import { CSVLoader } from "@langchain/community/document_loaders/fs/csv";

const loader = new CSVLoader(
  ...  // <-- 此处为集成特定参数
);
const data = await loader.load();

按类别划分

LangChain.js 以两种不同的方式对文档加载器进行分类:

文件加载器

如果您想贡献一个集成,请参阅贡献集成

PDF

文档加载器描述包/API
PDFLoader使用 pdf-parse 加载和解析 PDF 文件

常见文件类型

文档加载器描述包/API
CSV从 CSV 文件加载数据,支持可配置的列提取
JSON使用 JSON 指针加载 JSON 文件以定位特定键
JSONLines从 JSONLines/JSONL 文件加载数据
Text加载纯文本文件
DOCX加载 Microsoft Word 文档(.docx 和 .doc 格式)
EPUB加载 EPUB 文件,支持可选的章节拆分
PPTX加载 PowerPoint 演示文稿
Subtitles加载字幕文件(.srt 格式)

专用文件加载器

文档加载器描述包/API
DirectoryLoader从目录加载所有文件,支持自定义加载器映射
UnstructuredLoader使用 Unstructured API 加载多种文件类型API
MultiFileLoader从多个独立文件路径加载数据
ChatGPT加载 ChatGPT 对话导出文件
Notion Markdown加载导出为 Markdown 的 Notion 页面
OracleDocLoader摄取 Oracle AI Vector Search 表或 Oracle Text 支持的文件
OpenAI Whisper Audio使用 OpenAI Whisper API 转录音频文件API

网络加载器

网页

文档加载器描述网络支持包/API
Cheerio使用 Cheerio 加载网页(轻量级,不执行 JavaScript)
Playwright使用 Playwright 加载动态网页(支持 JavaScript 渲染)
Puppeteer使用 Puppeteer 加载动态网页(无头 Chrome)
FireCrawl爬取网站并将其转换为适合 LLM 的 MarkdownAPI
Spider快速爬虫,将网站转换为 HTML、Markdown 或文本API
RecursiveUrlLoader递归加载网页,跟随链接
Sitemap从 sitemap.xml 加载所有页面
Browserbase使用托管的无头浏览器加载网页,支持隐身模式API
WebPDFLoader在网络环境中加载 PDF 文件

云提供商

文档加载器描述网络支持包/API
S3从 AWS S3 存储桶加载文件
Azure Blob Storage Container从 Azure Blob Storage 容器加载所有文件
Azure Blob Storage File从 Azure Blob Storage 加载单个文件
Google Cloud Storage从 Google Cloud Storage 存储桶加载文件
Google Cloud SQL for PostgreSQL从 Cloud SQL PostgreSQL 数据库加载文档

生产力工具

文档加载器描述网络支持包/API
Notion API通过 API 加载 Notion 页面和数据库API
Figma加载 Figma 文件数据API
Confluence从 Confluence 空间加载页面API
GitHub从 GitHub 仓库加载文件API
GitBook加载 GitBook 文档页面
Jira从 Jira 项目加载问题API
Airtable从 Airtable 基础加载记录API
Taskade加载 Taskade 项目数据API

搜索与数据 API

文档加载器描述网络支持包/API
SearchAPI从 SearchAPI 加载网络搜索结果(Google、YouTube 等)API
SerpApi从 SerpApi 加载网络搜索结果API
Apify Dataset从 Apify 平台加载抓取的数据API

音频与视频

文档加载器描述网络支持包/API
YouTube加载 YouTube 视频字幕
AssemblyAI使用 AssemblyAI API 转录音频和视频文件API
Soniox使用 Soniox API 转录多语言音频文件,支持可选翻译API
Sonix使用 Sonix API 转录音频文件API

其他

文档加载器描述网络支持包/API
Couchbase使用 SQL++ 查询从 Couchbase 数据库加载文档
LangSmith从 LangSmith 加载数据集和跟踪记录API
Hacker News加载 Hacker News 主题和评论
IMSDB从 Internet Movie Script Database 加载电影剧本
College Confidential从 College Confidential 加载大学信息
Blockchain Data通过 Sort.xyz API 加载区块链数据(NFT、交易)API

所有文档加载器

Airtable

Apify Dataset

AssemblyAI Audio Transcript

Azure Blob Storage Container

Azure Blob Storage File

Blockchain Data

Browserbase

ChatGPT

Cheerio

College Confidential

Confluence

Couchbase

CSV

DirectoryLoader

DOCX

EPUB

Figma

FireCrawl

GitHub

GitBook

Google Cloud SQL for PostgreSQL

Google Cloud Storage

Hacker News

IMSDB

Jira

JSON

JSONLines

LangSmith

MultiFileLoader

Notion API

Notion Markdown

OpenAI Whisper Audio

OracleDocLoader

PDFLoader

Playwright

PPTX

Puppeteer

RecursiveUrlLoader

S3

SearchAPI

SerpApi

Sitemap

Soniox

Sonix Audio

Spider

Subtitles

Taskade

Text

UnstructuredLoader

WebPDFLoader

YouTube