Skip to main content
文档加载器提供了一个标准接口,用于从不同来源(如 Slack、Notion 或 Google Drive)读取数据并转换为 LangChain 的 Document 格式。 这确保了无论数据来源如何,数据都能得到一致的处理。 所有文档加载器都实现了 BaseLoader 接口。

接口

每个文档加载器可以定义自己的参数,但它们共享一个通用 API:
  • load() – 一次性加载所有文档。
  • lazy_load() – 惰性流式传输文档,适用于大型数据集。
from langchain_community.document_loaders.csv_loader import CSVLoader

loader = CSVLoader(
    ...  # Integration-specific parameters here
)

# Load all documents
documents = loader.load()

# For large datasets, lazily load documents
for document in loader.lazy_load():
    print(document)

按类别

网页

以下文档加载器允许您加载网页。
文档加载器描述包/API
Web使用 urllib 和 BeautifulSoup 加载和解析 HTML 网页
Unstructured使用 Unstructured 加载和解析网页
RecursiveURL递归抓取根 URL 下的所有子链接
Sitemap抓取给定站点地图上的所有页面
Spider返回 LLM 就绪数据的爬虫和刮取器API
Firecrawl可本地部署的 API 服务API
Apify Dataset从 Apify 数据集加载文档API
Docling使用 Docling 加载和解析网页
Hyperbrowser运行和扩展无头浏览器的平台,可用于抓取/爬取任何网站API
AgentQL使用 AgentQL 查询或自然语言提示进行网页交互和结构化数据提取API

PDF 文件

以下文档加载器允许您加载 PDF 文档。
文档加载器描述包/API
PyPDF使用 pypdf 加载和解析 PDF
Unstructured使用 Unstructured 的开源库加载 PDF
Amazon Textract使用 AWS API 加载 PDFAPI
MathPix使用 MathPix 加载 PDF
PDFPlumber使用 PDFPlumber 加载 PDF 文件
PyPDFDirectry加载包含 PDF 文件的目录
PyPDFium2使用 PyPDFium2 加载 PDF 文件
PyMuPDF使用 PyMuPDF 加载 PDF 文件
PyMuPDF4LLM使用 PyMuPDF4LLM 将 PDF 内容加载为 Markdown
PDFMiner使用 PDFMiner 加载 PDF 文件
Upstage Document Parse Loader使用 UpstageDocumentParseLoader 加载 PDF 文件
Docling使用 Docling 加载 PDF 文件
UnDatasIO使用 UnDatasIO 加载 PDF 文件
OpenDataLoader PDF使用 OpenDataLoader PDF 加载 PDF 文件

云提供商

以下文档加载器允许您从您喜欢的云提供商加载文档。
文档加载器描述合作伙伴包API 参考
AWS S3 Directory从 AWS S3 目录加载文档S3DirectoryLoader
AWS S3 File从 AWS S3 文件加载文档S3FileLoader
Azure AI Data从 Azure AI 服务加载文档AzureAIDataLoader
Azure Blob Storage从 Azure Blob Storage 加载文档AzureBlobStorageLoader
Dropbox从 Dropbox 加载文档DropboxLoader
Google Cloud Storage Directory从 GCS 存储桶加载文档GCSDirectoryLoader
Google Cloud Storage File从 GCS 文件对象加载文档GCSFileLoader
Google Drive从 Google Drive 加载文档(仅限 Google Docs)GoogleDriveLoader
Huawei OBS Directory从华为对象存储服务目录加载文档OBSDirectoryLoader
Huawei OBS File从华为对象存储服务文件加载文档OBSFileLoader
Microsoft OneDrive从 Microsoft OneDrive 加载文档OneDriveLoader
Microsoft SharePoint从 Microsoft SharePoint 加载文档SharePointLoader
Tencent COS Directory从腾讯云对象存储目录加载文档TencentCOSDirectoryLoader
Tencent COS File从腾讯云对象存储文件加载文档TencentCOSFileLoader

社交平台

以下文档加载器允许您从不同的社交媒体平台加载文档。

消息服务

以下文档加载器允许您从不同的消息平台加载数据。

生产力工具

以下文档加载器允许您从常用的生产力工具中加载数据。

常见文件格式

以下文档加载器允许您从常见的数据格式中加载数据。

所有文档加载器

acreom

AgentQLLoader

AirbyteLoader

Airtable

Alibaba Cloud MaxCompute

Amazon Textract

Apify Dataset

ArxivLoader

AssemblyAI Audio Transcripts

AstraDB

Async Chromium

AsyncHtml

Athena

AWS S3 Directory

AWS S3 File

AZLyrics

Azure AI Data

Azure Blob Storage

Azure AI Document Intelligence

BibTeX

BiliBili

Blackboard

Blockchain

Box

Brave Search

Browserbase

Browserless

BSHTMLLoader

Cassandra

ChatGPT Data

College Confidential

Concurrent Loader

Confluence

CoNLL-U

Copy Paste

Couchbase

CSV

Cube Semantic Layer

Datadog Logs

Dedoc

Diffbot

Discord

Docling

Docugami

Docusaurus

Dropbox

Email

EPub

Etherscan

EverNote

Facebook Chat

Fauna

Figma

FireCrawl

Geopandas

Git

GitBook

GitHub

Glue Catalog

Google AlloyDB for PostgreSQL

Google BigQuery

Google Bigtable

Google Cloud SQL for SQL Server

Google Cloud SQL for MySQL

Google Cloud SQL for PostgreSQL

Google Cloud Storage Directory

Google Cloud Storage File

Google Firestore in Datastore Mode

Google Drive

Google El Carro for Oracle Workloads

Google Firestore (Native Mode)

Google Memorystore for Redis

Google Spanner

Google Speech-to-Text

Grobid

Gutenberg

Hacker News

Huawei OBS Directory

Huawei OBS File

HuggingFace Dataset

HyperbrowserLoader

iFixit

Images

Image Captions

IMSDb

Iugu

Joplin

JSONLoader

Jupyter Notebook

Kinetica

lakeFS

LangSmith

LarkSuite (FeiShu)

LLM Sherpa

Mastodon

MathPixPDFLoader

MediaWiki Dump

Merge Documents Loader

MHTML

Microsoft Excel

Microsoft OneDrive

Microsoft OneNote

Microsoft PowerPoint

Microsoft SharePoint

Microsoft Word

Near Blockchain

Modern Treasury

MongoDB

Needle Document Loader

News URL

Notion DB

Nuclia

Obsidian

OpenDataLoader PDF

Open Document Format (ODT)

Open City Data

Oracle Autonomous Database

Oracle AI Database

Org-mode

Outline Document Loader

PaddleOCR-VL

Pandas DataFrame

PDFMinerLoader

PDFPlumber

Pebblo Safe DocumentLoader

Polaris AI DataInsight

Polars DataFrame

Dell PowerScale

Psychic

PubMed

PyMuPDFLoader

PyMuPDF4LLM

PyPDFDirectoryLoader

PyPDFium2Loader

PyPDFLoader

PySpark

Quip

ReadTheDocs Documentation

Recursive URL

Reddit

Roam

Rockset

rspace

RSS Feeds

RST

scrapfly

ScrapingAnt

SingleStore

Sitemap

Slack

Snowflake

Soniox

Source Code

Spider

Spreedly

Stripe

Subtitle

SurrealDB

Telegram

Tencent COS Directory

Tencent COS File

TensorFlow Datasets

TiDB

2Markdown

TOML

Trello

TSV

Twitter

UnDatasIO

Unstructured

UnstructuredMarkdownLoader

UnstructuredPDFLoader

Upstage

URL

Vsdx

Weather

WebBaseLoader

WhatsApp Chat

Wikipedia

UnstructuredXMLLoader

Xorbits Pandas DataFrame

YouTube Audio

YouTube Transcripts

YoutubeLoaderDL

Yuque

ZeroxPDFLoader