- 确定性——相同的输入总是产生相同的输出(无 LLM 幻觉)
- 快速——在 CPU 上每秒处理 100+ 页
- 私密——100% 本地运行,零数据传输
- 准确——为每个元素提供边界框,正确的多列阅读顺序
概述
集成详情
| 类 | 包 | 本地 | 可序列化 | JS 支持 |
|---|---|---|---|---|
| OpenDataLoader PDF | langchain-opendataloader-pdf | ✅ | ❌ | ❌ |
加载器特性
| 来源 | 文档惰性加载 | 原生异步支持 |
|---|---|---|
OpenDataLoaderPDFLoader | ✅ | ❌ |
OpenDataLoaderPDFLoader 组件使您能够将 PDF 解析为结构化的 Document 对象。
要求
- Python >= 3.10
- 系统
PATH中需有 Java 11 或更新版本
安装
快速开始
参数
| 参数 | 类型 | 默认值 | 描述 |
|---|---|---|---|
file_path | str | List[str] | — | (必需) PDF 文件路径或目录路径 |
format | str | "text" | 输出格式:"text"、"markdown"、"json"、"html" |
split_pages | bool | True | 是否按页面拆分为独立的 Document 对象 |
quiet | bool | False | 是否抑制控制台日志输出 |
password | str | None | 加密 PDF 的密码 |
use_struct_tree | bool | False | 是否使用 PDF 结构树(适用于带标签的 PDF) |
table_method | str | "default" | "default"(基于边框)或 "cluster"(边框 + 聚类) |
reading_order | str | "xycut" | "xycut" 或 "off" |
keep_line_breaks | bool | False | 是否保留原始换行符 |
image_output | str | "off" | "off"、"embedded"(Base64)或 "external" |
image_format | str | "png" | "png" 或 "jpeg" |
content_safety_off | List[str] | None | 禁用安全过滤器:"hidden-text"、"off-page"、"tiny"、"hidden-ocg"、"all" |
replace_invalid_chars | str | None | 用于替换无效字符的字符串 |
使用示例
输出格式
带标签的 PDF 支持
对于具有结构标签的可访问 PDF(常见于政府/法律文档):密码保护的 PDF
图像处理
文档元数据
每个返回的Document 都包含元数据:
其他资源
- LangChain OpenDataLoader PDF 集成 GitHub
- LangChain OpenDataLoader PDF 集成 PyPI 包
- OpenDataLoader PDF GitHub
- OpenDataLoader PDF 主页
Connect these docs to Claude, VSCode, and more via MCP for real-time answers.

