Undatasio 集成 - LangChain中文版文档

本笔记本提供了快速入门 UnDatasIO 文档加载器 的概述。UnDatasIO 通过其安全的云 API，支持高效加载和解析多种文档格式，包括 PDF、PNG、JPG、JPEG 和 JFIF，并具备文档懒加载和原生异步支持等功能。这些能力使得处理后的数据能够直接用于生成式 AI 工作流，如 RAG。有关所有功能和配置的详细文档，请参阅官方 API 参考。

概述

加载器特性

源	文档懒加载	原生异步支持
`UnDatasIOLoader`	✅	✅

设置

凭证

UnDatasIO 需要一个 API 令牌。请在 undatas.io 生成一个免费令牌，并在下面的单元格中设置：

import getpass
import os

if "UNDATASIO_TOKEN" not in os.environ:
    os.environ["UNDATASIO_TOKEN"] = getpass.getpass(
        "Enter your UnDatasIO API token: "
    )

安装

常规安装

运行本笔记本的其余部分需要以下包。

# 安装包，兼容 API 分区
pip install langchain-undatasio

初始化

UnDatasIOLoader 支持通过 UnDatasIO 云 API 进行单文件上传和解析。

from langchain_undatasio import UnDatasIOLoader

loader = UnDatasIOLoader(
    token=os.environ["UNDATASIO_TOKEN"],
    file_path="demo.pdf"
)

加载

docs = loader.load()
docs[0]

Document(
    metadata={'source': 'demo.pdf', 'task_id': 't1', 'file_id': 'f1'},
    page_content='Growing a Tail: Increasing Output Diversity in Large Language Models\n\nAuthors: Michal Shur-Ofry1, Bar Horowitz-Amsalem1†, Adir Rahamim2, Yonatan Belinkov2*\n\nAffiliations:\n\n1Law Faculty, Hebrew University of Jerusalem; Jerusalem, Israel.\n\n2Faculty of Computer Science, Technion – I'
)

print(docs[0].page_content[:300])

Growing a Tail: Increasing Output Diversity in Large Language Models

Authors: Michal Shur-Ofry1, Bar Horowitz-Amsalem1†, Adir Rahamim2, Yonatan Belinkov2*

Affiliations:

1Law Faculty, Hebrew University of Jerusalem; Jerusalem, Israel.

2Faculty of Computer Science, Technion – I

懒加载

UnDatasIOLoader 支持懒加载，以实现内存高效迭代。

pages = []
for doc in loader.lazy_load():
    pages.append(doc)

pages[0]

Document(
    metadata={'source': 'demo.pdf', 'task_id': 't1', 'file_id': 'f1'},
    page_content='Growing a Tail: Increasing Output Diversity in Large Language Models\n\nAuthors: Michal Shur-Ofry1, Bar Horowitz-Amsalem1†, Adir Rahamim2, Yonatan Belinkov2*\n\nAffiliations:\n\n1Law Faculty, Hebrew University of Jerusalem; Jerusalem, Israel.\n\n2Faculty of Computer Science, Technion – I'
)

另请参阅

Edit this page on GitHub or file an issue.

Connect these docs to Claude, VSCode, and more via MCP for real-time answers.

​概述

​加载器特性

​设置

​凭证

​安装

​常规安装

​初始化

​加载

​懒加载

​另请参阅

概述

加载器特性

设置

凭证

安装

常规安装

初始化

加载

懒加载

另请参阅