Skip to main content
本笔记本提供了快速入门 UnDatasIO 文档加载器 的概述。UnDatasIO 通过其安全的云 API,支持高效加载和解析多种文档格式,包括 PDF、PNG、JPG、JPEG 和 JFIF,并具备文档懒加载和原生异步支持等功能。这些能力使得处理后的数据能够直接用于生成式 AI 工作流,如 RAG。 有关所有功能和配置的详细文档,请参阅官方 API 参考。

概述

加载器特性

文档懒加载原生异步支持
UnDatasIOLoader

设置

凭证

UnDatasIO 需要一个 API 令牌。 请在 undatas.io 生成一个免费令牌,并在下面的单元格中设置:
import getpass
import os

if "UNDATASIO_TOKEN" not in os.environ:
    os.environ["UNDATASIO_TOKEN"] = getpass.getpass(
        "Enter your UnDatasIO API token: "
    )

安装

常规安装

运行本笔记本的其余部分需要以下包。
# 安装包,兼容 API 分区
pip install langchain-undatasio

初始化

UnDatasIOLoader 支持通过 UnDatasIO 云 API 进行单文件上传和解析。
from langchain_undatasio import UnDatasIOLoader

loader = UnDatasIOLoader(
    token=os.environ["UNDATASIO_TOKEN"],
    file_path="demo.pdf"
)

加载

docs = loader.load()
docs[0]
Document(
    metadata={'source': 'demo.pdf', 'task_id': 't1', 'file_id': 'f1'},
    page_content='Growing a Tail: Increasing Output Diversity in Large Language Models\n\nAuthors: Michal Shur-Ofry1, Bar Horowitz-Amsalem1†, Adir Rahamim2, Yonatan Belinkov2*\n\nAffiliations:\n\n1Law Faculty, Hebrew University of Jerusalem; Jerusalem, Israel.\n\n2Faculty of Computer Science, Technion – I'
)
print(docs[0].page_content[:300])
Growing a Tail: Increasing Output Diversity in Large Language Models

Authors: Michal Shur-Ofry1, Bar Horowitz-Amsalem1†, Adir Rahamim2, Yonatan Belinkov2*

Affiliations:

1Law Faculty, Hebrew University of Jerusalem; Jerusalem, Israel.

2Faculty of Computer Science, Technion – I

懒加载

UnDatasIOLoader 支持懒加载,以实现内存高效迭代。
pages = []
for doc in loader.lazy_load():
    pages.append(doc)

pages[0]
Document(
    metadata={'source': 'demo.pdf', 'task_id': 't1', 'file_id': 'f1'},
    page_content='Growing a Tail: Increasing Output Diversity in Large Language Models\n\nAuthors: Michal Shur-Ofry1, Bar Horowitz-Amsalem1†, Adir Rahamim2, Yonatan Belinkov2*\n\nAffiliations:\n\n1Law Faculty, Hebrew University of Jerusalem; Jerusalem, Israel.\n\n2Faculty of Computer Science, Technion – I'
)

另请参阅