Skip to main content
来自 Unstructured.IOunstructured 包可以从 PDF 和 Word 文档等原始源文档中提取干净的文本。 本页面介绍如何在 LangChain 中使用 unstructured 生态系统。

安装与设置

如果您使用的是本地运行的加载器,请使用以下步骤来运行 unstructured 及其 依赖项。
  • 为了获得最小的安装占用空间并利用开源 unstructured 包中不可用的功能,请安装 Python SDK 与 pip install unstructured-client 一起安装 pip install langchain-unstructured 以使用 UnstructuredLoader 并针对 Unstructured API 进行远程分区。此加载器位于 LangChain 合作伙伴仓库中而不是 langchain-community 仓库,您将需要一个 api_key。您可以在 Unstructured API 密钥页面生成免费密钥
  • 要在本地运行所有内容,请安装开源 Python 包 pip install unstructured 以及 pip install langchain-community 并使用上述相同的 UnstructuredLoader
    • 您可以使用扩展安装特定于文档的依赖项,例如 pip install "unstructured[docx]"。有关扩展的更多信息,请参阅 完整安装文档
    • 要安装所有文档类型的依赖项,请使用 pip install "unstructured[all-docs]"
  • 如果您的系统上尚未提供以下系统依赖项,请安装它们,例如 Mac 上使用 brew install。 根据您正在解析的文档类型,您可能不需要所有这些。
    • libmagic-dev(文件类型检测)
    • poppler-utils(图像和 PDF)
    • tesseract-ocr(图像和 PDF)
    • qpdf(PDF)
    • libreoffice(MS Office 文档)
    • pandoc(EPUB)
  • 在本地运行时,Unstructured 还建议使用 Docker 按照此 指南 以确保所有 系统依赖项都正确安装。
Unstructured API 需要 API 密钥才能发出请求。 您可以 申请 API 密钥 并开始使用! 查看 Unstructured API README 以开始进行 API 调用。 我们非常乐意听取您的反馈,请在我们的 社区 Slack 中告诉我们进展如何。 敬请关注质量和性能的提升! 如果您想自行托管 Unstructured API 或在本地运行它,请查看 Docker 自托管说明

数据加载器

“Unstructured”的主要用途在于数据加载器。

UnstructuredLoader

查看 使用示例 以了解如何使用 此加载器在本地和通过无服务器 Unstructured API 进行远程分区。
from langchain_unstructured import UnstructuredLoader

UnstructuredCHMLoader

CHM 表示 Microsoft Compiled HTML Help
from langchain_community.document_loaders import UnstructuredCHMLoader

UnstructuredCSVLoader

逗号分隔值CSV)文件是一种使用 逗号分隔值的定界文本文件。文件的每一行是一条数据记录。 每条记录由一个或多个字段组成,字段之间用逗号分隔。 查看 使用示例
from langchain_community.document_loaders import UnstructuredCSVLoader

UnstructuredEmailLoader

查看 使用示例
from langchain_community.document_loaders import UnstructuredEmailLoader

UnstructuredEPubLoader

EPUB 是一种 电子书文件格式 使用 .epub 文件扩展名。该术语是电子出版物的缩写, 有时也写作 ePubEPUB 受到许多电子阅读器的支持,并且兼容 软件适用于大多数智能手机、平板电脑和计算机。 查看 使用示例
from langchain_community.document_loaders import UnstructuredEPubLoader

UnstructuredExcelLoader

查看 使用示例
from langchain_community.document_loaders import UnstructuredExcelLoader

UnstructuredFileIOLoader

查看 使用示例
from langchain_community.document_loaders import UnstructuredFileIOLoader

UnstructuredHTMLLoader

from langchain_community.document_loaders import UnstructuredHTMLLoader

UnstructuredImageLoader

查看 使用示例
from langchain_community.document_loaders import UnstructuredImageLoader

UnstructuredMarkdownLoader

查看 使用示例
from langchain_community.document_loaders import UnstructuredMarkdownLoader

UnstructuredODTLoader

办公应用程序开放文档格式 (ODF),也称为 OpenDocument, 是一种用于文字处理文档、电子表格、演示文稿 和图形的开放文件格式,使用 ZIP 压缩 XML 文件。它的开发目的是 为办公应用程序提供一个开放的、基于 XML 的文件格式规范。 查看 使用示例
from langchain_community.document_loaders import UnstructuredODTLoader

UnstructuredOrgModeLoader

Org Mode 文档是一种文档编辑、格式化和组织模式,专为在自由软件文本编辑器 Emacs 内进行笔记、规划和创作而设计。 查看 使用示例
from langchain_community.document_loaders import UnstructuredOrgModeLoader

UnstructuredPDFLoader

from langchain_community.document_loaders import UnstructuredPDFLoader

UnstructuredPowerPointLoader

查看 使用示例
from langchain_community.document_loaders import UnstructuredPowerPointLoader

UnstructuredRSTLoader

reStructured TextRST)文件是一种文本数据 文件格式,主要用于 Python 编程社区的技术文档。 查看 使用示例
from langchain_community.document_loaders import UnstructuredRSTLoader

UnstructuredRTFLoader

在 API 文档中查看使用示例。
from langchain_community.document_loaders import UnstructuredRTFLoader

UnstructuredTSVLoader

制表符分隔值TSV)文件是一种简单的、基于文本的文件格式,用于存储表格数据。 记录由换行符分隔,记录内的值由制表符字符分隔。 查看 使用示例
from langchain_community.document_loaders import UnstructuredTSVLoader

UnstructuredURLLoader

查看 使用示例
from langchain_community.document_loaders import UnstructuredURLLoader

UnstructuredWordDocumentLoader

查看 使用示例
from langchain_community.document_loaders import UnstructuredWordDocumentLoader

UnstructuredXMLLoader

查看 使用示例
from langchain_community.document_loaders import UnstructuredXMLLoader