Skip to main content
Polaris AI DataInsight 是一个文档解析器, 它从各种文件格式中提取文档元素(文本、图像、复杂表格、图表等)为结构化 JSON, 使其易于集成到 RAG 系统中。

安装

安装 langchain-polaris-ai-datainsight 包。
pip install langchain-polaris-ai-datainsight

环境设置

请确保设置以下环境变量:
  • POLARIS_AI_DATA_INSIGHT_API_KEY: 您的 Polaris AI DataInsight API 密钥。请阅读 Polaris AI DataInsight 文档 以获取您的 API 密钥。

使用方法

import getpass
import os

os.environ["POLARIS_AI_DATA_INSIGHT_API_KEY"] = getpass.getpass(
    "请输入您的 PolarisAIDataInsight API 密钥: "
)
from langchain_polaris_ai_datainsight import PolarisAIDataInsightLoader

loader = PolarisAIDataInsightLoader(
    file_path="example_data/polaris_ai_example.docx",
    resources_dir="example_data/tmp",
    mode="page",  # 可选 "element"、"page" 或 "single"。(默认为 "single")
)

docs = loader.load()  # 或使用 loader.lazy_load()

for doc in docs[:3]:
    print(" --------- < 页面内容 > --------- ")
    print(doc.page_content)
    print(" --------- < 元数据 > --------- ")
    print(doc.metadata)
    print("\n")
然后,您将看到从文档中提取的内容和元数据,如下所示:
--------- < 页面内容 > ---------
2025 种子计划申请

I. 各赛道资助信息

1. 初级与高级赛道对比概览

<table><tbody><tr><td>类别</td><td>初级赛道*</td><td>高级赛道*</td></tr><tr><td>资助目标</td><td>位于韩国以外、设有中央资助管理部门、具备现有韩国研究基础设施并计划建立教育基金会的大学。</td><td>设有中央资助管理部门、至少有一名韩国研究全职教职人员、拥有韩国研究本科专业或系部,并承诺支持韩国研究的非韩国大学。</td></tr><tr><td>资助期限</td><td>3 年</td><td>5 年<3+2年></td></tr><tr><td>资助规模</td><td>最大可能资助取决于申请大学所在国家<br><table><tbody><tr><td>国家分组*</td><td>最大资助**</td></tr><tr><td>A</td><td>最高 2 亿韩元</td></tr><tr><td>B</td><td>最高 5000 万韩元</td></tr></tbody></table></td><td>最大可能资助取决于申请大学所在国家<br><table><tbody><tr><td>国家分组*</td><td>最大资助**</td></tr><tr><td>A</td><td>最高 1.5 亿韩元</td></tr><tr><td>B</td><td>最高 9000 万韩元</td></tr></tbody></table></td></tr><tr><td>必需项目内容</td><td>·	资助 2 名或更多奖学金学生<br>·	开设 1 门或更多常规韩国研究讲座课程(韩语课程除外)<br>·	每年举办 1 次或更多学生可参与的研讨会</td><td>·	聘请 1 名或更多韩国研究全职教职人员<br>·	资助 1 名或更多韩国研究奖学金学生<br>·	开设 2 门或更多研究生级别的常规韩国研究讲座课程(韩语课程除外)<br>·	举办 1 次或更多国际韩国研究会议<br>·	建立并管理与项目相关的网站、博客或社交媒体</td></tr><tr><td>推荐内容</td><td>·	培养人才(教育)<br>·	建立韩国研究机构/中心<br>·	设立韩国研究本科专业/系部及项目<br>·	开发韩国研究教材<br>·	举办学术活动</td><td>·	培养人才(教育)<br>·	建立韩国研究机构/中心<br>·	设立韩国研究硕士/博士专业/系部及项目<br>·	开发韩国研究教材<br>·	举办学术活动</td></tr></tbody></table>

<img id="di.image.im12" data-category="image"/>

 2 / 3


 --------- < 元数据 > ---------
{'di.text.he2te0': {'id': 'di.text.he2te0', 'type': 'text'}, 'di.text.te0': {'id': 'di.text.te0', 'type': 'text'}, 'di.text.te2': {'id': 'di.text.te2', 'type': 'text'}, 'di.table.ta9': {'id': 'di.table.ta9', 'type': 'table'}, 'di.image.im12': {'id': 'di.image.im12', 'type': 'image', 'src': '/home/jenkins_agent/Project/langchain/docs/docs/integrations/document_loaders/example_data/tmp/tmpaynkptxx/polaris_ai_example.docx_image12.png'}, 'di.text.fo3te0': {'id': 'di.text.fo3te0', 'type': 'text'}}


 --------- < 页面内容 > ---------
2025 种子计划申请

II. 评审与选拔

1. 评审流程

<img id="di.image.im13" data-category="image"/>





审查是否满足申请的基本要求







项目提案评审

由专家评审团队执行







最终评审与决定

由综合评审委员会执行



1. 初步评审



2. 内容评审 (80)



3. 综合评审 (20)

2. 评审阶段与内容

阶段 1: 初步评审

由主管部门执行

●	核实文件提交、资格和重复支持情况。
●	缺少必要文件、签名或不满足资格的申请不予进入下一阶段。
●	间接费用超过直接费用(含人工费用)10% 的申请将被拒绝。

阶段 2: 内容评审

由专家评审团队执行

●	在线评审:独立打分
●	小组评审:通过共识确定分数
●	评估领导潜力、能力和项目计划。
●	为评估分配的项目和分数。

<table><tbody><tr><td>领域</td><td>项目(分数)</td><td>内容</td></tr></tbody></table>

 2 / 3


 --------- < 元数据 > ---------
{'di.text.he2te0': {'id': 'di.text.he2te0', 'type': 'text'}, 'di.text.te10': {'id': 'di.text.te10', 'type': 'text'}, 'di.text.te12': {'id': 'di.text.te12', 'type': 'text'}, 'di.image.im13': {'id': 'di.image.im13', 'type': 'image', 'src': '/home/jenkins_agent/Project/langchain/docs/docs/integrations/document_loaders/example_data/tmp/tmpaynkptxx/polaris_ai_example.docx_image13.png'}, 'di.text.sh15': {'id': 'di.text.sh15', 'type': 'text'}, 'di.text.sh16': {'id': 'di.text.sh16', 'type': 'text'}, 'di.text.sh16te0': {'id': 'di.text.sh16te0', 'type': 'text'}, 'di.text.sh17': {'id': 'di.text.sh17', 'type': 'text'}, 'di.text.sh18': {'id': 'di.text.sh18', 'type': 'text'}, 'di.text.sh19': {'id': 'di.text.sh19', 'type': 'text'}, 'di.text.sh19te0': {'id': 'di.text.sh19te0', 'type': 'text'}, 'di.text.sh19te1': {'id': 'di.text.sh19te1', 'type': 'text'}, 'di.text.sh20': {'id': 'di.text.sh20', 'type': 'text'}, 'di.text.sh21': {'id': 'di.text.sh21', 'type': 'text'}, 'di.text.sh22': {'id': 'di.text.sh22', 'type': 'text'}, 'di.text.sh22te0': {'id': 'di.text.sh22te0', 'type': 'text'}, 'di.text.sh22te1': {'id': 'di.text.sh22te1', 'type': 'text'}, 'di.text.sh23': {'id': 'di.text.sh23', 'type': 'text'}, 'di.text.sh23te0': {'id': 'di.text.sh23te0', 'type': 'text'}, 'di.text.sh24': {'id': 'di.text.sh24', 'type': 'text'}, 'di.text.sh24te0': {'id': 'di.text.sh24te0', 'type': 'text'}, 'di.text.sh25': {'id': 'di.text.sh25', 'type': 'text'}, 'di.text.sh25te0': {'id': 'di.text.sh25te0', 'type': 'text'}, 'di.text.te15': {'id': 'di.text.te15', 'type': 'text'}, 'di.text.te16': {'id': 'di.text.te16', 'type': 'text'}, 'di.text.te17': {'id': 'di.text.te17', 'type': 'text'}, 'di.text.te18': {'id': 'di.text.te18', 'type': 'text'}, 'di.text.te19': {'id': 'di.text.te19', 'type': 'text'}, 'di.text.te20': {'id': 'di.text.te20', 'type': 'text'}, 'di.text.te21': {'id': 'di.text.te21', 'type': 'text'}, 'di.text.te22': {'id': 'di.text.te22', 'type': 'text'}, 'di.text.te23': {'id': 'di.text.te23', 'type': 'text'}, 'di.text.te24': {'id': 'di.text.te24', 'type': 'text'}, 'di.text.te25': {'id': 'di.text.te25', 'type': 'text'}, 'di.text.te26': {'id': 'di.text.te26', 'type': 'text'}, 'di.table.ta26': {'id': 'di.table.ta26', 'type': 'table'}, 'di.text.fo3te0': {'id': 'di.text.fo3te0', 'type': 'text'}}


 --------- < 页面内容 > ---------
2025 种子计划申请

<table><tbody><tr><td rowspan="3">项目基础评估 (40)</td><td>引领韩国研究的潜力 (20)</td><td>- 评估大学在历史和学科方面是否具有卓越声誉。<br>- 评估项目负责人与当地研究人员之间网络的强度。</td></tr><tr><td>执行能力 (20)<br>资格标准 (10)</td><td>- 确定项目负责人是否具备执行项目的技能和承诺(例如,韩语能力、在机构内的影响力、管理技能)。<br>- 审查合作研究人员在韩国研究方面的成就。<br>- 确认人员(初级/高级)或课程(高级)是否满足资格标准。</td></tr><tr><td>大学支持 (10)</td><td>- 衡量机构支持韩国研究的意愿(财务、空间和人力资源,适当的间接费用比例)。<br>- 评估中央资助管理部门的能力。</td></tr><tr><td rowspan="2">项目内容评估 (40)</td><td>项目计划 (30)</td><td>- 确保项目目标现实且明确。<br>- 验证计划是否符合当地条件。<br>- 审查项目团队结构的适宜性。<br>- 评估预算计划是否反映了当地价格水平。</td></tr></tbody></table>

 2 / 3


 --------- < 元数据 > ---------
{'di.text.he2te0': {'id': 'di.text.he2te0', 'type': 'text'}, 'di.table.ta29': {'id': 'di.table.ta29', 'type': 'table'}, 'di.text.fo3te0': {'id': 'di.text.fo3te0', 'type': 'text'}}