Polaris AI DataInsight 是一个文档解析器, 它从各种文件格式中提取文档元素(文本、图像、复杂表格、图表等)为结构化 JSON, 使其易于集成到 RAG 系统中。
安装
安装langchain-polaris-ai-datainsight 包。
pip install langchain-polaris-ai-datainsight
环境设置
请确保设置以下环境变量:POLARIS_AI_DATA_INSIGHT_API_KEY: 您的 Polaris AI DataInsight API 密钥。请阅读 Polaris AI DataInsight 文档 以获取您的 API 密钥。
使用方法
import getpass
import os
os.environ["POLARIS_AI_DATA_INSIGHT_API_KEY"] = getpass.getpass(
"请输入您的 PolarisAIDataInsight API 密钥: "
)
from langchain_polaris_ai_datainsight import PolarisAIDataInsightLoader
loader = PolarisAIDataInsightLoader(
file_path="example_data/polaris_ai_example.docx",
resources_dir="example_data/tmp",
mode="page", # 可选 "element"、"page" 或 "single"。(默认为 "single")
)
docs = loader.load() # 或使用 loader.lazy_load()
for doc in docs[:3]:
print(" --------- < 页面内容 > --------- ")
print(doc.page_content)
print(" --------- < 元数据 > --------- ")
print(doc.metadata)
print("\n")
--------- < 页面内容 > ---------
2025 种子计划申请
I. 各赛道资助信息
1. 初级与高级赛道对比概览
<table><tbody><tr><td>类别</td><td>初级赛道*</td><td>高级赛道*</td></tr><tr><td>资助目标</td><td>位于韩国以外、设有中央资助管理部门、具备现有韩国研究基础设施并计划建立教育基金会的大学。</td><td>设有中央资助管理部门、至少有一名韩国研究全职教职人员、拥有韩国研究本科专业或系部,并承诺支持韩国研究的非韩国大学。</td></tr><tr><td>资助期限</td><td>3 年</td><td>5 年<3+2年></td></tr><tr><td>资助规模</td><td>最大可能资助取决于申请大学所在国家<br><table><tbody><tr><td>国家分组*</td><td>最大资助**</td></tr><tr><td>A</td><td>最高 2 亿韩元</td></tr><tr><td>B</td><td>最高 5000 万韩元</td></tr></tbody></table></td><td>最大可能资助取决于申请大学所在国家<br><table><tbody><tr><td>国家分组*</td><td>最大资助**</td></tr><tr><td>A</td><td>最高 1.5 亿韩元</td></tr><tr><td>B</td><td>最高 9000 万韩元</td></tr></tbody></table></td></tr><tr><td>必需项目内容</td><td>· 资助 2 名或更多奖学金学生<br>· 开设 1 门或更多常规韩国研究讲座课程(韩语课程除外)<br>· 每年举办 1 次或更多学生可参与的研讨会</td><td>· 聘请 1 名或更多韩国研究全职教职人员<br>· 资助 1 名或更多韩国研究奖学金学生<br>· 开设 2 门或更多研究生级别的常规韩国研究讲座课程(韩语课程除外)<br>· 举办 1 次或更多国际韩国研究会议<br>· 建立并管理与项目相关的网站、博客或社交媒体</td></tr><tr><td>推荐内容</td><td>· 培养人才(教育)<br>· 建立韩国研究机构/中心<br>· 设立韩国研究本科专业/系部及项目<br>· 开发韩国研究教材<br>· 举办学术活动</td><td>· 培养人才(教育)<br>· 建立韩国研究机构/中心<br>· 设立韩国研究硕士/博士专业/系部及项目<br>· 开发韩国研究教材<br>· 举办学术活动</td></tr></tbody></table>
<img id="di.image.im12" data-category="image"/>
2 / 3
--------- < 元数据 > ---------
{'di.text.he2te0': {'id': 'di.text.he2te0', 'type': 'text'}, 'di.text.te0': {'id': 'di.text.te0', 'type': 'text'}, 'di.text.te2': {'id': 'di.text.te2', 'type': 'text'}, 'di.table.ta9': {'id': 'di.table.ta9', 'type': 'table'}, 'di.image.im12': {'id': 'di.image.im12', 'type': 'image', 'src': '/home/jenkins_agent/Project/langchain/docs/docs/integrations/document_loaders/example_data/tmp/tmpaynkptxx/polaris_ai_example.docx_image12.png'}, 'di.text.fo3te0': {'id': 'di.text.fo3te0', 'type': 'text'}}
--------- < 页面内容 > ---------
2025 种子计划申请
II. 评审与选拔
1. 评审流程
<img id="di.image.im13" data-category="image"/>
审查是否满足申请的基本要求
项目提案评审
由专家评审团队执行
最终评审与决定
由综合评审委员会执行
1. 初步评审
2. 内容评审 (80 分)
3. 综合评审 (20 分)
2. 评审阶段与内容
阶段 1: 初步评审
由主管部门执行
● 核实文件提交、资格和重复支持情况。
● 缺少必要文件、签名或不满足资格的申请不予进入下一阶段。
● 间接费用超过直接费用(含人工费用)10% 的申请将被拒绝。
阶段 2: 内容评审
由专家评审团队执行
● 在线评审:独立打分
● 小组评审:通过共识确定分数
● 评估领导潜力、能力和项目计划。
● 为评估分配的项目和分数。
<table><tbody><tr><td>领域</td><td>项目(分数)</td><td>内容</td></tr></tbody></table>
2 / 3
--------- < 元数据 > ---------
{'di.text.he2te0': {'id': 'di.text.he2te0', 'type': 'text'}, 'di.text.te10': {'id': 'di.text.te10', 'type': 'text'}, 'di.text.te12': {'id': 'di.text.te12', 'type': 'text'}, 'di.image.im13': {'id': 'di.image.im13', 'type': 'image', 'src': '/home/jenkins_agent/Project/langchain/docs/docs/integrations/document_loaders/example_data/tmp/tmpaynkptxx/polaris_ai_example.docx_image13.png'}, 'di.text.sh15': {'id': 'di.text.sh15', 'type': 'text'}, 'di.text.sh16': {'id': 'di.text.sh16', 'type': 'text'}, 'di.text.sh16te0': {'id': 'di.text.sh16te0', 'type': 'text'}, 'di.text.sh17': {'id': 'di.text.sh17', 'type': 'text'}, 'di.text.sh18': {'id': 'di.text.sh18', 'type': 'text'}, 'di.text.sh19': {'id': 'di.text.sh19', 'type': 'text'}, 'di.text.sh19te0': {'id': 'di.text.sh19te0', 'type': 'text'}, 'di.text.sh19te1': {'id': 'di.text.sh19te1', 'type': 'text'}, 'di.text.sh20': {'id': 'di.text.sh20', 'type': 'text'}, 'di.text.sh21': {'id': 'di.text.sh21', 'type': 'text'}, 'di.text.sh22': {'id': 'di.text.sh22', 'type': 'text'}, 'di.text.sh22te0': {'id': 'di.text.sh22te0', 'type': 'text'}, 'di.text.sh22te1': {'id': 'di.text.sh22te1', 'type': 'text'}, 'di.text.sh23': {'id': 'di.text.sh23', 'type': 'text'}, 'di.text.sh23te0': {'id': 'di.text.sh23te0', 'type': 'text'}, 'di.text.sh24': {'id': 'di.text.sh24', 'type': 'text'}, 'di.text.sh24te0': {'id': 'di.text.sh24te0', 'type': 'text'}, 'di.text.sh25': {'id': 'di.text.sh25', 'type': 'text'}, 'di.text.sh25te0': {'id': 'di.text.sh25te0', 'type': 'text'}, 'di.text.te15': {'id': 'di.text.te15', 'type': 'text'}, 'di.text.te16': {'id': 'di.text.te16', 'type': 'text'}, 'di.text.te17': {'id': 'di.text.te17', 'type': 'text'}, 'di.text.te18': {'id': 'di.text.te18', 'type': 'text'}, 'di.text.te19': {'id': 'di.text.te19', 'type': 'text'}, 'di.text.te20': {'id': 'di.text.te20', 'type': 'text'}, 'di.text.te21': {'id': 'di.text.te21', 'type': 'text'}, 'di.text.te22': {'id': 'di.text.te22', 'type': 'text'}, 'di.text.te23': {'id': 'di.text.te23', 'type': 'text'}, 'di.text.te24': {'id': 'di.text.te24', 'type': 'text'}, 'di.text.te25': {'id': 'di.text.te25', 'type': 'text'}, 'di.text.te26': {'id': 'di.text.te26', 'type': 'text'}, 'di.table.ta26': {'id': 'di.table.ta26', 'type': 'table'}, 'di.text.fo3te0': {'id': 'di.text.fo3te0', 'type': 'text'}}
--------- < 页面内容 > ---------
2025 种子计划申请
<table><tbody><tr><td rowspan="3">项目基础评估 (40)</td><td>引领韩国研究的潜力 (20)</td><td>- 评估大学在历史和学科方面是否具有卓越声誉。<br>- 评估项目负责人与当地研究人员之间网络的强度。</td></tr><tr><td>执行能力 (20)<br>资格标准 (10)</td><td>- 确定项目负责人是否具备执行项目的技能和承诺(例如,韩语能力、在机构内的影响力、管理技能)。<br>- 审查合作研究人员在韩国研究方面的成就。<br>- 确认人员(初级/高级)或课程(高级)是否满足资格标准。</td></tr><tr><td>大学支持 (10)</td><td>- 衡量机构支持韩国研究的意愿(财务、空间和人力资源,适当的间接费用比例)。<br>- 评估中央资助管理部门的能力。</td></tr><tr><td rowspan="2">项目内容评估 (40)</td><td>项目计划 (30)</td><td>- 确保项目目标现实且明确。<br>- 验证计划是否符合当地条件。<br>- 审查项目团队结构的适宜性。<br>- 评估预算计划是否反映了当地价格水平。</td></tr></tbody></table>
2 / 3
--------- < 元数据 > ---------
{'di.text.he2te0': {'id': 'di.text.he2te0', 'type': 'text'}, 'di.table.ta29': {'id': 'di.table.ta29', 'type': 'table'}, 'di.text.fo3te0': {'id': 'di.text.fo3te0', 'type': 'text'}}
Connect these docs to Claude, VSCode, and more via MCP for real-time answers.

