HuggingFacePipeline 类 在本地运行 OpenVINO 模型。要使用 OpenVINO 部署模型,您可以指定 backend="openvino" 参数以将 OpenVINO 触发为后端推理框架。
要使用它,您应该已安装带有 OpenVINO Accelerator 的 optimum-intel Python 包已安装。
模型加载
可以通过使用from_model_id 方法指定模型参数来加载模型。
如果您有 Intel GPU,可以指定 model_kwargs={"device": "GPU"} 在其上运行推理。
optimum-intel 流水线来加载
创建链
将模型加载到内存后,您可以将其与提示词组合以形成链。skip_prompt=True 绑定到 LLM。
使用本地 OpenVINO 模型进行推理
您可以通过 CLI 导出您的模型 为 OpenVINO IR 格式,并从本地文件夹加载模型。--weight-format 应用 8 位或 4 位权重量化,以减少推理延迟和模型占用空间:
ov_config 按如下方式启用:
流式传输
您可以使用stream 方法来获取 LLM 输出的流,
Connect these docs to Claude, VSCode, and more via MCP for real-time answers.

