llama.cpp python 库是@ggerganov的 llama.cpp 的简单 Python 绑定。 此包提供:
- 通过 ctypes 接口对 C API 的低级访问。
- 用于文本补全的高级 Python API
- 类似
OpenAI的 APILangChain兼容性LlamaIndex兼容性- OpenAI 兼容的 Web 服务器
- 本地 Copilot 替代方案
- 支持函数调用
- 支持视觉 API
- 多模型支持
概述
集成详情
| 类 | 包 | 可序列化 | JS 支持 |
|---|---|---|---|
ChatLlamaCpp | langchain-community | ❌ | ❌ |
模型特性
设置
要开始使用并体验下面展示的所有功能,我们建议使用一个针对工具调用进行过微调的模型。 我们将使用来自 NousResearch 的 Hermes-2-Pro-Llama-3-8B-GGUF。Hermes 2 Pro 是 Nous Hermes 2 的升级版,包含更新和清理过的 OpenHermes 2.5 数据集,以及新引入的内部开发的函数调用和 JSON 模式数据集。这个新版本的 Hermes 保持了其出色的通用任务和对话能力,同时在函数调用方面也表现出色。请参阅我们关于本地模型的指南以深入了解:
安装
LangChain 的 LlamaCpp 集成位于langchain-community 和 llama-cpp-python 包中:
实例化
现在我们可以实例化我们的模型对象并生成聊天补全:调用
工具调用
首先,它的工作方式与 OpenAI 函数调用基本相同。 OpenAI 有一个工具调用(我们在这里交替使用“工具调用”和“函数调用”)API,允许你描述工具及其参数,并让模型返回一个 JSON 对象,其中包含要调用的工具和该工具的输入。工具调用对于构建使用工具的链和代理,以及更一般地从模型获取结构化输出非常有用。 通过ChatLlamaCpp.bind_tools,我们可以轻松地将 Pydantic 类、字典模式、LangChain 工具,甚至函数作为工具传递给模型。在底层,这些被转换为 OpenAI 工具模式,看起来像:
{"type": "function", "function": {"name": <<tool_name>>}}.
结构化输出
流式传输
Connect these docs to Claude, VSCode, and more via MCP for real-time answers.

