AI技术

本地部署大模型完全指南：从Ollama到vLLM的实践之路

2026-06-16 3,737 次阅读技术前沿

为什么需要本地部署？

本地部署大模型有三大优势：数据隐私安全、无API费用和离线可用。对于企业来说，敏感数据不离开本地网络是硬性要求。

主流本地推理框架

1. Ollama

Ollama是当前最简单的本地大模型运行工具，支持一键安装和模型管理。支持Llama 3、Qwen、DeepSeek、Mistral等主流开源模型。

2. llama.cpp

llama.cpp使用GGUF量化格式，在CPU上也能高效运行。适合低配机器使用，支持4-bit到8-bit量化。

3. vLLM

vLLM是高性能推理引擎，支持PagedAttention实现高效内存管理，吞吐量比普通方案提升2-4倍，适合服务部署。

在Hermes Agent中使用

Hermes Agent支持配置本地模型作为后端，只需在配置文件中设置Ollama或vLLM的API地址即可使用本地模型执行任务。

[hermes]\nprovider = custom\nmodel = qwen2.5-32b-instruct\napi_base = http://localhost:11434/v1