AI 工程
架构
模型 -》 推理层 -》 中间服务层 -》 应用层
在典型 LLM 系统里有三层:
1)推理层(Inference Layer)
负责: • 加载模型权重(如 Hugging Face) • 执行前向推理(GPU/CPU) • 管理显存、batch、并发
例如: • Ollama • transformers / vLLM
⸻
2)中间服务层(API Layer)
负责: • 提供 HTTP 接口(类似 OpenAI API) • 统一调用方式
⸻
3)应用层(Application Layer)
负责: • 文档管理(RAG) • Prompt 编排 • 对话 UI
相关组件
Ollama
底层是llama.cpp
竞品
下面给你一个结构化、工程视角的分析:Ollama 的主要竞品,其实可以分成三大类(而不是一个简单“替代品列表”)。
一、核心竞品全景(先给你结论)
当前 2026 年主流替代:
类型 代表 轻量本地运行 llama.cpp GUI桌面工具 LM Studio 生产级推理服务 vLLM 👉 可以理解为:
- Ollama = “中庸 + 易用”
- 竞品 = 各自极端优化一个方向
二、逐个竞品分析(重点差异)
1)llama.cpp —— “底层引擎派”
定位
- 最底层推理框架(C++)
- Ollama 本质上就是它的“封装版”
优势
- 性能最好(单机)
- 支持最广硬件(CPU / ARM / Apple Silicon)
- 控制最细(线程、量化、KV cache)
👉 实测:
- 速度比 Ollama 快约 15–25%
缺点
- CLI 为主(学习成本高)
- 没有模型管理体验
适合人群
- 想极致性能
- 想完全控制推理细节
2)LM Studio —— “GUI工具派”
定位
- 桌面应用(类似“本地 ChatGPT”)
优势
- 完整图形界面(无需命令行)
- 模型下载、加载、聊天一体化
- 支持本地 API(可接 AnythingLLM)
👉 特点:
- 是唯一“完整 GUI 体验”的方案
缺点
- 性能不如 llama.cpp / vLLM
- 自动化能力弱(不适合后端服务)
适合人群
- 非工程用户
- 想“点点点就能用”
3)vLLM —— “生产级服务派”
定位
- 高性能推理服务器(Python + CUDA)
核心技术
- PagedAttention(高并发优化)
优势
- 支持多用户并发
- 吞吐量远高于 Ollama
- 支持 Hugging Face 原生模型
👉 特点:
- 专门为生产环境设计
- 并发性能远超单机工具
缺点
- 配置复杂
- 依赖 GPU(基本必须 NVIDIA)
适合人群
- 做 API 服务
- 多人 / 多 Agent 系统
三、关键对比(核心差异一张表)
维度 Ollama llama.cpp LM Studio vLLM 易用性 ⭐⭐⭐⭐ ⭐⭐ ⭐⭐⭐⭐⭐ ⭐⭐ 性能 ⭐⭐⭐ ⭐⭐⭐⭐⭐ ⭐⭐⭐ ⭐⭐⭐⭐ 并发能力 ⭐⭐ ⭐⭐ ⭐⭐ ⭐⭐⭐⭐⭐ GUI 有(弱) 无 强 无 模型支持 GGUF为主 GGUF GGUF/GPTQ HF原生 生产部署 一般 一般 不适合 最强 👉 一个关键事实:
- Ollama ≈ “工程师友好封装版 llama.cpp”
四、怎么选(直接决策逻辑)
你可以按这个判断:
1)如果你现在在用 AnythingLLM
👉 推荐优先级:
- 简单 → Ollama
- 稳定 API → vLLM
- 想自己控 → llama.cpp
2)如果你是个人用户
- 不想折腾 → LM Studio
- 想玩性能 → llama.cpp
- 想平衡 → Ollama
3)如果你做项目 / 产品
- 单用户 → Ollama
- 多用户 / SaaS → vLLM
五、一个更深层结论(很多人没意识到)
👉 这些“竞品”其实不是完全竞争关系,而是:
1 2 3 4 5 llama.cpp(底层) ↑ Ollama / LM Studio(封装层) ↑ AnythingLLM(应用层)👉 也就是说:
- 你可以同时用:
- llama.cpp + AnythingLLM
- vLLM + AnythingLLM
- 它们是“可替换组件”,不是互斥产品
六、总结(压缩版)
- Ollama 的核心优势:简单 + 开箱即用
- 主要竞品分三类:
- llama.cpp → 性能/控制
- LM Studio → GUI体验
- vLLM → 生产部署
- 本质差别在三点:
- 易用性 vs 性能
- 单机 vs 并发
- 工具 vs 基础设施
ollama使用
1
2
3
ollama run modelscope.cn/unsloth/Qwen3.6-35B-A3B-GGUF
ollama run llama3.2:3b --registry-mirror https://registry.ollama.ai
Modelfile
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
# 1. 指定您的GGUF模型文件名
FROM .\models\Qwen\Qwen2___5-0___5B-Instruct-GGUF\qwen2.5-0.5b-instruct-q2_k.gguf
# 2. (可选) 设置推理参数
# 例如,控制回答的创造性 (temperature) 和重复惩罚 (repeat_penalty)
PARAMETER temperature 0.7
PARAMETER repeat_penalty 1.05
# 3. (可选) 设置系统提示词
# 这可以定义模型的角色和行为
SYSTEM """
You are a helpful assistant.
"""
# 4. (可选) 设置对话模板
# 对于 Instruct 模型,正确的模板至关重要。
# 以 Qwen2.5 模型为例,其模板如下:
TEMPLATE """
<|im_start|>system
# Tools
You are provided with function signatures within XML tags:
For each function call, return a json object with function name and arguments within XML tags:
{"name": <function-name>, "arguments": <args-json-object>}
</tool_call><|im_end|>
<|im_start|>user
<|im_end|>
<|im_start|>assistant
<|im_end|>
<|im_start|>user
<tool_response>
</tool_response><|im_end|>
<|im_start|>system
<|im_end|>
<|im_start|>user
<|im_end|>
<|im_start|>assistant
"""
modelscope
1
2
3
modelscope download --model unsloth/Qwen3.6-35B-A3B-GGUF
modelscope download --model unsloth/Qwen3.5-4B-GGUF
modelscope download --model Qwen/Qwen2.5-0.5B-Instruct-GGUF