AI 工程

架构

模型 -》推理层 -》中间服务层 -》应用层

在典型 LLM 系统里有三层：

1）推理层（Inference Layer）

负责： • 加载模型权重（如 Hugging Face） • 执行前向推理（GPU/CPU） • 管理显存、batch、并发

例如： • Ollama • transformers / vLLM

⸻

2）中间服务层（API Layer）

负责： • 提供 HTTP 接口（类似 OpenAI API） • 统一调用方式

⸻

3）应用层（Application Layer）

负责： • 文档管理（RAG） • Prompt 编排 • 对话 UI

相关组件

Ollama

底层是llama.cpp

竞品

下面给你一个结构化、工程视角的分析：Ollama 的主要竞品，其实可以分成三大类（而不是一个简单“替代品列表”）。
一、核心竞品全景（先给你结论）
当前 2026 年主流替代：
类型代表
轻量本地运行 llama.cpp
GUI桌面工具 LM Studio
生产级推理服务 vLLM
👉 可以理解为：
Ollama = “中庸 + 易用”
竞品 = 各自极端优化一个方向
二、逐个竞品分析（重点差异）
1）llama.cpp —— “底层引擎派”
定位
最底层推理框架（C++）
Ollama 本质上就是它的“封装版”
优势
性能最好（单机）
支持最广硬件（CPU / ARM / Apple Silicon）
控制最细（线程、量化、KV cache）
👉 实测：
速度比 Ollama 快约 15–25%
缺点
CLI 为主（学习成本高）
没有模型管理体验
适合人群
想极致性能
想完全控制推理细节
2）LM Studio —— “GUI工具派”
定位
桌面应用（类似“本地 ChatGPT”）
优势
完整图形界面（无需命令行）
模型下载、加载、聊天一体化
支持本地 API（可接 AnythingLLM）
👉 特点：
是唯一“完整 GUI 体验”的方案
缺点
性能不如 llama.cpp / vLLM
自动化能力弱（不适合后端服务）
适合人群
非工程用户
想“点点点就能用”
3）vLLM —— “生产级服务派”
定位
高性能推理服务器（Python + CUDA）
核心技术
PagedAttention（高并发优化）
优势
支持多用户并发
吞吐量远高于 Ollama
支持 Hugging Face 原生模型
👉 特点：
专门为生产环境设计
并发性能远超单机工具
缺点
配置复杂
依赖 GPU（基本必须 NVIDIA）
适合人群
做 API 服务
多人 / 多 Agent 系统
三、关键对比（核心差异一张表）
维度 Ollama llama.cpp LM Studio vLLM
易用性 ⭐⭐⭐⭐ ⭐⭐ ⭐⭐⭐⭐⭐ ⭐⭐
性能 ⭐⭐⭐ ⭐⭐⭐⭐⭐ ⭐⭐⭐ ⭐⭐⭐⭐
并发能力 ⭐⭐ ⭐⭐ ⭐⭐ ⭐⭐⭐⭐⭐
GUI 有（弱）无强无
模型支持 GGUF为主 GGUF GGUF/GPTQ HF原生
生产部署一般一般不适合最强
👉 一个关键事实：
Ollama ≈ “工程师友好封装版 llama.cpp”
四、怎么选（直接决策逻辑）
你可以按这个判断：
1）如果你现在在用 AnythingLLM
👉 推荐优先级：
简单 → Ollama
稳定 API → vLLM
想自己控 → llama.cpp
2）如果你是个人用户
不想折腾 → LM Studio
想玩性能 → llama.cpp
想平衡 → Ollama
3）如果你做项目 / 产品
单用户 → Ollama
多用户 / SaaS → vLLM
五、一个更深层结论（很多人没意识到）
👉 这些“竞品”其实不是完全竞争关系，而是：
1 2 3 4 5 llama.cpp（底层） ↑ Ollama / LM Studio（封装层） ↑ AnythingLLM（应用层）
👉 也就是说：
你可以同时用：
llama.cpp + AnythingLLM
vLLM + AnythingLLM
它们是“可替换组件”，不是互斥产品
六、总结（压缩版）
Ollama 的核心优势：简单 + 开箱即用
主要竞品分三类：
llama.cpp → 性能/控制
LM Studio → GUI体验
vLLM → 生产部署
本质差别在三点：
易用性 vs 性能
单机 vs 并发
工具 vs 基础设施

类型	代表
轻量本地运行	llama.cpp
GUI桌面工具	LM Studio
生产级推理服务	vLLM

维度	Ollama	llama.cpp	LM Studio	vLLM
易用性	⭐⭐⭐⭐	⭐⭐	⭐⭐⭐⭐⭐	⭐⭐
性能	⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐
并发能力	⭐⭐	⭐⭐	⭐⭐	⭐⭐⭐⭐⭐
GUI	有（弱）	无	强	无
模型支持	GGUF为主	GGUF	GGUF/GPTQ	HF原生
生产部署	一般	一般	不适合	最强

ollama使用

ollama run modelscope.cn/unsloth/Qwen3.6-35B-A3B-GGUF

ollama run llama3.2:3b --registry-mirror https://registry.ollama.ai

Modelfile

# 1. 指定您的GGUF模型文件名
FROM .\models\Qwen\Qwen2___5-0___5B-Instruct-GGUF\qwen2.5-0.5b-instruct-q2_k.gguf

# 2. (可选) 设置推理参数
# 例如，控制回答的创造性 (temperature) 和重复惩罚 (repeat_penalty)
PARAMETER temperature 0.7
PARAMETER repeat_penalty 1.05

# 3. (可选) 设置系统提示词
# 这可以定义模型的角色和行为
SYSTEM """
You are a helpful assistant.
"""

# 4. (可选) 设置对话模板
# 对于 Instruct 模型，正确的模板至关重要。
# 以 Qwen2.5 模型为例，其模板如下：
TEMPLATE """
<|im_start|>system
# Tools
You are provided with function signatures within  XML tags:
For each function call, return a json object with function name and arguments within  XML tags:
{"name": <function-name>, "arguments": <args-json-object>}
</tool_call><|im_end|>
<|im_start|>user
<|im_end|>
<|im_start|>assistant
<|im_end|>
<|im_start|>user
<tool_response>

</tool_response><|im_end|>

<|im_start|>system
<|im_end|>
<|im_start|>user
<|im_end|>

<|im_start|>assistant

"""

modelscope

modelscope download --model unsloth/Qwen3.6-35B-A3B-GGUF
modelscope download --model unsloth/Qwen3.5-4B-GGUF
modelscope download --model Qwen/Qwen2.5-0.5B-Instruct-GGUF

Ai 工程

AI 工程

架构

相关组件

Ollama

一、核心竞品全景（先给你结论）

二、逐个竞品分析（重点差异）

1）llama.cpp —— “底层引擎派”

定位

优势

缺点

适合人群

2）LM Studio —— “GUI工具派”

定位

优势

缺点

适合人群

3）vLLM —— “生产级服务派”

定位

核心技术

优势

缺点

适合人群

三、关键对比（核心差异一张表）

四、怎么选（直接决策逻辑）

1）如果你现在在用 AnythingLLM

2）如果你是个人用户

3）如果你做项目 / 产品

五、一个更深层结论（很多人没意识到）

六、总结（压缩版）

ollama使用

modelscope

相关文章

Ai prompts

论文阅读笔记-金融

金融知识