首页 Ai 工程
文章
取消

Ai 工程

AI 工程

架构

模型 -》 推理层 -》 中间服务层 -》 应用层

在典型 LLM 系统里有三层:

1)推理层(Inference Layer)

负责: • 加载模型权重(如 Hugging Face) • 执行前向推理(GPU/CPU) • 管理显存、batch、并发

例如: • Ollama • transformers / vLLM

2)中间服务层(API Layer)

负责: • 提供 HTTP 接口(类似 OpenAI API) • 统一调用方式

3)应用层(Application Layer)

负责: • 文档管理(RAG) • Prompt 编排 • 对话 UI

相关组件

Ollama

底层是llama.cpp

竞品

下面给你一个结构化、工程视角的分析:Ollama 的主要竞品,其实可以分成三大类(而不是一个简单“替代品列表”)。


一、核心竞品全景(先给你结论)

当前 2026 年主流替代:

类型代表
轻量本地运行llama.cpp
GUI桌面工具LM Studio
生产级推理服务vLLM

👉 可以理解为:

  • Ollama = “中庸 + 易用”
  • 竞品 = 各自极端优化一个方向

二、逐个竞品分析(重点差异)

1)llama.cpp —— “底层引擎派”

定位

  • 最底层推理框架(C++)
  • Ollama 本质上就是它的“封装版”

优势

  • 性能最好(单机)
  • 支持最广硬件(CPU / ARM / Apple Silicon)
  • 控制最细(线程、量化、KV cache)

👉 实测:

  • 速度比 Ollama 快约 15–25%

缺点

  • CLI 为主(学习成本高)
  • 没有模型管理体验

适合人群

  • 想极致性能
  • 想完全控制推理细节

2)LM Studio —— “GUI工具派”

定位

  • 桌面应用(类似“本地 ChatGPT”)

优势

  • 完整图形界面(无需命令行)
  • 模型下载、加载、聊天一体化
  • 支持本地 API(可接 AnythingLLM)

👉 特点:

  • 是唯一“完整 GUI 体验”的方案

缺点

  • 性能不如 llama.cpp / vLLM
  • 自动化能力弱(不适合后端服务)

适合人群

  • 非工程用户
  • 想“点点点就能用”

3)vLLM —— “生产级服务派”

定位

  • 高性能推理服务器(Python + CUDA)

核心技术

  • PagedAttention(高并发优化)

优势

  • 支持多用户并发
  • 吞吐量远高于 Ollama
  • 支持 Hugging Face 原生模型

👉 特点:

  • 专门为生产环境设计
  • 并发性能远超单机工具

缺点

  • 配置复杂
  • 依赖 GPU(基本必须 NVIDIA)

适合人群

  • 做 API 服务
  • 多人 / 多 Agent 系统

三、关键对比(核心差异一张表)

维度Ollamallama.cppLM StudiovLLM
易用性⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
性能⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
并发能力⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
GUI有(弱)
模型支持GGUF为主GGUFGGUF/GPTQHF原生
生产部署一般一般不适合最强

👉 一个关键事实:

  • Ollama ≈ “工程师友好封装版 llama.cpp”

四、怎么选(直接决策逻辑)

你可以按这个判断:

1)如果你现在在用 AnythingLLM

👉 推荐优先级:

  • 简单 → Ollama
  • 稳定 API → vLLM
  • 想自己控 → llama.cpp

2)如果你是个人用户

  • 不想折腾 → LM Studio
  • 想玩性能 → llama.cpp
  • 想平衡 → Ollama

3)如果你做项目 / 产品

  • 单用户 → Ollama
  • 多用户 / SaaS → vLLM

五、一个更深层结论(很多人没意识到)

👉 这些“竞品”其实不是完全竞争关系,而是:

1
2
3
4
5
llama.cpp(底层)
   ↑
Ollama / LM Studio(封装层)
   ↑
AnythingLLM(应用层)

👉 也就是说:

  • 你可以同时用:
    • llama.cpp + AnythingLLM
    • vLLM + AnythingLLM
  • 它们是“可替换组件”,不是互斥产品

六、总结(压缩版)

  • Ollama 的核心优势:简单 + 开箱即用
  • 主要竞品分三类:
    • llama.cpp → 性能/控制
    • LM Studio → GUI体验
    • vLLM → 生产部署
  • 本质差别在三点:
    • 易用性 vs 性能
    • 单机 vs 并发
    • 工具 vs 基础设施

ollama使用

1
2
3
ollama run modelscope.cn/unsloth/Qwen3.6-35B-A3B-GGUF

ollama run llama3.2:3b --registry-mirror https://registry.ollama.ai

Modelfile

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
# 1. 指定您的GGUF模型文件名
FROM .\models\Qwen\Qwen2___5-0___5B-Instruct-GGUF\qwen2.5-0.5b-instruct-q2_k.gguf

# 2. (可选) 设置推理参数
# 例如,控制回答的创造性 (temperature) 和重复惩罚 (repeat_penalty)
PARAMETER temperature 0.7
PARAMETER repeat_penalty 1.05

# 3. (可选) 设置系统提示词
# 这可以定义模型的角色和行为
SYSTEM """
You are a helpful assistant.
"""

# 4. (可选) 设置对话模板
# 对于 Instruct 模型,正确的模板至关重要。
# 以 Qwen2.5 模型为例,其模板如下:
TEMPLATE """
<|im_start|>system
# Tools
You are provided with function signatures within  XML tags:
For each function call, return a json object with function name and arguments within  XML tags:
{"name": <function-name>, "arguments": <args-json-object>}
</tool_call><|im_end|>
<|im_start|>user
<|im_end|>
<|im_start|>assistant
<|im_end|>
<|im_start|>user
<tool_response>

</tool_response><|im_end|>

<|im_start|>system
<|im_end|>
<|im_start|>user
<|im_end|>

<|im_start|>assistant

"""

modelscope

1
2
3
modelscope download --model unsloth/Qwen3.6-35B-A3B-GGUF
modelscope download --model unsloth/Qwen3.5-4B-GGUF
modelscope download --model Qwen/Qwen2.5-0.5B-Instruct-GGUF
本文由作者按照 CC BY 4.0 进行授权