Gemma 4 Ollama

对很多 Gemma 4 用户来说，Ollama 是最先该尝试的本地运行路径。这一页先给你最核心的命令和选择逻辑。

2026/04/03

为什么大家搜这个

对很多人来说，Ollama 是“先跑起来再说”最诚实的一条路。它不是最花哨的，但通常是最快从搜索结果走到本地输出的一条路径。

基础命令

ollama --version
ollama pull gemma4
ollama list
ollama run gemma4 "roses are red"

Google 官方集成页还列出了这些标签：

gemma4:e2b
gemma4:e4b
gemma4:26b
gemma4:31b

什么时候选 Ollama

你想用命令行快速起步。
你主要在做 prompt 测试和本地工作流验证。
你想最快从“搜到”进入“跑到”。

什么时候该选别的

想要桌面 UI，就去 LM Studio
想更贴近 Apple silicon，就去 MLX
真正目标是生产级推理服务，就去 vLLM

本地 API（localhost:11434）

# 文本生成
curl http://localhost:11434/api/generate -d '{
  "model": "gemma4",
  "prompt": "roses are red"
}'

# 多模态图片字幕（文件路径或base64数组）
curl http://localhost:11434/api/generate -d '{
  "model": "gemma4",
  "prompt": "caption this image",
  "images": ["/path/to/image.png"]
}'

说明与注意

Ollama 使用 GGUF 量化格式分发模型，降低显存与算力需求。
量化会在降低资源占用的同时，可能略微影响输出质量。
Ollama 默认不自带任何模型，需要先执行 ollama pull 再运行。
更新：以撰写时 Google AI dev 文档的更新时间为准（2026‑04‑02 UTC）。

Gemma 4 Ollama

为什么大家搜这个

基础命令

什么时候选 Ollama

什么时候该选别的

本地 API（localhost:11434）

说明与注意

官方参考