Gemma 4 Ollama

对很多 Gemma 4 用户来说,Ollama 是最先该尝试的本地运行路径。这一页先给你最核心的命令和选择逻辑。
2026/04/03

为什么大家搜这个

对很多人来说,Ollama 是“先跑起来再说”最诚实的一条路。它不是最花哨的,但通常是最快从搜索结果走到本地输出的一条路径。

基础命令

ollama --version
ollama pull gemma4
ollama list
ollama run gemma4 "roses are red"

Google 官方集成页还列出了这些标签:

  • gemma4:e2b
  • gemma4:e4b
  • gemma4:26b
  • gemma4:31b

什么时候选 Ollama

  • 你想用命令行快速起步。
  • 你主要在做 prompt 测试和本地工作流验证。
  • 你想最快从“搜到”进入“跑到”。

什么时候该选别的

  • 想要桌面 UI,就去 LM Studio
  • 想更贴近 Apple silicon,就去 MLX
  • 真正目标是生产级推理服务,就去 vLLM

本地 API(localhost:11434)

# 文本生成
curl http://localhost:11434/api/generate -d '{
  "model": "gemma4",
  "prompt": "roses are red"
}'

# 多模态图片字幕(文件路径或base64数组)
curl http://localhost:11434/api/generate -d '{
  "model": "gemma4",
  "prompt": "caption this image",
  "images": ["/path/to/image.png"]
}'

说明与注意

  • Ollama 使用 GGUF 量化格式分发模型,降低显存与算力需求。
  • 量化会在降低资源占用的同时,可能略微影响输出质量。
  • Ollama 默认不自带任何模型,需要先执行 ollama pull 再运行。
  • 更新:以撰写时 Google AI dev 文档的更新时间为准(2026‑04‑02 UTC)。

官方参考