Google 開源 Gemma 3 完整指南：四個尺寸怎麼選、跑 RTX 3090 該注意什麼、跟 Llama 4 / Mistral 比誰贏

自由揚AntonyLin

2026年5月5日約 12 分鐘閱讀

複製引文

Gemma 3 是 Google 在 2026 年 3 月開源的多模態大型語言模型，提供 1B、4B、12B、27B 四種參數規模，27B 模型用一張 RTX 3090（24GB VRAM）就能跑，128k context window，支援 140 種語言、可處理圖片與短影片輸入。對中小企業來說，這代表第一次有「在自己機房跑、效能逼近 GPT-4 等級」的可商用開源選項。

但接下來這篇要回答的，比「Gemma 3 怎麼選」更實際——

身為老闆，你到底該花 30 萬買 GPU 自架，還是每月付 API 用量，還是直接訂閱 ChatGPT Team？這篇給你一張可以印出來貼牆上的 3 年總持有成本（TCO）對照表，附決策樹流程圖，看完當天就能拍板。

如果你最近正在評估「該繼續燒 OpenAI 的 token，還是把部分工作改本地跑」，這篇會給你具體數字、決策框架、還有恆遠自家在用的混合策略實戰。

Gemma 3 開源大型語言模型本地部署示意圖

Gemma 3 是什麼？憑什麼能跟 Llama 4 / Mistral 對打

Gemma 3 是 Google DeepMind 從 Gemini 系列拆出的開源版本，Google 官方部落格 把它定位成「能在單張消費級 GPU 上跑的最強模型」。先記住這三個設計決策：

1. 多模態原生支援，不用額外接視覺模型

Gemma 3（4B/12B/27B 三個尺寸）內建 SigLIP 視覺編碼器，可以直接讀圖片、短影片、PDF 截圖。同樣參數量的 Llama 4 要做這件事得自己接 vision model，工程成本差很多。

2. 128k context window 是商用門檻

128k token 約等於 250 頁 A4——能一次塞進整份合約、整本內部 SOP。長文檢索（RAG）、客服歷史記憶、多輪對話這幾個情境，沒有 128k 基本上做不出商用級體驗。

3. 量化後一張 RTX 3090 就能跑 27B

27B 模型在 Q4_K_M 量化後，VRAM 占用約 17-19 GB，一張 RTX 3090 / 4090 / A6000 就能跑。對比 Llama 3.1 70B 要兩張 A100，硬體門檻直接砍半以上。

ℹ️為什麼老闆要在意這件事

Gemma 3 27B 把「企業級 LLM」的入場硬體門檻從 250 萬（兩張 A100）拉到 25 萬（一張 3090 主機）。十倍的成本壓縮，意味著很多原本「只能用 API」的場景，現在可以重新評估自架。

四個尺寸怎麼選：1B / 4B / 12B / 27B 使用情境決策樹

Google 一次開了四個尺寸不是亂出招，每個都對應明確情境。直接看表：

尺寸	VRAM（Q4 量化）	最適合場景	不適合場景
1B	約 1 GB	手機端、邊緣裝置、即時關鍵字偵測	需要推理、長文摘要
4B	約 3 GB	筆電本地跑、客服 FAQ、簡單分類	專業領域問答、多輪複雜對話
12B	約 8 GB	中型企業內部助理、文件問答、RTX 4070 可跑	頂級推理、跨領域知識整合
27B	約 17-19 GB	企業級 RAG、合約審閱、多模態工作流	超大規模並發、即時高速串流

一句話總結選法：員工筆電上跑 → 4B；公司內部一台主機服務全公司 → 12B；要做認真的 AI 產品或客戶系統 → 27B；要塞進 IoT 或 App → 1B。

RTX 3090 跑 Gemma 3 27B 的硬體現實：記憶體、速度、量化

很多人看到「3090 能跑 27B」就以為很爽，實際跑起來有幾個現實要先講：

VRAM 預算要留 buffer

Q4_K_M 量化後模型本身約 17-19 GB，但你還要留 KV cache（長 context 會吃更多）、推理 buffer。3090 的 24 GB VRAM 大概只能撐到 8k-16k 的實際可用 context；要跑滿 128k，建議直上 A6000（48 GB）或兩張 3090 做 tensor parallelism。

token/s 的真實期待值

硬體	Gemma 3 27B Q4	Gemma 3 12B Q4
RTX 3090	約 25-35 tok/s	約 55-70 tok/s
RTX 4090	約 40-55 tok/s	約 85-110 tok/s
A6000 / RTX 5090	約 50-75 tok/s	約 100-140 tok/s
DGX Spark	約 35-50 tok/s	約 70-95 tok/s

做客服、文件問答這種「使用者願意等 3-5 秒」的場景，3090 完全夠用。要做即時打字串流給客戶看的應用，建議 4090 起跳。如果你想看「桌上型 AI 主機」這條路徑，可以延伸閱讀 NVIDIA DGX Spark 完整解析，4,699 美元的 ARM 架構 AI 桌機是另一個選項。

Gemma 3 多模態能力與消費級 GPU 跑 27B 模型

Gemma 3 vs Llama 4 vs Mistral Small 3.1：基準測試對照

三個模型都號稱「單卡可跑、企業可商用」，差別在哪？看實測對照：

項目	Gemma 3 27B	Llama 4 Scout 17B	Mistral Small 3.1 24B
Context	128k	10M（業界最長）	128k
多模態	原生支援	原生支援	原生支援
MMLU 分數	約 78	約 80	約 75
中文表現	優（140 種語言訓練）	中等	中等偏弱
授權限制	Gemma License 商用 OK	月活 7 億以下免費	Apache 2.0 最寬鬆
單卡部署	3090 即可	3090 即可	3090 即可

一句話結論：要中文好 → Gemma 3；要超長 context → Llama 4 Scout；要授權最乾淨（不怕被 Meta 反悔）→ Mistral。台灣中小企業的需求清單裡，中文準確度通常排第一，所以 Gemma 3 是 default 選擇。

企業三條路決策框架：自架 vs API vs SaaS 怎麼選

這是這篇的核心。如果你只看一段，看這段。

企業導入 AI 不是選模型，是選「商業模式」。同一個任務有三條路可以走，差別在誰扛固定成本、誰扛變動成本、誰扛技術風險：

路徑 A：自架開源模型（Gemma 3 / Llama 4 / Mistral）

買 GPU、跑 Ollama / vLLM、自己維護。一次性硬體投入大，但每月成本壓很低，資料完全不出機房。

路徑 B：商用 API（OpenAI / Claude / Gemini）

註冊帳號、拿 API Key、按 token 計費。零硬體投入，模型永遠是最新的，但每筆 query 都在燒錢，且資料會經過第三方（雖然多數有隱私承諾）。

路徑 C：訂閱 SaaS（ChatGPT Team / Claude Team / Microsoft Copilot）

每人每月固定費用，員工直接開瀏覽器用，沒有 API 串接也沒有部署。最快上線，但只能用「通用對話」場景，沒辦法整合進你的內部系統。

三條路的決策邏輯，畫成流程圖長這樣：

圖表載入中…

決策樹的隱藏前提

這張圖假設你已經想清楚「要解決什麼問題」。如果連問題都還沒定義（多數老闆其實在這一步），請先看 /blog/business-ai-procurement-guide-2026 的需求盤點章節，再回來看這張圖。

3 年總持有成本（TCO）對照表：5 個用量情境算給你看

光看流程圖還不夠，老闆要看的是「3 年下來到底花多少」。下面用 5 個用量情境，把自架、API、SaaS 三條路的 3 年 TCO 算給你：

計算假設：自架走 Gemma 3 27B + RTX 4090 主機（NT$ 280K，含整機、UPS、機櫃）、電費按 24 小時運轉每月 NT$ 3K、維運人力按外部接案商每月 NT$ 8-15K（中小企業很少有 in-house AI 工程師）。API 用 Claude Sonnet 4.7 報價（每 1M input tokens NT$ 100、output tokens NT$ 500，假設 input/output 比 4:1）。SaaS 用 ChatGPT Team 每人每月 USD 25 ≈ NT$ 800 計算。

情境 1：每月 1 萬 query（小公司內部問答）

項目	自架 Gemma 3 27B	API（Claude Sonnet）	SaaS（ChatGPT Team 10 人）
勝出		✓ 最便宜
一次性	NT$ 280,000	NT$ 0	NT$ 0
每月變動	NT$ 11,000（電+維運）	約 NT$ 3,000	NT$ 8,000
3 年總	約 NT$ 676,000	約 NT$ 108,000	約 NT$ 288,000

情境 2：每月 10 萬 query（中型客服系統）

項目	自架	API	SaaS（不適用）
勝出	✓ 最便宜
一次性	NT$ 280,000	NT$ 0	—
每月變動	NT$ 11,000	約 NT$ 30,000	—（無 API 整合）
3 年總	約 NT$ 676,000	約 NT$ 1,080,000	—

情境 3：每月 100 萬 query（中大型 RAG / Agent 應用）

項目	自架	API
勝出	✓ 自架直接省 1 千萬
一次性	NT$ 280,000	NT$ 0
每月變動	NT$ 15,000（高負載維運加碼）	約 NT$ 300,000
3 年總	約 NT$ 820,000	約 NT$ 10,800,000

情境 4：每月 1000 萬 query（大型企業內部 + 對外服務）

項目	自架（雙機 + 負載均衡）	API
勝出	✓ 自架省超過 1 億
一次性	NT$ 600,000	NT$ 0
每月變動	NT$ 30,000	約 NT$ 3,000,000
3 年總	約 NT$ 1,680,000	約 NT$ 108,000,000

情境 5：每月 1 億 query（大型平台 / SaaS 後端）

這個量級已經不是「自架 vs API」的選擇，是必須混合：自架扛 80% 高頻通用 query、API 扛 20% 需要最強推理的 edge case。3 年 TCO 大約落在 NT$ 800 萬-2000 萬之間，差異主要看流量分配比例。

⚠️TCO 表的三個盲點要注意

1. 自架沒算「模型升級」成本：Gemma 4 出來時你要不要換？2. API 沒算「廠商漲價風險」：OpenAI 過去兩年漲過兩次、降過三次，方向不可控。3. SaaS 沒算「員工帶離職資料」風險：人走帳號還在，但歷史對話可能跟著消失。

成本只是其中一個維度。如果你的場景還涉及微調 vs RAG 的選擇，建議搭配看 Fine-tuning vs RAG 成本與決策指南，那篇講的是「同樣 100 萬 query 量下，要不要花錢做微調」。

哪些情境一定要自架？三個非自架不可的訊號

訊號 1：合規/機密需求把 API 路堵死

如果你的資料屬於下面任一類，API 路徑直接刪除：醫療病歷、金融交易明細、個資（PII）量大、政府機關專案、律師事務所案件文件、上市公司未公開財報。這類資料一旦進到 OpenAI / Anthropic 的伺服器，就算對方說不訓練，你也很難跟法遵交代。自架是唯一解。

訊號 2：每月用量穩定且 > 100 萬 query

從 TCO 表已經看到，月用量 100 萬以上 API 直接被自架輾壓。如果你的用量每月波動小於 30%（不是促銷檔期才會炸的那種），自架的成本優勢可以穩定吃 3 年。

訊號 3：產品本身就是「AI 服務」

如果你做的產品是 AI 客服平台、AI 寫作工具、AI 翻譯 SaaS——你的毛利結構決定你必須壓低每筆 query 成本，否則做越多虧越多。自架（或自架 + API 混合）幾乎是必經之路。

哪些情境不要自架？三個別硬上的訊號

訊號 1：需求變動劇烈，今年要明年不要

買硬體是 3 年攤提，需求週期短於 1 年的場景（一次性活動、短期專案、實驗性產品）走 API 才對。30 萬硬體買下去用半年就閒置，老闆心臟不夠強。

訊號 2：公司沒人懂 AI 工程，連找人接案都沒預算

自架不是裝完 Ollama 就結束。模型升級、版本回退、效能調校、突發問題排除——沒人扛這些事，主機放在機房就只是台貴的吃灰機。如果連找接案商代管的預算都擠不出來，先用 SaaS 半年，學會用 AI 之後再回頭評估。

訊號 3：新創早期 / 還在驗證商業模式

早期最缺的是現金流，不是省成本。把 30 萬丟去買 GPU，不如丟去做行銷測試。先用 API 把產品做起來，等月用量穩定 > 50 萬 query 再回頭算自架划不划得來。這個建議來自 老闆 AI 採購指南 的核心邏輯：先驗證再投資，別本末倒置。

Gemma 3 vs Llama 4 vs Mistral Small 開源 LLM 選擇

恆遠的「混合策略」實戰：自家產品 + 客戶系統怎麼配

講完別人，講恆遠自己。恆遠數位行銷做兩件事：經營自家 SaaS（秒發報價、開課王），以及替客戶做客製化 AI 系統。這兩條業務線的 AI 配置完全不同——

自家 SaaS：90% API + 10% 自架

秒發報價要在 5 秒內產出報價單，對「最新模型推理品質」要求高，恆遠走 API。但圖片處理、規格表 OCR、產品分類這些重複性高的後台批次任務，恆遠自架 Gemma 3 12B 在自家機房處理，每月省下的 token 費用足夠付電費。

客戶接案：依需求配，不推預設答案

恆遠接案的第一個問題從來不是「你要 GPT 還是 Claude」，是「你的資料能不能出機房、每月用量多少、3 年內會不會擴展」。問完才推方案——有客戶選 ChatGPT Team（快上線），有客戶選自架 Gemma 3 27B（醫療資料不能外流），也有客戶走 API + RAG 混合。恆遠賣的不是 GPU 也不是 API key，是「3 年後不會後悔的那條路」。

如果你正在評估自己的客製化 AI 系統怎麼規劃，可以延伸看 客製化 AI 系統開發完整指南 跟 Claude 模型比較指南，這兩篇分別講「整體流程」和「API 模型怎麼選」。

恆遠的 30 秒判斷法

Step 1：每月 query < 5 萬 → SaaS。Step 2：5-100 萬 + 資料可外流 → API。Step 3：> 100 萬 OR 資料機密 → 自架（自己沒人就找接案商代管）。Step 4：以上都不確定 → 直接約恆遠免費盤點 30 分鐘，比自己卡 3 個月划算。

常見問題

QGemma 3 跟 Gemini 是同一個東西嗎？

不是。Gemini 是 Google 的閉源旗艦模型，Gemma 是 Google 釋出的開源版本，架構從 Gemini 簡化而來，但訓練資料、參數規模、能力上限都比 Gemini 小。Gemma 3 的對標是「能在自家機器上跑的最強開源模型」，不是 Gemini 的替代品。

Q自架 Gemma 3 27B，硬體最低門檻多少？

Q4 量化下，最低門檻是一張 RTX 3090（24GB VRAM），整機含 CPU、64GB RAM、SSD 約 NT$ 80,000-100,000。實務上建議直上 RTX 4090（NT$ 130,000-160,000），原因是 3090 跑滿 128k context 會爆 VRAM，4090 速度也會大幅改善體驗。整機含機櫃、UPS、機房環境，企業級配置抓 NT$ 280,000 是合理預算。

QGemma 3 商用授權真的可以放心用嗎？

可以。Gemma License 允許商用、修改、再分發，唯一限制是不能用 Gemma 訓練其他競品模型賣給別人。對絕大多數企業使用場景都沒影響，比 Llama 4「月活 7 億以下免費」更寬鬆，比 Mistral 的 Apache 2.0 略嚴一點點。

QChatGPT Team 跟自架 Gemma 3，員工體驗差很多嗎？

差很多。ChatGPT Team 員工開瀏覽器就能用，介面熟悉、有手機 App、有 GPTs 商店。自架 Gemma 3 你要自己做前端、管帳號、做權限。所以小公司一律建議先 SaaS、用量起來再考慮自架。

QGemma 3 的中文表現真的比 Llama 4 好嗎？

在台灣繁體中文情境下，恆遠實測 Gemma 3 27B 的回答自然度、用詞精準度、商業文書產出都比 Llama 4 Scout 17B 略勝一籌。原因可能是 Google 用了 140 種語言的多語料訓練。但若你的場景是英文為主或要用 10M 超長 context，Llama 4 Scout 仍有優勢。

下一步：恆遠的 AI 系統盤點服務

看完這篇，如果你還在「到底走哪條路」之間猶豫——這正是恆遠數位行銷可以幫你的地方。

恆遠提供「30 分鐘免費 AI 盤點諮詢」：聽完你的需求、用量預估、合規限制、預算範圍，當場給你一份「自架 vs API vs SaaS」的客觀比較與推薦路徑。不推預設方案，不綁套裝產品，推出來的就是你最適合的那條路。

→ 點此預約恆遠 AI 系統諮詢

分享文章

自

AUTHOR

自由揚AntonyLin

留言(0)

尚無留言，成為第一個留言的人吧！

SERVICES

GET IN TOUCH

需要網站系統架設或軟體開發？

無論是品牌官網、客製化系統還是應用程式，我們的團隊擁有豐富經驗，歡迎聯繫我們，讓專業為您的事業加分。

免費諮詢看我們做過的案例 →