
Gemma 3 是 Google 在 2026 年 3 月開源的多模態大型語言模型,提供 1B、4B、12B、27B 四種參數規模,27B 模型用一張 RTX 3090(24GB VRAM)就能跑,128k context window,支援 140 種語言、可處理圖片與短影片輸入。對中小企業來說,這代表第一次有「在自己機房跑、效能逼近 GPT-4 等級」的可商用開源選項。
但接下來這篇要回答的,比「Gemma 3 怎麼選」更實際——
身為老闆,你到底該花 30 萬買 GPU 自架,還是每月付 API 用量,還是直接訂閱 ChatGPT Team?這篇給你一張可以印出來貼牆上的 3 年總持有成本(TCO)對照表,附決策樹流程圖,看完當天就能拍板。
如果你最近正在評估「該繼續燒 OpenAI 的 token,還是把部分工作改本地跑」,這篇會給你具體數字、決策框架、還有恆遠自家在用的混合策略實戰。

Gemma 3 是什麼?憑什麼能跟 Llama 4 / Mistral 對打
Gemma 3 是 Google DeepMind 從 Gemini 系列拆出的開源版本,Google 官方部落格 把它定位成「能在單張消費級 GPU 上跑的最強模型」。先記住這三個設計決策:
1. 多模態原生支援,不用額外接視覺模型
Gemma 3(4B/12B/27B 三個尺寸)內建 SigLIP 視覺編碼器,可以直接讀圖片、短影片、PDF 截圖。同樣參數量的 Llama 4 要做這件事得自己接 vision model,工程成本差很多。
2. 128k context window 是商用門檻
128k token 約等於 250 頁 A4——能一次塞進整份合約、整本內部 SOP。長文檢索(RAG)、客服歷史記憶、多輪對話這幾個情境,沒有 128k 基本上做不出商用級體驗。
3. 量化後一張 RTX 3090 就能跑 27B
27B 模型在 Q4_K_M 量化後,VRAM 占用約 17-19 GB,一張 RTX 3090 / 4090 / A6000 就能跑。對比 Llama 3.1 70B 要兩張 A100,硬體門檻直接砍半以上。
ℹ️為什麼老闆要在意這件事
Gemma 3 27B 把「企業級 LLM」的入場硬體門檻從 250 萬(兩張 A100)拉到 25 萬(一張 3090 主機)。十倍的成本壓縮,意味著很多原本「只能用 API」的場景,現在可以重新評估自架。
四個尺寸怎麼選:1B / 4B / 12B / 27B 使用情境決策樹
Google 一次開了四個尺寸不是亂出招,每個都對應明確情境。直接看表:
尺寸 | VRAM(Q4 量化) | 最適合場景 | 不適合場景 |
|---|---|---|---|
1B | 約 1 GB | 手機端、邊緣裝置、即時關鍵字偵測 | 需要推理、長文摘要 |
4B | 約 3 GB | 筆電本地跑、客服 FAQ、簡單分類 | 專業領域問答、多輪複雜對話 |
12B | 約 8 GB | 中型企業內部助理、文件問答、RTX 4070 可跑 | 頂級推理、跨領域知識整合 |
27B | 約 17-19 GB | 企業級 RAG、合約審閱、多模態工作流 | 超大規模並發、即時高速串流 |
一句話總結選法:員工筆電上跑 → 4B;公司內部一台主機服務全公司 → 12B;要做認真的 AI 產品或客戶系統 → 27B;要塞進 IoT 或 App → 1B。
RTX 3090 跑 Gemma 3 27B 的硬體現實:記憶體、速度、量化
很多人看到「3090 能跑 27B」就以為很爽,實際跑起來有幾個現實要先講:
VRAM 預算要留 buffer
Q4_K_M 量化後模型本身約 17-19 GB,但你還要留 KV cache(長 context 會吃更多)、推理 buffer。3090 的 24 GB VRAM 大概只能撐到 8k-16k 的實際可用 context;要跑滿 128k,建議直上 A6000(48 GB)或兩張 3090 做 tensor parallelism。
token/s 的真實期待值
硬體 | Gemma 3 27B Q4 | Gemma 3 12B Q4 |
|---|---|---|
RTX 3090 | 約 25-35 tok/s | 約 55-70 tok/s |
RTX 4090 | 約 40-55 tok/s | 約 85-110 tok/s |
A6000 / RTX 5090 | 約 50-75 tok/s | 約 100-140 tok/s |
DGX Spark | 約 35-50 tok/s | 約 70-95 tok/s |
做客服、文件問答這種「使用者願意等 3-5 秒」的場景,3090 完全夠用。要做即時打字串流給客戶看的應用,建議 4090 起跳。如果你想看「桌上型 AI 主機」這條路徑,可以延伸閱讀 NVIDIA DGX Spark 完整解析,4,699 美元的 ARM 架構 AI 桌機是另一個選項。

Gemma 3 vs Llama 4 vs Mistral Small 3.1:基準測試對照
三個模型都號稱「單卡可跑、企業可商用」,差別在哪?看實測對照:
項目 | Gemma 3 27B | Llama 4 Scout 17B | Mistral Small 3.1 24B |
|---|---|---|---|
Context | 128k | 10M(業界最長) | 128k |
多模態 | 原生支援 | 原生支援 | 原生支援 |
MMLU 分數 | 約 78 | 約 80 | 約 75 |
中文表現 | 優(140 種語言訓練) | 中等 | 中等偏弱 |
授權限制 | Gemma License 商用 OK | 月活 7 億以下免費 | Apache 2.0 最寬鬆 |
單卡部署 | 3090 即可 | 3090 即可 | 3090 即可 |
一句話結論:要中文好 → Gemma 3;要超長 context → Llama 4 Scout;要授權最乾淨(不怕被 Meta 反悔)→ Mistral。台灣中小企業的需求清單裡,中文準確度通常排第一,所以 Gemma 3 是 default 選擇。
企業三條路決策框架:自架 vs API vs SaaS 怎麼選
這是這篇的核心。如果你只看一段,看這段。
企業導入 AI 不是選模型,是選「商業模式」。同一個任務有三條路可以走,差別在誰扛固定成本、誰扛變動成本、誰扛技術風險:
路徑 A:自架開源模型(Gemma 3 / Llama 4 / Mistral)
買 GPU、跑 Ollama / vLLM、自己維護。一次性硬體投入大,但每月成本壓很低,資料完全不出機房。
路徑 B:商用 API(OpenAI / Claude / Gemini)
註冊帳號、拿 API Key、按 token 計費。零硬體投入,模型永遠是最新的,但每筆 query 都在燒錢,且資料會經過第三方(雖然多數有隱私承諾)。
路徑 C:訂閱 SaaS(ChatGPT Team / Claude Team / Microsoft Copilot)
每人每月固定費用,員工直接開瀏覽器用,沒有 API 串接也沒有部署。最快上線,但只能用「通用對話」場景,沒辦法整合進你的內部系統。
三條路的決策邏輯,畫成流程圖長這樣:
決策樹的隱藏前提
這張圖假設你已經想清楚「要解決什麼問題」。如果連問題都還沒定義(多數老闆其實在這一步),請先看 /blog/business-ai-procurement-guide-2026 的需求盤點章節,再回來看這張圖。
3 年總持有成本(TCO)對照表:5 個用量情境算給你看
光看流程圖還不夠,老闆要看的是「3 年下來到底花多少」。下面用 5 個用量情境,把自架、API、SaaS 三條路的 3 年 TCO 算給你:
計算假設:自架走 Gemma 3 27B + RTX 4090 主機(NT$ 280K,含整機、UPS、機櫃)、電費按 24 小時運轉每月 NT$ 3K、維運人力按外部接案商每月 NT$ 8-15K(中小企業很少有 in-house AI 工程師)。API 用 Claude Sonnet 4.7 報價(每 1M input tokens NT$ 100、output tokens NT$ 500,假設 input/output 比 4:1)。SaaS 用 ChatGPT Team 每人每月 USD 25 ≈ NT$ 800 計算。
情境 1:每月 1 萬 query(小公司內部問答)
項目 | 自架 Gemma 3 27B | API(Claude Sonnet) | SaaS(ChatGPT Team 10 人) |
|---|---|---|---|
勝出 | ✓ 最便宜 | ||
一次性 | NT$ 280,000 | NT$ 0 | NT$ 0 |
每月變動 | NT$ 11,000(電+維運) | 約 NT$ 3,000 | NT$ 8,000 |
3 年總 | 約 NT$ 676,000 | 約 NT$ 108,000 | 約 NT$ 288,000 |
情境 2:每月 10 萬 query(中型客服系統)
項目 | 自架 | API | SaaS(不適用) |
|---|---|---|---|
勝出 | ✓ 最便宜 | ||
一次性 | NT$ 280,000 | NT$ 0 | — |
每月變動 | NT$ 11,000 | 約 NT$ 30,000 | —(無 API 整合) |
3 年總 | 約 NT$ 676,000 | 約 NT$ 1,080,000 | — |
情境 3:每月 100 萬 query(中大型 RAG / Agent 應用)
項目 | 自架 | API |
|---|---|---|
勝出 | ✓ 自架直接省 1 千萬 | |
一次性 | NT$ 280,000 | NT$ 0 |
每月變動 | NT$ 15,000(高負載維運加碼) | 約 NT$ 300,000 |
3 年總 | 約 NT$ 820,000 | 約 NT$ 10,800,000 |
情境 4:每月 1000 萬 query(大型企業內部 + 對外服務)
項目 | 自架(雙機 + 負載均衡) | API |
|---|---|---|
勝出 | ✓ 自架省超過 1 億 | |
一次性 | NT$ 600,000 | NT$ 0 |
每月變動 | NT$ 30,000 | 約 NT$ 3,000,000 |
3 年總 | 約 NT$ 1,680,000 | 約 NT$ 108,000,000 |
情境 5:每月 1 億 query(大型平台 / SaaS 後端)
這個量級已經不是「自架 vs API」的選擇,是必須混合:自架扛 80% 高頻通用 query、API 扛 20% 需要最強推理的 edge case。3 年 TCO 大約落在 NT$ 800 萬-2000 萬之間,差異主要看流量分配比例。
⚠️TCO 表的三個盲點要注意
1. 自架沒算「模型升級」成本:Gemma 4 出來時你要不要換?2. API 沒算「廠商漲價風險」:OpenAI 過去兩年漲過兩次、降過三次,方向不可控。3. SaaS 沒算「員工帶離職資料」風險:人走帳號還在,但歷史對話可能跟著消失。
成本只是其中一個維度。如果你的場景還涉及微調 vs RAG 的選擇,建議搭配看 Fine-tuning vs RAG 成本與決策指南,那篇講的是「同樣 100 萬 query 量下,要不要花錢做微調」。
哪些情境一定要自架?三個非自架不可的訊號
訊號 1:合規/機密需求把 API 路堵死
如果你的資料屬於下面任一類,API 路徑直接刪除:醫療病歷、金融交易明細、個資(PII)量大、政府機關專案、律師事務所案件文件、上市公司未公開財報。這類資料一旦進到 OpenAI / Anthropic 的伺服器,就算對方說不訓練,你也很難跟法遵交代。自架是唯一解。
訊號 2:每月用量穩定且 > 100 萬 query
從 TCO 表已經看到,月用量 100 萬以上 API 直接被自架輾壓。如果你的用量每月波動小於 30%(不是促銷檔期才會炸的那種),自架的成本優勢可以穩定吃 3 年。
訊號 3:產品本身就是「AI 服務」
如果你做的產品是 AI 客服平台、AI 寫作工具、AI 翻譯 SaaS——你的毛利結構決定你必須壓低每筆 query 成本,否則做越多虧越多。自架(或自架 + API 混合)幾乎是必經之路。
哪些情境不要自架?三個別硬上的訊號
訊號 1:需求變動劇烈,今年要明年不要
買硬體是 3 年攤提,需求週期短於 1 年的場景(一次性活動、短期專案、實驗性產品)走 API 才對。30 萬硬體買下去用半年就閒置,老闆心臟不夠強。
訊號 2:公司沒人懂 AI 工程,連找人接案都沒預算
自架不是裝完 Ollama 就結束。模型升級、版本回退、效能調校、突發問題排除——沒人扛這些事,主機放在機房就只是台貴的吃灰機。如果連找接案商代管的預算都擠不出來,先用 SaaS 半年,學會用 AI 之後再回頭評估。
訊號 3:新創早期 / 還在驗證商業模式
早期最缺的是現金流,不是省成本。把 30 萬丟去買 GPU,不如丟去做行銷測試。先用 API 把產品做起來,等月用量穩定 > 50 萬 query 再回頭算自架划不划得來。這個建議來自 老闆 AI 採購指南 的核心邏輯:先驗證再投資,別本末倒置。

恆遠的「混合策略」實戰:自家產品 + 客戶系統怎麼配
講完別人,講恆遠自己。恆遠數位行銷做兩件事:經營自家 SaaS(秒發報價、開課王),以及替客戶做客製化 AI 系統。這兩條業務線的 AI 配置完全不同——
自家 SaaS:90% API + 10% 自架
秒發報價要在 5 秒內產出報價單,對「最新模型推理品質」要求高,恆遠走 API。但圖片處理、規格表 OCR、產品分類這些重複性高的後台批次任務,恆遠自架 Gemma 3 12B 在自家機房處理,每月省下的 token 費用足夠付電費。
客戶接案:依需求配,不推預設答案
恆遠接案的第一個問題從來不是「你要 GPT 還是 Claude」,是「你的資料能不能出機房、每月用量多少、3 年內會不會擴展」。問完才推方案——有客戶選 ChatGPT Team(快上線),有客戶選自架 Gemma 3 27B(醫療資料不能外流),也有客戶走 API + RAG 混合。恆遠賣的不是 GPU 也不是 API key,是「3 年後不會後悔的那條路」。
如果你正在評估自己的客製化 AI 系統怎麼規劃,可以延伸看 客製化 AI 系統開發完整指南 跟 Claude 模型比較指南,這兩篇分別講「整體流程」和「API 模型怎麼選」。
恆遠的 30 秒判斷法
Step 1:每月 query < 5 萬 → SaaS。Step 2:5-100 萬 + 資料可外流 → API。Step 3:> 100 萬 OR 資料機密 → 自架(自己沒人就找接案商代管)。Step 4:以上都不確定 → 直接約恆遠免費盤點 30 分鐘,比自己卡 3 個月划算。
常見問題
QGemma 3 跟 Gemini 是同一個東西嗎?
不是。Gemini 是 Google 的閉源旗艦模型,Gemma 是 Google 釋出的開源版本,架構從 Gemini 簡化而來,但訓練資料、參數規模、能力上限都比 Gemini 小。Gemma 3 的對標是「能在自家機器上跑的最強開源模型」,不是 Gemini 的替代品。
Q自架 Gemma 3 27B,硬體最低門檻多少?
Q4 量化下,最低門檻是一張 RTX 3090(24GB VRAM),整機含 CPU、64GB RAM、SSD 約 NT$ 80,000-100,000。實務上建議直上 RTX 4090(NT$ 130,000-160,000),原因是 3090 跑滿 128k context 會爆 VRAM,4090 速度也會大幅改善體驗。整機含機櫃、UPS、機房環境,企業級配置抓 NT$ 280,000 是合理預算。
QGemma 3 商用授權真的可以放心用嗎?
可以。Gemma License 允許商用、修改、再分發,唯一限制是不能用 Gemma 訓練其他競品模型賣給別人。對絕大多數企業使用場景都沒影響,比 Llama 4「月活 7 億以下免費」更寬鬆,比 Mistral 的 Apache 2.0 略嚴一點點。
QChatGPT Team 跟自架 Gemma 3,員工體驗差很多嗎?
差很多。ChatGPT Team 員工開瀏覽器就能用,介面熟悉、有手機 App、有 GPTs 商店。自架 Gemma 3 你要自己做前端、管帳號、做權限。所以小公司一律建議先 SaaS、用量起來再考慮自架。
QGemma 3 的中文表現真的比 Llama 4 好嗎?
在台灣繁體中文情境下,恆遠實測 Gemma 3 27B 的回答自然度、用詞精準度、商業文書產出都比 Llama 4 Scout 17B 略勝一籌。原因可能是 Google 用了 140 種語言的多語料訓練。但若你的場景是英文為主或要用 10M 超長 context,Llama 4 Scout 仍有優勢。
下一步:恆遠的 AI 系統盤點服務
看完這篇,如果你還在「到底走哪條路」之間猶豫——這正是恆遠數位行銷可以幫你的地方。
恆遠提供「30 分鐘免費 AI 盤點諮詢」:聽完你的需求、用量預估、合規限制、預算範圍,當場給你一份「自架 vs API vs SaaS」的客觀比較與推薦路徑。不推預設方案,不綁套裝產品,推出來的就是你最適合的那條路。
AUTHOR
自由揚AntonyLin
想了解更多?看看我們的相關服務
相關文章

企業內網 AI 助理自架完整指南:Open WebUI / LibreChat / AnythingLLM 三條路徑 + Claude API 接入 — 中小企業老闆「不被 SaaS 鎖死」的 5 個訊號與 4 條合約替代方案

Excel 自動化教學完整指南:VBA、Power Query、進階函式、Apps Script 四條路徑 + 五個業務場景 + 三個升級訊號

Make.com 自動化教學完整指南:6 個中小企業實戰場景 + 4 個 vs n8n / Zapier 選型決策 + 3 個收費區間

Google Apps Script 中小企業實戰指南:6 個業務自動化場景與 4 條從 Excel/Sheet 升級路徑

中小企業 AI 員工政策手冊完整指南:6 大條款、4 條紅線、3 套使用情境分級——老闆把 ChatGPT 開放給員工前必須先簽掉的內部協議框架

留言(0)
尚無留言,成為第一個留言的人吧!