Gemma 3 開源大型語言模型本地部署示意圖

Google 開源 Gemma 3 完整指南:四個尺寸怎麼選、跑 RTX 3090 該注意什麼、跟 Llama 4 / Mistral 比誰贏

自由揚AntonyLin
12 分鐘閱讀
複製引文

Gemma 3 是 Google 在 2026 年 3 月開源的多模態大型語言模型,提供 1B、4B、12B、27B 四種參數規模,27B 模型用一張 RTX 3090(24GB VRAM)就能跑,128k context window,支援 140 種語言、可處理圖片與短影片輸入。對中小企業來說,這代表第一次有「在自己機房跑、效能逼近 GPT-4 等級」的可商用開源選項。

但接下來這篇要回答的,比「Gemma 3 怎麼選」更實際——

身為老闆,你到底該花 30 萬買 GPU 自架,還是每月付 API 用量,還是直接訂閱 ChatGPT Team?這篇給你一張可以印出來貼牆上的 3 年總持有成本(TCO)對照表,附決策樹流程圖,看完當天就能拍板。

如果你最近正在評估「該繼續燒 OpenAI 的 token,還是把部分工作改本地跑」,這篇會給你具體數字、決策框架、還有恆遠自家在用的混合策略實戰。

Gemma 3 開源大型語言模型本地部署示意圖
Gemma 3 開源大型語言模型本地部署示意圖

Gemma 3 是什麼?憑什麼能跟 Llama 4 / Mistral 對打

Gemma 3 是 Google DeepMind 從 Gemini 系列拆出的開源版本,Google 官方部落格 把它定位成「能在單張消費級 GPU 上跑的最強模型」。先記住這三個設計決策:

1. 多模態原生支援,不用額外接視覺模型

Gemma 3(4B/12B/27B 三個尺寸)內建 SigLIP 視覺編碼器,可以直接讀圖片、短影片、PDF 截圖。同樣參數量的 Llama 4 要做這件事得自己接 vision model,工程成本差很多。

2. 128k context window 是商用門檻

128k token 約等於 250 頁 A4——能一次塞進整份合約、整本內部 SOP。長文檢索(RAG)、客服歷史記憶、多輪對話這幾個情境,沒有 128k 基本上做不出商用級體驗。

3. 量化後一張 RTX 3090 就能跑 27B

27B 模型在 Q4_K_M 量化後,VRAM 占用約 17-19 GB,一張 RTX 3090 / 4090 / A6000 就能跑。對比 Llama 3.1 70B 要兩張 A100,硬體門檻直接砍半以上。

ℹ️為什麼老闆要在意這件事

Gemma 3 27B 把「企業級 LLM」的入場硬體門檻從 250 萬(兩張 A100)拉到 25 萬(一張 3090 主機)。十倍的成本壓縮,意味著很多原本「只能用 API」的場景,現在可以重新評估自架。

四個尺寸怎麼選:1B / 4B / 12B / 27B 使用情境決策樹

Google 一次開了四個尺寸不是亂出招,每個都對應明確情境。直接看表:

尺寸

VRAM(Q4 量化)

最適合場景

不適合場景

1B

約 1 GB

手機端、邊緣裝置、即時關鍵字偵測

需要推理、長文摘要

4B

約 3 GB

筆電本地跑、客服 FAQ、簡單分類

專業領域問答、多輪複雜對話

12B

約 8 GB

中型企業內部助理、文件問答、RTX 4070 可跑

頂級推理、跨領域知識整合

27B

約 17-19 GB

企業級 RAG、合約審閱、多模態工作流

超大規模並發、即時高速串流

一句話總結選法:員工筆電上跑 → 4B;公司內部一台主機服務全公司 → 12B;要做認真的 AI 產品或客戶系統 → 27B;要塞進 IoT 或 App → 1B。

RTX 3090 跑 Gemma 3 27B 的硬體現實:記憶體、速度、量化

很多人看到「3090 能跑 27B」就以為很爽,實際跑起來有幾個現實要先講:

VRAM 預算要留 buffer

Q4_K_M 量化後模型本身約 17-19 GB,但你還要留 KV cache(長 context 會吃更多)、推理 buffer。3090 的 24 GB VRAM 大概只能撐到 8k-16k 的實際可用 context;要跑滿 128k,建議直上 A6000(48 GB)或兩張 3090 做 tensor parallelism。

token/s 的真實期待值

硬體

Gemma 3 27B Q4

Gemma 3 12B Q4

RTX 3090

約 25-35 tok/s

約 55-70 tok/s

RTX 4090

約 40-55 tok/s

約 85-110 tok/s

A6000 / RTX 5090

約 50-75 tok/s

約 100-140 tok/s

DGX Spark

約 35-50 tok/s

約 70-95 tok/s

做客服、文件問答這種「使用者願意等 3-5 秒」的場景,3090 完全夠用。要做即時打字串流給客戶看的應用,建議 4090 起跳。如果你想看「桌上型 AI 主機」這條路徑,可以延伸閱讀 NVIDIA DGX Spark 完整解析,4,699 美元的 ARM 架構 AI 桌機是另一個選項。

Gemma 3 多模態能力與消費級 GPU 跑 27B 模型
Gemma 3 多模態能力與消費級 GPU 跑 27B 模型

Gemma 3 vs Llama 4 vs Mistral Small 3.1:基準測試對照

三個模型都號稱「單卡可跑、企業可商用」,差別在哪?看實測對照:

項目

Gemma 3 27B

Llama 4 Scout 17B

Mistral Small 3.1 24B

Context

128k

10M(業界最長)

128k

多模態

原生支援

原生支援

原生支援

MMLU 分數

約 78

約 80

約 75

中文表現

優(140 種語言訓練)

中等

中等偏弱

授權限制

Gemma License 商用 OK

月活 7 億以下免費

Apache 2.0 最寬鬆

單卡部署

3090 即可

3090 即可

3090 即可

一句話結論:要中文好 → Gemma 3;要超長 context → Llama 4 Scout;要授權最乾淨(不怕被 Meta 反悔)→ Mistral。台灣中小企業的需求清單裡,中文準確度通常排第一,所以 Gemma 3 是 default 選擇。

企業三條路決策框架:自架 vs API vs SaaS 怎麼選

這是這篇的核心。如果你只看一段,看這段。

企業導入 AI 不是選模型,是選「商業模式」。同一個任務有三條路可以走,差別在誰扛固定成本、誰扛變動成本、誰扛技術風險:

路徑 A:自架開源模型(Gemma 3 / Llama 4 / Mistral)

買 GPU、跑 Ollama / vLLM、自己維護。一次性硬體投入大,但每月成本壓很低,資料完全不出機房。

路徑 B:商用 API(OpenAI / Claude / Gemini)

註冊帳號、拿 API Key、按 token 計費。零硬體投入,模型永遠是最新的,但每筆 query 都在燒錢,且資料會經過第三方(雖然多數有隱私承諾)。

路徑 C:訂閱 SaaS(ChatGPT Team / Claude Team / Microsoft Copilot)

每人每月固定費用,員工直接開瀏覽器用,沒有 API 串接也沒有部署。最快上線,但只能用「通用對話」場景,沒辦法整合進你的內部系統。

三條路的決策邏輯,畫成流程圖長這樣:

圖表載入中…

決策樹的隱藏前提

這張圖假設你已經想清楚「要解決什麼問題」。如果連問題都還沒定義(多數老闆其實在這一步),請先看 /blog/business-ai-procurement-guide-2026 的需求盤點章節,再回來看這張圖。

3 年總持有成本(TCO)對照表:5 個用量情境算給你看

光看流程圖還不夠,老闆要看的是「3 年下來到底花多少」。下面用 5 個用量情境,把自架、API、SaaS 三條路的 3 年 TCO 算給你:

計算假設:自架走 Gemma 3 27B + RTX 4090 主機(NT$ 280K,含整機、UPS、機櫃)、電費按 24 小時運轉每月 NT$ 3K、維運人力按外部接案商每月 NT$ 8-15K(中小企業很少有 in-house AI 工程師)。API 用 Claude Sonnet 4.7 報價(每 1M input tokens NT$ 100、output tokens NT$ 500,假設 input/output 比 4:1)。SaaS 用 ChatGPT Team 每人每月 USD 25 ≈ NT$ 800 計算。

情境 1:每月 1 萬 query(小公司內部問答)

項目

自架 Gemma 3 27B

API(Claude Sonnet)

SaaS(ChatGPT Team 10 人)

勝出

✓ 最便宜

一次性

NT$ 280,000

NT$ 0

NT$ 0

每月變動

NT$ 11,000(電+維運)

約 NT$ 3,000

NT$ 8,000

3 年總

約 NT$ 676,000

約 NT$ 108,000

約 NT$ 288,000

情境 2:每月 10 萬 query(中型客服系統)

項目

自架

API

SaaS(不適用)

勝出

✓ 最便宜

一次性

NT$ 280,000

NT$ 0

每月變動

NT$ 11,000

約 NT$ 30,000

—(無 API 整合)

3 年總

約 NT$ 676,000

約 NT$ 1,080,000

情境 3:每月 100 萬 query(中大型 RAG / Agent 應用)

項目

自架

API

勝出

✓ 自架直接省 1 千萬

一次性

NT$ 280,000

NT$ 0

每月變動

NT$ 15,000(高負載維運加碼)

約 NT$ 300,000

3 年總

約 NT$ 820,000

約 NT$ 10,800,000

情境 4:每月 1000 萬 query(大型企業內部 + 對外服務)

項目

自架(雙機 + 負載均衡)

API

勝出

✓ 自架省超過 1 億

一次性

NT$ 600,000

NT$ 0

每月變動

NT$ 30,000

約 NT$ 3,000,000

3 年總

約 NT$ 1,680,000

約 NT$ 108,000,000

情境 5:每月 1 億 query(大型平台 / SaaS 後端)

這個量級已經不是「自架 vs API」的選擇,是必須混合:自架扛 80% 高頻通用 query、API 扛 20% 需要最強推理的 edge case。3 年 TCO 大約落在 NT$ 800 萬-2000 萬之間,差異主要看流量分配比例。

⚠️TCO 表的三個盲點要注意

1. 自架沒算「模型升級」成本:Gemma 4 出來時你要不要換?2. API 沒算「廠商漲價風險」:OpenAI 過去兩年漲過兩次、降過三次,方向不可控。3. SaaS 沒算「員工帶離職資料」風險:人走帳號還在,但歷史對話可能跟著消失。

成本只是其中一個維度。如果你的場景還涉及微調 vs RAG 的選擇,建議搭配看 Fine-tuning vs RAG 成本與決策指南,那篇講的是「同樣 100 萬 query 量下,要不要花錢做微調」。

哪些情境一定要自架?三個非自架不可的訊號

訊號 1:合規/機密需求把 API 路堵死

如果你的資料屬於下面任一類,API 路徑直接刪除:醫療病歷、金融交易明細、個資(PII)量大、政府機關專案、律師事務所案件文件、上市公司未公開財報。這類資料一旦進到 OpenAI / Anthropic 的伺服器,就算對方說不訓練,你也很難跟法遵交代。自架是唯一解。

訊號 2:每月用量穩定且 > 100 萬 query

從 TCO 表已經看到,月用量 100 萬以上 API 直接被自架輾壓。如果你的用量每月波動小於 30%(不是促銷檔期才會炸的那種),自架的成本優勢可以穩定吃 3 年。

訊號 3:產品本身就是「AI 服務」

如果你做的產品是 AI 客服平台、AI 寫作工具、AI 翻譯 SaaS——你的毛利結構決定你必須壓低每筆 query 成本,否則做越多虧越多。自架(或自架 + API 混合)幾乎是必經之路。

哪些情境不要自架?三個別硬上的訊號

訊號 1:需求變動劇烈,今年要明年不要

買硬體是 3 年攤提,需求週期短於 1 年的場景(一次性活動、短期專案、實驗性產品)走 API 才對。30 萬硬體買下去用半年就閒置,老闆心臟不夠強。

訊號 2:公司沒人懂 AI 工程,連找人接案都沒預算

自架不是裝完 Ollama 就結束。模型升級、版本回退、效能調校、突發問題排除——沒人扛這些事,主機放在機房就只是台貴的吃灰機。如果連找接案商代管的預算都擠不出來,先用 SaaS 半年,學會用 AI 之後再回頭評估。

訊號 3:新創早期 / 還在驗證商業模式

早期最缺的是現金流,不是省成本。把 30 萬丟去買 GPU,不如丟去做行銷測試。先用 API 把產品做起來,等月用量穩定 > 50 萬 query 再回頭算自架划不划得來。這個建議來自 老闆 AI 採購指南 的核心邏輯:先驗證再投資,別本末倒置。

Gemma 3 vs Llama 4 vs Mistral Small 開源 LLM 選擇
Gemma 3 vs Llama 4 vs Mistral Small 開源 LLM 選擇

恆遠的「混合策略」實戰:自家產品 + 客戶系統怎麼配

講完別人,講恆遠自己。恆遠數位行銷做兩件事:經營自家 SaaS(秒發報價、開課王),以及替客戶做客製化 AI 系統。這兩條業務線的 AI 配置完全不同——

自家 SaaS:90% API + 10% 自架

秒發報價要在 5 秒內產出報價單,對「最新模型推理品質」要求高,恆遠走 API。但圖片處理、規格表 OCR、產品分類這些重複性高的後台批次任務,恆遠自架 Gemma 3 12B 在自家機房處理,每月省下的 token 費用足夠付電費。

客戶接案:依需求配,不推預設答案

恆遠接案的第一個問題從來不是「你要 GPT 還是 Claude」,是「你的資料能不能出機房、每月用量多少、3 年內會不會擴展」。問完才推方案——有客戶選 ChatGPT Team(快上線),有客戶選自架 Gemma 3 27B(醫療資料不能外流),也有客戶走 API + RAG 混合。恆遠賣的不是 GPU 也不是 API key,是「3 年後不會後悔的那條路」。

如果你正在評估自己的客製化 AI 系統怎麼規劃,可以延伸看 客製化 AI 系統開發完整指南Claude 模型比較指南,這兩篇分別講「整體流程」和「API 模型怎麼選」。

恆遠的 30 秒判斷法

Step 1:每月 query < 5 萬 → SaaS。Step 2:5-100 萬 + 資料可外流 → API。Step 3:> 100 萬 OR 資料機密 → 自架(自己沒人就找接案商代管)。Step 4:以上都不確定 → 直接約恆遠免費盤點 30 分鐘,比自己卡 3 個月划算。

常見問題

QGemma 3 跟 Gemini 是同一個東西嗎?

不是。Gemini 是 Google 的閉源旗艦模型,Gemma 是 Google 釋出的開源版本,架構從 Gemini 簡化而來,但訓練資料、參數規模、能力上限都比 Gemini 小。Gemma 3 的對標是「能在自家機器上跑的最強開源模型」,不是 Gemini 的替代品。

Q自架 Gemma 3 27B,硬體最低門檻多少?

Q4 量化下,最低門檻是一張 RTX 3090(24GB VRAM),整機含 CPU、64GB RAM、SSD 約 NT$ 80,000-100,000。實務上建議直上 RTX 4090(NT$ 130,000-160,000),原因是 3090 跑滿 128k context 會爆 VRAM,4090 速度也會大幅改善體驗。整機含機櫃、UPS、機房環境,企業級配置抓 NT$ 280,000 是合理預算。

QGemma 3 商用授權真的可以放心用嗎?

可以。Gemma License 允許商用、修改、再分發,唯一限制是不能用 Gemma 訓練其他競品模型賣給別人。對絕大多數企業使用場景都沒影響,比 Llama 4「月活 7 億以下免費」更寬鬆,比 Mistral 的 Apache 2.0 略嚴一點點。

QChatGPT Team 跟自架 Gemma 3,員工體驗差很多嗎?

差很多。ChatGPT Team 員工開瀏覽器就能用,介面熟悉、有手機 App、有 GPTs 商店。自架 Gemma 3 你要自己做前端、管帳號、做權限。所以小公司一律建議先 SaaS、用量起來再考慮自架。

QGemma 3 的中文表現真的比 Llama 4 好嗎?

在台灣繁體中文情境下,恆遠實測 Gemma 3 27B 的回答自然度、用詞精準度、商業文書產出都比 Llama 4 Scout 17B 略勝一籌。原因可能是 Google 用了 140 種語言的多語料訓練。但若你的場景是英文為主或要用 10M 超長 context,Llama 4 Scout 仍有優勢。

下一步:恆遠的 AI 系統盤點服務

看完這篇,如果你還在「到底走哪條路」之間猶豫——這正是恆遠數位行銷可以幫你的地方。

恆遠提供「30 分鐘免費 AI 盤點諮詢」:聽完你的需求、用量預估、合規限制、預算範圍,當場給你一份「自架 vs API vs SaaS」的客觀比較與推薦路徑。不推預設方案,不綁套裝產品,推出來的就是你最適合的那條路。

→ 點此預約恆遠 AI 系統諮詢

分享文章

AUTHOR

自由揚AntonyLin

留言(0)

尚無留言,成為第一個留言的人吧!

需要網站系統架設或軟體開發?

無論是品牌官網、客製化系統還是應用程式,我們的團隊擁有豐富經驗,歡迎聯繫我們,讓專業為您的事業加分。