
企業自建 LLM 的完整技術路徑是:選定基底模型(Llama 3.3、Qwen 2.5、Gemma 3 等開源權重)→ 用 LoRA 或 QLoRA 在自家資料上微調 → 用 AWQ 或 GPTQ 量化壓縮 → 用 vLLM 部署成 API 服務 → 跑 lm-eval-harness 驗證效果。一個 7B 模型完整 pipeline 跑下來,硬體可低到一張 RTX 4090,三人團隊大概 6 到 10 週能上線。
但「能做」不等於「該做」。
台灣的中小企業老闆很容易把「自建 AI」浪漫化,看到一些開源模型 demo 就想立刻投錢。實際數據沒那麼好看:Gartner 預測 2026 年超過 80% 的企業會部署生成式 AI,但其中真正自建的工作負載只佔 13%,雲端 API 仍是主流。剩下 87% 的企業選擇付費叫 OpenAI 或 Anthropic 的 API,是因為自建這條路很燒錢、技術門檻也高。
這篇是技術深入文,不是「五分鐘搞懂 AI」的入門懶人包。會講具體的 target_modules 設定、QLoRA 在 70B 模型上的顯存實算、AWQ 跟 GPTQ 的 throughput 差異。先擺好讀者定位:
- 如果你是 CTO 或技術主管,這篇是給你的施工圖,可以直接拿去評估方案
- 如果你是想評估外包價值的老闆,這篇能讓你知道對方「在做什麼」、「該花多久」、「報價合不合理」
- 如果你還在猶豫該不該做,建議先讀 Fine-tuning vs RAG 的決策指南,那篇是商業決策角度,這篇是純技術角度,互補閱讀

先說結論:什麼公司值得自建、什麼公司是在燒錢
自建 LLM 在 2026 年依然是少數人的遊戲。a16z 對 100 家企業 CIO 的訪談顯示,真正執行 model fine-tuning 的企業,幾乎都同時具備這三個條件:自家有獨特的、無法用 RAG 取代的領域資料;對推論延遲與資料外洩有合規或商業壓力;以及,內部至少有一位真的懂 ML training pipeline 的工程師。三個少一個,自建多半會失敗。
我們最近幾年看過幾個典型場景:
情境 | 建議做法 | 為什麼 |
|---|---|---|
客服語料 5 萬筆、想做 24 小時 chatbot | 用 RAG + GPT-4o API | 資料變動快,RAG 更適合;微調反而會把舊知識凍結 |
醫療影像報告、法律合約等專業文本 | 考慮 LoRA 微調 + 私有部署 | 詞彙專業度高、合規要求嚴、資料不能外送 |
想做客製化的 AI 寫作助手 / Persona | LoRA 微調 7B 開源模型 | 風格與口吻是 RAG 解決不了的 |
想替代 GPT-4 在內部寫程式 | 現階段別自建 | 技術差距太大、ROI 算不過來 |
有大量結構化內部知識(SOP、FAQ) | RAG 優先、評估後再決定要不要微調 | RAG 一週上線、微調至少六週 |
如果你是看完上表覺得「我家狀況其實沒那麼適合」,那這篇後半部就當作技術科普讀。如果是看完更想往下走,繼續往下讀,會給你具體的施工順序。
ℹ️這篇文章的技術假設
後面的所有 VRAM 估算、超參數建議都以 Llama 3.3、Qwen 2.5、Gemma 3 這三個 2026 主流開源模型為例。如果你選的是其他模型(如 DeepSeek V3、Mixtral 8x22B),原理通用但實際數字會不同,建議用 Hugging Face 的 PEFT 文件 對照。
基底模型選型矩陣:Llama 3.3、Qwen 2.5、Gemma 3 該怎麼挑
選錯基底模型,後面整條 pipeline 都會白做。這一步要看四個維度:授權條款、中文表現、生態相容性、硬體門檻。台灣企業特別在意中文,這跟矽谷團隊的選擇邏輯不太一樣。
模型 | 代表尺寸 | 中文表現 | 授權 | 硬體門檻(QLoRA) | 適合場景 |
|---|---|---|---|---|---|
Llama 3.3 | 8B / 70B | 中等(需要再訓) | Meta 商用授權(>7億 MAU 要申請) | 8B:16GB / 70B:96GB | 通用任務、英文為主、生態最完整 |
Qwen 2.5 | 0.5B~72B | 強(CJK 母語級) | Apache 2.0(72B 例外) | 7B:12GB / 72B:96GB | 中文客服、台灣本土應用首選 |
Gemma 3 | 1B / 4B / 12B / 27B | 中等偏弱 | Gemma License(商用受限) | 12B:24GB / 27B:48GB | 小型本地裝置、邊緣部署 |
Mistral Small 3 | 24B | 弱 | Apache 2.0 | 32GB | 歐美語系、中階硬體高吞吐 |
如果你的應用會碰繁體中文,Qwen 2.5 幾乎是 2026 年的唯一解。Qwen 2.5 14B 在 HumanEval 拿到 72.5%,Llama 3.3 8B 只有 68.1%,而且 Qwen 在 CJK 語料上下功夫遠比 Meta 多,繁體中文「腔調」自然得多。我們實測過:同樣是「請寫一封商業道歉信給合作的供應商」,Llama 3.3 8B 寫出來像翻譯腔,Qwen 2.5 14B 一開口就有台灣商業書信的味道。
Gemma 3 的優勢在「小」。它的 1B / 4B 版本能塞進 RTX 3090 甚至筆電,適合做邊緣部署——例如門市的離線語音助理、車載小模型。但要做企業級任務,27B 起跳才有競爭力,而 27B 的中文又輸 Qwen 2.5。
Mistral 我們很少在台灣案場用,原因是中文太弱。它在歐洲是好選擇,但繁體環境下幾乎沒有競爭力。除非你的應用本來就是英文為主(例如國際 SaaS 產品的後台),不然不建議。
⚠️授權地雷一定要看清楚
Llama 3 系列雖然開源,但有「年活躍用戶 > 7 億就必須跟 Meta 申請特別授權」這條紅線。對中小企業沒差,但如果你是要做 SaaS 賣到國際、或被大公司收購,這條會卡你。Gemma License 限制更多,禁止某些「敏感應用」。商用前一定要請法務先看 license。
顯存怎麼算:從參數量到實際吃幾 GB

顯存(VRAM)計算是新手最容易低估的一塊。光看模型參數量乘以位元組數,會差 4 到 6 倍。微調時的真實顯存佔用,要把這四塊全算進去:模型權重、梯度、優化器狀態、激活值。
以 Llama 3 7B 為例,FP16 全微調的實際 VRAM 需求是 60 到 80GB,不是天真乘出來的 14GB。差異全在優化器(Adam 每個參數要 8 bytes 存 momentum)和梯度。所以 RTX 4090(24GB)連 7B 的全微調都跑不動。
這就是為什麼QLoRA 是 2026 年的事實標準。它把基底模型量化成 4-bit、凍結權重不更新,只訓練極少量的 adapter 參數。實際吃多少:
模型尺寸 | Full Fine-tune(FP16) | LoRA(FP16 base) | QLoRA(4-bit base) | 可用硬體 |
|---|---|---|---|---|
7B | 60-80GB | 30-40GB | 8-12GB | QLoRA:RTX 4090 / A100 |
13B | 100-130GB | 50-65GB | 14-20GB | QLoRA:RTX 4090 / 5090 |
34B | 260-320GB | 130-160GB | 30-40GB | QLoRA:A100 80GB / H100 |
70B | 560-700GB | 280-340GB | 75-95GB | QLoRA:H100 80GB / RTX PRO 6000 96GB |
70B 模型用 QLoRA 微調,在 2026 年已經能在一張 RTX PRO 6000 Blackwell(96GB VRAM)上單卡完成。這在兩年前還需要 4 張 A100。Unsloth 函式庫在 2026 年又把 QLoRA 效率推進了一截——同樣的工作量,速度快 2 倍、VRAM 再省 70%。
實際估算公式(給工程師收藏):
# QLoRA 大略估算
# 模型權重(4-bit 量化):params × 0.5 bytes
# LoRA adapter:params × 2 × rank × 16 × 2 bytes / hidden_size(通常 ~0.5%)
# Adam optimizer:adapter_params × 8 bytes
# 激活值(依 batch_size & seq_len):通常 4-8 GB
# 範例:Llama 3 70B QLoRA, r=16
weight_4bit = 70e9 * 0.5 / 1e9 # = 35 GB
lora_adapter = 70e9 * 0.005 * 2 / 1e9 # ≈ 0.7 GB
optimizer = 0.7 * 8 # ≈ 5.6 GB
activations = 6 # 經驗值
total = 35 + 0.7 + 5.6 + 6 # ≈ 47 GB(單張 H100 80GB 綽綽有餘)這個公式不精準,但抓量級夠用。實務上會多保留 20-30% 緩衝給 dataloader、CUDA context、checkpoint。
如果你只有一張消費級顯卡
RTX 4090(24GB)能跑:7B 全 QLoRA、13B QLoRA(要降 batch size 到 1-2)、加上 Unsloth 甚至能勉強塞下 34B QLoRA。70B 就別硬上了,租 Vast.ai 或 RunPod 的 H100 一小時大約 NT$ 60,比買硬體划算太多。
LoRA 與 QLoRA 超參實戰:rank、alpha、target_modules 的真實影響
LoRA 看似只有三個主要超參,但每個都會嚴重影響最終效果。先講target_modules這一塊——大多數開源教學沿用 LoRA 原論文的「只訓練 q_proj 和 v_proj」,這在 2026 年已經是過時做法。
2026 年的主流做法是把所有 linear layer 都拉進 LoRA 訓練,包含 attention 的 q/k/v/o 和 MLP 的 gate/up/down。實測下,全 linear LoRA 在 instruction-tuning 任務上比 q_proj+v_proj 平均高出 3-5 個百分點,VRAM 多吃也才 10% 左右,CP 值極高。
from peft import LoraConfig
# 2026 推薦設定(Llama 3 / Qwen 2.5 / Gemma 3 通用)
lora_config = LoraConfig(
r=16, # rank:起手式 16
lora_alpha=32, # alpha:建議 r 或 2r
target_modules=[
"q_proj", "k_proj", "v_proj", "o_proj", # attention
"gate_proj", "up_proj", "down_proj", # MLP
],
lora_dropout=0.05,
bias="none",
task_type="CAUSAL_LM",
use_rslora=False, # 只有 r>64 才需要
)再來是rank(r)。這個值決定 adapter 的「容量」。太小學不會、太大過擬合且不穩定。實務經驗:
- r=4-8:適合簡單任務(風格轉換、二元分類、特定 persona)
- r=16:通用 instruction-tuning 的甜蜜點,95% 場景用這個
- r=32-64:複雜推理、code generation、需要學新知識的場景
- r=128+:必須開 use_rslora=True,不然 gradient 會不穩
alpha 是個容易誤解的參數。實際縮放比例是 alpha / r,所以很多人把 alpha 拉很高想增強效果,反而讓 adapter 主導太強、灰飛湮滅了基底模型的能力。一個穩妥的做法:alpha 設成等於 r,或最多 2r。Llama 4 和 Mistral Next 這類深層模型,alpha = r 的收斂最穩定。
初始設定建議跑 r=16 / alpha=32、訓練 3 個 epoch。如果 loss 下降太慢,再考慮加 alpha 或調 learning rate(QLoRA 預設 2e-4 算偏激進,可以從 1e-4 開始試)。
🚨不要直接 copy paste 別人的超參
我們常看到工程師把網路上的 Llama 2 超參直接套到 Llama 3 或 Qwen 上跑,結果 loss 不收斂或產出亂碼。每個 base model 的最佳超參都不一樣,特別是 Qwen 2.5 的 tokenizer 和 Llama 系列差很多,learning rate 通常要再低一點(5e-5 ~ 1e-4)。第一次調的時候,先拿 100-500 筆樣本跑小規模實驗,確認 loss 曲線健康再放大。
資料準備才是真正的工程:SFT 格式、清洗、token 預算

跟很多人的直覺相反,自建 LLM 真正花時間的是把資料整理成模型能學的樣子,GPU 跑訓練反而是其次。一個典型專案,訓練只佔 20% 的工時,剩下 80% 全在資料 pipeline 上。
SFT(Supervised Fine-tuning)的標準資料格式是 ChatML 或 Alpaca 格式。以 Qwen 2.5 為例,每一筆資料長這樣:
{
"messages": [
{"role": "system", "content": "你是恆遠的客服專員,回覆要禮貌、簡潔、有重點。"},
{"role": "user", "content": "請問你們做網站架設的報價區間是多少?"},
{"role": "assistant", "content": "您好,網站架設專案的報價會依需求複雜度而定,一般落在 NT$8 萬到 NT$30 萬之間。建議先填寫需求單,我們可以給您更精準的估算:https://foreverwebs.com/contact"}
]
}資料筆數的經驗法則:
任務複雜度 | 建議資料量 | 範例 | 預估訓練時間(7B QLoRA) |
|---|---|---|---|
風格 / 口吻調整 | 500-2,000 筆 | 客服話術、品牌語氣 | 1-3 小時 |
特定領域問答 | 3,000-10,000 筆 | 法律 QA、醫療衛教 | 6-15 小時 |
複雜推理 / 工具調用 | 10,000-50,000 筆 | 結構化資料抽取、API 呼叫 | 1-3 天 |
跨領域通用能力 | 50,000+ | 多任務指令跟隨 | 3-7 天(建議租 H100) |
資料品質的影響遠大於數量。Apple、Microsoft 等公司的研究反覆證明,1,000 筆高品質資料的效果,往往勝過 10 萬筆抓網路抓來的雜訊資料。我們的內部規則:每一筆資料都要有人類審核過、輸出的事實性要驗證、不能讓模型學到自相矛盾的內容。
常見地雷:
- 資料外洩個資沒清乾淨,模型會把客戶電話「背」出來,違反個資法
- 回答長度極端不平衡(80% 都是兩三句、20% 是長段落),模型會學到「該短就長、該長就短」
- Token 長度沒控制,超出 context window 被截斷,學到一半的回答
- 沒有負面樣本(負樣本 / refusal),模型遇到不該答的問題會硬答
Token 預算的快速估算
繁體中文一個字大約是 2-3 個 token(Qwen 系列)或 3-5 個 token(Llama 系列)。10,000 筆每筆平均 500 字的中文資料 ≈ 1500 萬 token。Llama 3 7B 跑一個 epoch 大約 50 token/s/GPU,所以 H100 上跑完約 80 小時。租 H100 的話算 NT$ 4,800,這還只是訓練、不算資料清理工時。
量化選型:GPTQ、AWQ、GGUF、bitsandbytes 該怎麼挑
微調完的模型若直接用 FP16 部署,70B 要吃 140GB VRAM,根本沒辦法塞進一張 H100。量化是把模型從 FP16 壓到 4-bit、8-bit 的技術,能在「保留 90% 以上效果」的前提下,把記憶體佔用減少 3-4 倍。
2026 年最常見的四種方案,效能與品質差異很大:
量化格式 | 品質保留 | 推論速度(Qwen2.5-32B on vLLM) | 適合場景 | 踩雷點 |
|---|---|---|---|---|
AWQ | ~95% | 741 tok/s(vLLM + Marlin) | 生產環境首選 | 校準資料要選對 |
GPTQ | ~90% | 712 tok/s(vLLM + Marlin) | 資源充足、追求最高品質 | Code 任務掉分多(4-10%) |
BitsandBytes (NF4) | ~98%(接近無損) | 168 tok/s | 微調當下、訓練用 | 推論慢、不適合線上服務 |
GGUF (Q4_K_M) | ~92% | 93 tok/s(llama.cpp) | 本地單機、CPU/Mac 部署 | vLLM 上吞吐極低 |
簡單的決策邏輯:
- 線上服務 / API:AWQ + vLLM + Marlin kernel,這個組合是 2026 年的事實標準
- Mac Studio / 個人本地:GGUF + llama.cpp 或 Ollama
- 還在實驗階段:bitsandbytes,方便調試但別上線
- 最在意精度:AWQ 或不量化(如果 VRAM 夠的話)
一個常見誤解:很多人聽到 GGUF 名氣大就以為它最強。事實是 GGUF 是檔案格式而非量化演算法本身,它在 llama.cpp 生態裡很方便(Ollama 就是用 GGUF),但放到 vLLM 上推論速度極差——Qwen 2.5 32B 在 vLLM 用 GGUF 只能跑到 93 tok/s,比同樣模型用 AWQ 慢了 8 倍。
ℹ️AWQ 校準資料的選擇
AWQ 需要一組「校準資料」來決定哪些權重要保留更高精度。校準資料的分布必須接近你實際的應用場景——做客服就用客服對話、做 code 就用程式碼。直接用 wikitext 校準,再來服務中文業務,效果會打 2-3 折。校準資料 128-512 筆就夠,太多反而會 overfit。
推論部署:vLLM、Ollama、TGI、SGLang 各自的位置

模型微調完、量化好了,最後一步是把它變成能對外服務的 API。這一步決定你的線上成本和使用者體驗。2026 年 vLLM 已經是生產環境的絕對王者,但其他方案各有適用場景。
框架 | 強項 | 弱項 | 適合場景 |
|---|---|---|---|
vLLM | PagedAttention 高吞吐、生態最廣、AWQ/GPTQ 支援好 | 冷啟動慢、配置複雜 | 生產 API、多用戶並發 |
Ollama | 一行指令啟動、開發體驗極佳、Mac 友善 | 吞吐量低(41 vs vLLM 793 tok/s)、不適合並發 | 本地開發、Demo、個人助理 |
TGI | 長 context 處理特別強 | Hugging Face 2025/12 已轉維護模式 | 已有 TGI 部署的繼續用、新案不選 |
SGLang | 結構化生成、function calling 超強 | 生態還在追 vLLM | 需要複雜 prompt control 的 agent 系統 |
實測數據相當驚人:Llama 3.1 70B 在 vLLM 上比 TGI 吞吐高 1.8 倍、TTFT 快 5.1 倍。Llama 3.1 405B(8 張 MI300X)vLLM 比 TGI 吞吐高 1.5 倍。所以如果你準備上生產,請務必選 vLLM——除非你的 prompt 經常超過 200K tokens,那 TGI v3 在長 prompt 仍然快 13 倍。
一個能直接照抄的 vLLM + AWQ 啟動指令(Qwen 2.5 14B AWQ 為例):
# 假設模型在 /models/qwen2.5-14b-awq
python -m vllm.entrypoints.openai.api_server \
--model /models/qwen2.5-14b-awq \
--quantization awq_marlin \
--max-model-len 8192 \
--gpu-memory-utilization 0.92 \
--tensor-parallel-size 1 \
--served-model-name qwen2.5-14b \
--port 8000
# 這樣會起一個 OpenAI 相容的 API
# 直接用 openai-python 的 SDK 把 base_url 換成 http://localhost:8000/v1 就能呼叫關鍵調優參數:
- gpu-memory-utilization:建議 0.90-0.92,留一點給 CUDA context
- max-model-len:設成業務實際需要的長度,越長 KV cache 越大、能服務的並發數越低
- tensor-parallel-size:多卡並行時用,70B 模型在兩張 H100 上設 2
- --enable-prefix-caching:相同 system prompt 的快取,能省 30% 以上延遲,強烈建議開
Ollama 不是 vLLM 的競品
兩者定位完全不同。Ollama 是「個人 / 開發者體驗」優先,vLLM 是「生產吞吐」優先。實務上我們的開發流程是:在 Mac 上用 Ollama 跑模型做 prompt 設計與 demo、在 Linux 伺服器上用 vLLM 跑正式服務。同一個模型在不同階段用不同框架,是合理的。
評測:怎麼證明你微調出來的模型真的有變強
沒做評測的微調等於沒做。我們看過太多團隊微調完只跑了三五個 prompt 覺得「感覺有變好」就上線,結果上線之後一堆 hallucination、客戶投訴。評測這一步至少要做兩層:自動化基準和業務情境。
自動化基準
業界標準工具是 EleutherAI 的 lm-evaluation-harness,它整合超過 60 個學術 benchmark,包含中文評測(CMMLU、C-Eval、TMMLU+ for 台灣)、英文(MMLU、GSM8K、HumanEval)、推理(ARC、HellaSwag)。一條指令就能跑:
lm_eval --model hf \
--model_args pretrained=/models/qwen2.5-14b-finetuned \
--tasks cmmlu,gsm8k,humaneval,arc_challenge \
--batch_size 8 \
--output_path ./eval_results/微調前 vs 微調後跑同一組 benchmark,三件事必須驗證:
- 目標領域分數有提升(理所當然,但很多人沒驗)
- 通用能力沒崩盤——這是 catastrophic forgetting 的徵兆,最危險
- 有害輸出(toxic / bias)的比例沒上升
業務情境測試
自動化基準分數不能代表業務效果。下一步是建立一個「黃金測試集」,最少 100 題,涵蓋你真實業務中最常見和最棘手的場景。這 100 題請業務 PM 或客服主管出題,不要工程師自己出。評分用 GPT-4o 或 Claude 4.7 當 judge 就好(成本一次幾百塊台幣,比人類標註便宜 100 倍)。
MT-Bench 是一個常見的多輪對話 benchmark,用強模型當裁判給 1-10 分。MT-Bench 已經是業界事實標準,特別適合用來評估對話品質和指令跟隨能力。
一個 7B 自建專案的真實成本拆解
撇開大公司,看一個典型的中小企業案場:Qwen 2.5 7B 微調 + AWQ 量化 + vLLM 部署,做一個內部專屬的客服 / 知識問答系統。從 0 到 1 完整跑下來,台灣市場行情大致如下:
項目 | 預估成本(NT$) | 備註 |
|---|---|---|
資料準備(10,000 筆 SFT 資料) | 8 萬 ~ 25 萬 | PM + 領域專家工時為主 |
GPU 雲端訓練(H100 × 30 小時) | 1.5 萬 ~ 2 萬 | RunPod / Vast.ai 行情 |
量化與評測(含 lm-eval-harness 跑分) | 1 萬 ~ 3 萬 | 工程師 1-2 週工時 |
生產部署伺服器(含一張 RTX 4090 或 L40S,月租) | 1.5 萬 ~ 3 萬 / 月 | 若自購機器一次 12-25 萬 |
MLOps 監控 / 重訓 pipeline 建置 | 10 萬 ~ 30 萬 | 一次性工程 |
首年總成本(含部署 12 個月) | 40 萬 ~ 95 萬 | 依資料品質與重訓頻率波動 |
對照組——同樣場景用 GPT-4o API 做 RAG:
- 初期建置成本:5-15 萬(純工程,不需要硬體和訓練)
- 月 API 費用:以日均 1,000 次對話估算約 NT$ 6,000-15,000 / 月
- 首年總成本:約 12-35 萬
結論不意外——自建第一年通常貴 1.5-3 倍。但有兩個拐點會讓自建變划算:對話量持續成長到每月 5 萬次以上,API 費用會超過自建的伺服器月租;或是有合規 / 資料外洩的硬需求,那就無關 ROI。
詳細的 TCO 對照可以參考我們之前寫的自架 AI vs API vs SaaS 決策樹,那篇有把三條路徑的 3 年 TCO 攤開算給你看。
老闆視角:要不要養團隊?什麼時候該外包?
這一段給的是商業決策框架,不是技術內容。如果你正在評估報價或考慮要不要養一個 AI 團隊,請繼續看。
自建 LLM 對中小企業最大的隱性成本是「人」。一個能完整跑這條 pipeline 的工程師,台灣 2026 年的市場行情月薪是 18-35 萬,年薪兩百多萬。而且很難招,104 數據顯示 56% 的企業反映 AI 人才嚴重不足。要養兩三個這種人,光人事年支出就 600 萬起跳。
實務上比較常見的選擇有三條路:
選擇 | 適合的公司樣態 | 首年預算範圍 | 風險點 |
|---|---|---|---|
養內部小團隊(1 PM + 2 工程師) | 資料是核心競爭力、長期高頻使用 AI | 800 萬 ~ 1,500 萬 | 人才流失即崩盤 |
全外包給顧問公司 | 一次性建置、後續維運簡單 | 150 萬 ~ 500 萬 | 知識不留在公司、長期依賴外部 |
混合:內部 1 PM + 外包技術 | 資料敏感但團隊小、想保有掌控力 | 200 萬 ~ 600 萬 | 需要強而清楚的需求溝通能力 |
我們做過很多次第三種——公司內部找一個懂業務的 PM,技術交給外部團隊執行。原因很單純:自建 LLM 一年裡真正需要「全力衝刺」的時間大概 3-6 個月,剩下時間是維運和小幅優化。養兩個工程師全年坐板凳並不合理;但完全外包又會讓知識在公司外、未來想 in-house 接手很痛。
如果你正在評估外包報價,有幾個訊號可以判斷對方是不是真懂:他會不會問你的資料樣態和量、會不會主動建議「先用 RAG 試一個月再決定要不要微調」、會不會提出明確的評測方案。會問會建議的,多半是內行;上來就賣你 70B 模型的,多半是把案子報大想多收錢。
恆遠的做法是先用兩週做 POC,跑通 RAG 跟 LoRA 兩條路的效果對比,再給客戶看數據決定要走哪條。如果你正在評估這類專案,可以直接聯絡我們做免費的技術需求釐清,至少讓你拿著對的問題去問廠商。
常見問題 FAQ
Q完全沒有 ML 背景,能自己跑通 LoRA 微調嗎?
可以,但會痛。Hugging Face 的 TRL 函式庫和 Unsloth 已經把流程簡化到「填表式」訓練。如果只是想 demo 性質試一次,照著 Unsloth 的 colab notebook 半天能跑通。但要做到生產等級——資料清洗、超參調優、評測、部署——還是需要至少一個工程師全職投入幾週。建議走的路徑是:先用 Ollama 跑開源模型 + RAG 驗證需求,確認真的需要微調再投入時間。
QQLoRA 微調出來的模型,精度跟全微調差多少?
對大多數任務差異 < 5%。QLoRA 論文和後續多篇實驗都顯示,4-bit 量化 + LoRA adapter 在 instruction-tuning 上能達到全微調 90-95% 的效果。差距主要出現在「需要學新事實知識」的任務(如把模型訓練成記住特定 API 文件),這時 QLoRA 會明顯較弱,要考慮 full fine-tuning 或乾脆用 RAG。
Q微調後的模型可以再次微調嗎?
可以,但兩種做法。第一種:在原本的 LoRA adapter 上繼續訓練,這叫 continual fine-tuning,適合資料持續累積的場景。第二種:把 LoRA 合併回 base model(merge_and_unload),再從新的 base 重新訓練 LoRA。第二種比較乾淨但要重新評測。建議每三到六個月做一次重訓,避免模型認知和現實脫節。
QAWQ 量化會不會讓模型「變笨」?
肉眼幾乎察覺不到。AWQ 在多數 benchmark 上保留 95% 以上的原始效果,特別是對話和指令跟隨類任務幾乎無感。少數會掉分的場景是 code generation(HumanEval 大約掉 4%)和需要精細推理的數學題。如果是這兩類任務,可以考慮 8-bit 量化或不量化。
QvLLM 部署需要什麼樣的伺服器?
看模型尺寸。7B AWQ 量化版本能跑在單張 RTX 4090(24GB)甚至 RTX 4080(16GB);13B AWQ 需要 RTX 4090 或 L40S;70B AWQ 需要一張 H100(80GB)。CPU 一般選 32 核以上、RAM 128GB 起跳。網路頻寬視併發量而定,內部使用通常 1Gbps 夠了,對外服務建議 10Gbps。
Q自建 LLM 的資料外洩風險真的比較低嗎?
在「資料不離開公司網段」這個維度上,是。但其他維度的風險反而增加:模型權重檔本身就可能被反向工程出訓練資料(model inversion attack)、API 端點若沒做好認證會被外部濫用、推論日誌如果記錄 prompt 也會有外洩風險。三星員工把內部資料丟給公用 ChatGPT 那種事故,自建確實能避免;但自建不是免疫資安風險的銀彈,依然要做完整的 OWASP LLM Top 10 風險評估。
結語:技術選對了,剩下的是運營耐力
自建 LLM 在 2026 年技術上已經不是高牆。基底模型免費、QLoRA 把硬體門檻拉到一張消費級顯卡、vLLM 把部署複雜度大幅降低。三個人的小團隊,六到十週能把一條 pipeline 跑通。但「能跑通」不等於「能穩定服務」——後面 1 到 3 年的運營、重訓、評測、版本管理,才是 80% 的工程量。
給技術主管的建議:先別急著選模型,先把「我們的資料能做出什麼差異化」想清楚。如果你的資料 RAG 就能搞定,自建是浪費錢。但如果你有別人沒有的資料、有不能外送的合規要求、有想做的口吻或行業專屬能力,那這條路值得走。
給老闆的建議:別被「自建 AI = 高科技公司」這種行銷話術帶風向。OpenAI 跟 Anthropic 的模型已經夠強到讓多數企業靠 API 就能做出 80 分產品。自建是為了拿那 90 分以上,且願意為此付 10 倍時間和錢。如果你的競爭壓力沒到那個程度,先把錢花在資料治理和產品設計,比花在訓練上更有 ROI。
想評估這條技術路徑的可行性,或想找團隊執行 POC?我們提供 AI 顧問諮詢與客製化開發服務,從技術選型、POC 到正式上線一條龍。也可以直接聯絡我們聊聊,恆遠專注做 AI 與系統的客製化開發,能幫你判斷什麼該做、什麼不該做。
延伸閱讀
想看完整的決策角度:AI 模型 Fine-tuning vs RAG 成本指南。想看採購層級的判斷:自架 AI vs API vs SaaS 決策樹。想了解硬體選型:NVIDIA DGX Spark 本地 AI 主機解析。
如果你正在評估「地端 agent vs 雲端 API」的硬體採購決策,可以延伸讀:Dell PowerRack 與 Deskside Agentic AI 完整解析,那篇針對金融、醫療、律師事務所這類資料敏感型中小企業,拆解 Dell 2026/5 在 Tech World 端出的 PowerRack 與 Deskside 兩款地端 AI 主機,含 24 個月 TCO 比較與外包合約紅線。
AUTHOR
自由揚John
想了解更多?看看我們的相關服務
相關文章

Headless CMS 選型完整指南:Strapi / Sanity / Payload / Contentful / WordPress Headless 五條路徑 — 中小企業內容團隊 6 個決策、5 條合約紅線、3 個報價區間

A/B Testing 與 Feature Flags 採購完整指南:LaunchDarkly / Statsig / GrowthBook / Unleash / 自架四條路徑 — 中小企業老闆 6 個治理決策、5 條合約紅線、3 個報價區間

軟體外包 PM 配置完整指南:廠商 PM vs 業主 PM 3 條配置模式、6 個職能、4 條合約條款、5 個失敗訊號——中小企業老闆把『PM 是誰』從合約附件搬到首頁的決策手冊

中小企業 IT 採購委員會(Steering Committee)完整 SOP:3 個固定角色、5 條議事規則、6 個常見死結、4 種升級時機——把 SaaS / 系統採購從『老闆一人扛』拆成可運作的小組決策

中小企業 SaaS 續約議價完整 SOP:renewal 前 90 天節奏、6 個議價槓桿、5 個替代廠商評估、4 條換廠紅線——把每年那張續約單從『被動續費』變『主動採購』

留言(0)
尚無留言,成為第一個留言的人吧!