企業自建 LLM 技術路徑：LoRA / QLoRA / vLLM / 量化實戰

企業自建 LLM 的完整技術路徑是：選定基底模型（Llama 3.3、Qwen 2.5、Gemma 3 等開源權重）→ 用 LoRA 或 QLoRA 在自家資料上微調 → 用 AWQ 或 GPTQ 量化壓縮 → 用 vLLM 部署成 API 服務 → 跑 lm-eval-harness 驗證效果。一個 7B 模型完整 pipeline 跑下來，硬體可低到一張 RTX 4090，三人團隊大概 6 到 10 週能上線。

但「能做」不等於「該做」。

台灣的中小企業老闆很容易把「自建 AI」浪漫化，看到一些開源模型 demo 就想立刻投錢。實際數據沒那麼好看：Gartner 預測 2026 年超過 80% 的企業會部署生成式 AI，但其中真正自建的工作負載只佔 13%，雲端 API 仍是主流。剩下 87% 的企業選擇付費叫 OpenAI 或 Anthropic 的 API，是因為自建這條路很燒錢、技術門檻也高。

這篇是技術深入文，不是「五分鐘搞懂 AI」的入門懶人包。會講具體的 target_modules 設定、QLoRA 在 70B 模型上的顯存實算、AWQ 跟 GPTQ 的 throughput 差異。先擺好讀者定位：

如果你是 CTO 或技術主管，這篇是給你的施工圖，可以直接拿去評估方案
如果你是想評估外包價值的老闆，這篇能讓你知道對方「在做什麼」、「該花多久」、「報價合不合理」
如果你還在猶豫該不該做，建議先讀 Fine-tuning vs RAG 的決策指南，那篇是商業決策角度，這篇是純技術角度，互補閱讀

企業自建 LLM 技術 pipeline 封面

先說結論：什麼公司值得自建、什麼公司是在燒錢

自建 LLM 在 2026 年依然是少數人的遊戲。a16z 對 100 家企業 CIO 的訪談顯示，真正執行 model fine-tuning 的企業，幾乎都同時具備這三個條件：自家有獨特的、無法用 RAG 取代的領域資料；對推論延遲與資料外洩有合規或商業壓力；以及，內部至少有一位真的懂 ML training pipeline 的工程師。三個少一個，自建多半會失敗。

我們最近幾年看過幾個典型場景：

情境	建議做法	為什麼
客服語料 5 萬筆、想做 24 小時 chatbot	用 RAG + GPT-4o API	資料變動快，RAG 更適合；微調反而會把舊知識凍結
醫療影像報告、法律合約等專業文本	考慮 LoRA 微調 + 私有部署	詞彙專業度高、合規要求嚴、資料不能外送
想做客製化的 AI 寫作助手 / Persona	LoRA 微調 7B 開源模型	風格與口吻是 RAG 解決不了的
想替代 GPT-4 在內部寫程式	現階段別自建	技術差距太大、ROI 算不過來
有大量結構化內部知識（SOP、FAQ）	RAG 優先、評估後再決定要不要微調	RAG 一週上線、微調至少六週

如果你是看完上表覺得「我家狀況其實沒那麼適合」，那這篇後半部就當作技術科普讀。如果是看完更想往下走，繼續往下讀，會給你具體的施工順序。

ℹ️這篇文章的技術假設

後面的所有 VRAM 估算、超參數建議都以 Llama 3.3、Qwen 2.5、Gemma 3 這三個 2026 主流開源模型為例。如果你選的是其他模型（如 DeepSeek V3、Mixtral 8x22B），原理通用但實際數字會不同，建議用 Hugging Face 的 PEFT 文件對照。

基底模型選型矩陣：Llama 3.3、Qwen 2.5、Gemma 3 該怎麼挑

選錯基底模型，後面整條 pipeline 都會白做。這一步要看四個維度：授權條款、中文表現、生態相容性、硬體門檻。台灣企業特別在意中文，這跟矽谷團隊的選擇邏輯不太一樣。

模型	代表尺寸	中文表現	授權	硬體門檻（QLoRA）	適合場景
Llama 3.3	8B / 70B	中等（需要再訓）	Meta 商用授權（>7億 MAU 要申請）	8B：16GB / 70B：96GB	通用任務、英文為主、生態最完整
Qwen 2.5	0.5B~72B	強（CJK 母語級）	Apache 2.0（72B 例外）	7B：12GB / 72B：96GB	中文客服、台灣本土應用首選
Gemma 3	1B / 4B / 12B / 27B	中等偏弱	Gemma License（商用受限）	12B：24GB / 27B：48GB	小型本地裝置、邊緣部署
Mistral Small 3	24B	弱	Apache 2.0	32GB	歐美語系、中階硬體高吞吐

如果你的應用會碰繁體中文，Qwen 2.5 幾乎是 2026 年的唯一解。Qwen 2.5 14B 在 HumanEval 拿到 72.5%，Llama 3.3 8B 只有 68.1%，而且 Qwen 在 CJK 語料上下功夫遠比 Meta 多，繁體中文「腔調」自然得多。我們實測過：同樣是「請寫一封商業道歉信給合作的供應商」，Llama 3.3 8B 寫出來像翻譯腔，Qwen 2.5 14B 一開口就有台灣商業書信的味道。

Gemma 3 的優勢在「小」。它的 1B / 4B 版本能塞進 RTX 3090 甚至筆電，適合做邊緣部署——例如門市的離線語音助理、車載小模型。但要做企業級任務，27B 起跳才有競爭力，而 27B 的中文又輸 Qwen 2.5。

Mistral 我們很少在台灣案場用，原因是中文太弱。它在歐洲是好選擇，但繁體環境下幾乎沒有競爭力。除非你的應用本來就是英文為主（例如國際 SaaS 產品的後台），不然不建議。

⚠️授權地雷一定要看清楚

Llama 3 系列雖然開源，但有「年活躍用戶 > 7 億就必須跟 Meta 申請特別授權」這條紅線。對中小企業沒差，但如果你是要做 SaaS 賣到國際、或被大公司收購，這條會卡你。Gemma License 限制更多，禁止某些「敏感應用」。商用前一定要請法務先看 license。

顯存怎麼算：從參數量到實際吃幾 GB

GPU 機房與顯卡 — LoRA 微調的硬體基底

顯存（VRAM）計算是新手最容易低估的一塊。光看模型參數量乘以位元組數，會差 4 到 6 倍。微調時的真實顯存佔用，要把這四塊全算進去：模型權重、梯度、優化器狀態、激活值。

以 Llama 3 7B 為例，FP16 全微調的實際 VRAM 需求是 60 到 80GB，不是天真乘出來的 14GB。差異全在優化器（Adam 每個參數要 8 bytes 存 momentum）和梯度。所以 RTX 4090（24GB）連 7B 的全微調都跑不動。

這就是為什麼QLoRA 是 2026 年的事實標準。它把基底模型量化成 4-bit、凍結權重不更新，只訓練極少量的 adapter 參數。實際吃多少：

模型尺寸	Full Fine-tune（FP16）	LoRA（FP16 base）	QLoRA（4-bit base）	可用硬體
7B	60-80GB	30-40GB	8-12GB	QLoRA：RTX 4090 / A100
13B	100-130GB	50-65GB	14-20GB	QLoRA：RTX 4090 / 5090
34B	260-320GB	130-160GB	30-40GB	QLoRA：A100 80GB / H100
70B	560-700GB	280-340GB	75-95GB	QLoRA：H100 80GB / RTX PRO 6000 96GB

70B 模型用 QLoRA 微調，在 2026 年已經能在一張 RTX PRO 6000 Blackwell（96GB VRAM）上單卡完成。這在兩年前還需要 4 張 A100。Unsloth 函式庫在 2026 年又把 QLoRA 效率推進了一截——同樣的工作量，速度快 2 倍、VRAM 再省 70%。

實際估算公式（給工程師收藏）：

Python

# QLoRA 大略估算
# 模型權重（4-bit 量化）：params × 0.5 bytes
# LoRA adapter：params × 2 × rank × 16 × 2 bytes / hidden_size（通常 ~0.5%）
# Adam optimizer：adapter_params × 8 bytes
# 激活值（依 batch_size & seq_len）：通常 4-8 GB

# 範例：Llama 3 70B QLoRA, r=16
weight_4bit = 70e9 * 0.5 / 1e9        # = 35 GB
lora_adapter = 70e9 * 0.005 * 2 / 1e9 # ≈ 0.7 GB
optimizer = 0.7 * 8                    # ≈ 5.6 GB
activations = 6                        # 經驗值
total = 35 + 0.7 + 5.6 + 6            # ≈ 47 GB（單張 H100 80GB 綽綽有餘）

這個公式不精準，但抓量級夠用。實務上會多保留 20-30% 緩衝給 dataloader、CUDA context、checkpoint。

如果你只有一張消費級顯卡

RTX 4090（24GB）能跑：7B 全 QLoRA、13B QLoRA（要降 batch size 到 1-2）、加上 Unsloth 甚至能勉強塞下 34B QLoRA。70B 就別硬上了，租 Vast.ai 或 RunPod 的 H100 一小時大約 NT$ 60，比買硬體划算太多。

LoRA 與 QLoRA 超參實戰：rank、alpha、target_modules 的真實影響

LoRA 看似只有三個主要超參，但每個都會嚴重影響最終效果。先講target_modules這一塊——大多數開源教學沿用 LoRA 原論文的「只訓練 q_proj 和 v_proj」，這在 2026 年已經是過時做法。

2026 年的主流做法是把所有 linear layer 都拉進 LoRA 訓練，包含 attention 的 q/k/v/o 和 MLP 的 gate/up/down。實測下，全 linear LoRA 在 instruction-tuning 任務上比 q_proj+v_proj 平均高出 3-5 個百分點，VRAM 多吃也才 10% 左右，CP 值極高。

Python

from peft import LoraConfig

# 2026 推薦設定（Llama 3 / Qwen 2.5 / Gemma 3 通用）
lora_config = LoraConfig(
    r=16,                           # rank：起手式 16
    lora_alpha=32,                  # alpha：建議 r 或 2r
    target_modules=[
        "q_proj", "k_proj", "v_proj", "o_proj",      # attention
        "gate_proj", "up_proj", "down_proj",          # MLP
    ],
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM",
    use_rslora=False,               # 只有 r>64 才需要
)

再來是rank（r）。這個值決定 adapter 的「容量」。太小學不會、太大過擬合且不穩定。實務經驗：

r=4-8：適合簡單任務（風格轉換、二元分類、特定 persona）
r=16：通用 instruction-tuning 的甜蜜點，95% 場景用這個
r=32-64：複雜推理、code generation、需要學新知識的場景
r=128+：必須開 use_rslora=True，不然 gradient 會不穩

alpha 是個容易誤解的參數。實際縮放比例是 alpha / r，所以很多人把 alpha 拉很高想增強效果，反而讓 adapter 主導太強、灰飛湮滅了基底模型的能力。一個穩妥的做法：alpha 設成等於 r，或最多 2r。Llama 4 和 Mistral Next 這類深層模型，alpha = r 的收斂最穩定。

初始設定建議跑 r=16 / alpha=32、訓練 3 個 epoch。如果 loss 下降太慢，再考慮加 alpha 或調 learning rate（QLoRA 預設 2e-4 算偏激進，可以從 1e-4 開始試）。

🚨不要直接 copy paste 別人的超參

我們常看到工程師把網路上的 Llama 2 超參直接套到 Llama 3 或 Qwen 上跑，結果 loss 不收斂或產出亂碼。每個 base model 的最佳超參都不一樣，特別是 Qwen 2.5 的 tokenizer 和 Llama 系列差很多，learning rate 通常要再低一點（5e-5 ~ 1e-4）。第一次調的時候，先拿 100-500 筆樣本跑小規模實驗，確認 loss 曲線健康再放大。

資料準備才是真正的工程：SFT 格式、清洗、token 預算

開發者 IDE 與訓練腳本 — 微調 pipeline 實作

跟很多人的直覺相反，自建 LLM 真正花時間的是把資料整理成模型能學的樣子，GPU 跑訓練反而是其次。一個典型專案，訓練只佔 20% 的工時，剩下 80% 全在資料 pipeline 上。

SFT（Supervised Fine-tuning）的標準資料格式是 ChatML 或 Alpaca 格式。以 Qwen 2.5 為例，每一筆資料長這樣：

JSON

{
  "messages": [
    {"role": "system", "content": "你是恆遠的客服專員，回覆要禮貌、簡潔、有重點。"},
    {"role": "user", "content": "請問你們做網站架設的報價區間是多少？"},
    {"role": "assistant", "content": "您好，網站架設專案的報價會依需求複雜度而定，一般落在 NT$8 萬到 NT$30 萬之間。建議先填寫需求單，我們可以給您更精準的估算：https://foreverwebs.com/contact"}
  ]
}

資料筆數的經驗法則：

任務複雜度	建議資料量	範例	預估訓練時間（7B QLoRA）
風格 / 口吻調整	500-2,000 筆	客服話術、品牌語氣	1-3 小時
特定領域問答	3,000-10,000 筆	法律 QA、醫療衛教	6-15 小時
複雜推理 / 工具調用	10,000-50,000 筆	結構化資料抽取、API 呼叫	1-3 天
跨領域通用能力	50,000+	多任務指令跟隨	3-7 天（建議租 H100）

資料品質的影響遠大於數量。Apple、Microsoft 等公司的研究反覆證明，1,000 筆高品質資料的效果，往往勝過 10 萬筆抓網路抓來的雜訊資料。我們的內部規則：每一筆資料都要有人類審核過、輸出的事實性要驗證、不能讓模型學到自相矛盾的內容。

常見地雷：

資料外洩個資沒清乾淨，模型會把客戶電話「背」出來，違反個資法
回答長度極端不平衡（80% 都是兩三句、20% 是長段落），模型會學到「該短就長、該長就短」
Token 長度沒控制，超出 context window 被截斷，學到一半的回答
沒有負面樣本（負樣本 / refusal），模型遇到不該答的問題會硬答

Token 預算的快速估算

繁體中文一個字大約是 2-3 個 token（Qwen 系列）或 3-5 個 token（Llama 系列）。10,000 筆每筆平均 500 字的中文資料 ≈ 1500 萬 token。Llama 3 7B 跑一個 epoch 大約 50 token/s/GPU，所以 H100 上跑完約 80 小時。租 H100 的話算 NT$ 4,800，這還只是訓練、不算資料清理工時。

量化選型：GPTQ、AWQ、GGUF、bitsandbytes 該怎麼挑

微調完的模型若直接用 FP16 部署，70B 要吃 140GB VRAM，根本沒辦法塞進一張 H100。量化是把模型從 FP16 壓到 4-bit、8-bit 的技術，能在「保留 90% 以上效果」的前提下，把記憶體佔用減少 3-4 倍。

2026 年最常見的四種方案，效能與品質差異很大：

量化格式	品質保留	推論速度（Qwen2.5-32B on vLLM）	適合場景	踩雷點
AWQ	~95%	741 tok/s（vLLM + Marlin）	生產環境首選	校準資料要選對
GPTQ	~90%	712 tok/s（vLLM + Marlin）	資源充足、追求最高品質	Code 任務掉分多（4-10%）
BitsandBytes (NF4)	~98%（接近無損）	168 tok/s	微調當下、訓練用	推論慢、不適合線上服務
GGUF (Q4_K_M)	~92%	93 tok/s（llama.cpp）	本地單機、CPU/Mac 部署	vLLM 上吞吐極低

簡單的決策邏輯：

線上服務 / API：AWQ + vLLM + Marlin kernel，這個組合是 2026 年的事實標準
Mac Studio / 個人本地：GGUF + llama.cpp 或 Ollama
還在實驗階段：bitsandbytes，方便調試但別上線
最在意精度：AWQ 或不量化（如果 VRAM 夠的話）

一個常見誤解：很多人聽到 GGUF 名氣大就以為它最強。事實是 GGUF 是檔案格式而非量化演算法本身，它在 llama.cpp 生態裡很方便（Ollama 就是用 GGUF），但放到 vLLM 上推論速度極差——Qwen 2.5 32B 在 vLLM 用 GGUF 只能跑到 93 tok/s，比同樣模型用 AWQ 慢了 8 倍。

ℹ️AWQ 校準資料的選擇

AWQ 需要一組「校準資料」來決定哪些權重要保留更高精度。校準資料的分布必須接近你實際的應用場景——做客服就用客服對話、做 code 就用程式碼。直接用 wikitext 校準，再來服務中文業務，效果會打 2-3 折。校準資料 128-512 筆就夠，太多反而會 overfit。

推論部署：vLLM、Ollama、TGI、SGLang 各自的位置

伺服器機房 — vLLM 推論部署環境

模型微調完、量化好了，最後一步是把它變成能對外服務的 API。這一步決定你的線上成本和使用者體驗。2026 年 vLLM 已經是生產環境的絕對王者，但其他方案各有適用場景。

框架	強項	弱項	適合場景
vLLM	PagedAttention 高吞吐、生態最廣、AWQ/GPTQ 支援好	冷啟動慢、配置複雜	生產 API、多用戶並發
Ollama	一行指令啟動、開發體驗極佳、Mac 友善	吞吐量低（41 vs vLLM 793 tok/s）、不適合並發	本地開發、Demo、個人助理
TGI	長 context 處理特別強	Hugging Face 2025/12 已轉維護模式	已有 TGI 部署的繼續用、新案不選
SGLang	結構化生成、function calling 超強	生態還在追 vLLM	需要複雜 prompt control 的 agent 系統

實測數據相當驚人：Llama 3.1 70B 在 vLLM 上比 TGI 吞吐高 1.8 倍、TTFT 快 5.1 倍。Llama 3.1 405B（8 張 MI300X）vLLM 比 TGI 吞吐高 1.5 倍。所以如果你準備上生產，請務必選 vLLM——除非你的 prompt 經常超過 200K tokens，那 TGI v3 在長 prompt 仍然快 13 倍。

一個能直接照抄的 vLLM + AWQ 啟動指令（Qwen 2.5 14B AWQ 為例）：

Bash

# 假設模型在 /models/qwen2.5-14b-awq
python -m vllm.entrypoints.openai.api_server \
    --model /models/qwen2.5-14b-awq \
    --quantization awq_marlin \
    --max-model-len 8192 \
    --gpu-memory-utilization 0.92 \
    --tensor-parallel-size 1 \
    --served-model-name qwen2.5-14b \
    --port 8000

# 這樣會起一個 OpenAI 相容的 API
# 直接用 openai-python 的 SDK 把 base_url 換成 http://localhost:8000/v1 就能呼叫

關鍵調優參數：

gpu-memory-utilization：建議 0.90-0.92，留一點給 CUDA context
max-model-len：設成業務實際需要的長度，越長 KV cache 越大、能服務的並發數越低
tensor-parallel-size：多卡並行時用，70B 模型在兩張 H100 上設 2
--enable-prefix-caching：相同 system prompt 的快取，能省 30% 以上延遲，強烈建議開

Ollama 不是 vLLM 的競品

兩者定位完全不同。Ollama 是「個人 / 開發者體驗」優先，vLLM 是「生產吞吐」優先。實務上我們的開發流程是：在 Mac 上用 Ollama 跑模型做 prompt 設計與 demo、在 Linux 伺服器上用 vLLM 跑正式服務。同一個模型在不同階段用不同框架，是合理的。

評測：怎麼證明你微調出來的模型真的有變強

沒做評測的微調等於沒做。我們看過太多團隊微調完只跑了三五個 prompt 覺得「感覺有變好」就上線，結果上線之後一堆 hallucination、客戶投訴。評測這一步至少要做兩層：自動化基準和業務情境。

自動化基準

業界標準工具是 EleutherAI 的 lm-evaluation-harness，它整合超過 60 個學術 benchmark，包含中文評測（CMMLU、C-Eval、TMMLU+ for 台灣）、英文（MMLU、GSM8K、HumanEval）、推理（ARC、HellaSwag）。一條指令就能跑：

Bash

lm_eval --model hf \
    --model_args pretrained=/models/qwen2.5-14b-finetuned \
    --tasks cmmlu,gsm8k,humaneval,arc_challenge \
    --batch_size 8 \
    --output_path ./eval_results/

微調前 vs 微調後跑同一組 benchmark，三件事必須驗證：

目標領域分數有提升（理所當然，但很多人沒驗）
通用能力沒崩盤——這是 catastrophic forgetting 的徵兆，最危險
有害輸出（toxic / bias）的比例沒上升

業務情境測試

自動化基準分數不能代表業務效果。下一步是建立一個「黃金測試集」，最少 100 題，涵蓋你真實業務中最常見和最棘手的場景。這 100 題請業務 PM 或客服主管出題，不要工程師自己出。評分用 GPT-4o 或 Claude 4.7 當 judge 就好（成本一次幾百塊台幣，比人類標註便宜 100 倍）。

MT-Bench 是一個常見的多輪對話 benchmark，用強模型當裁判給 1-10 分。MT-Bench 已經是業界事實標準，特別適合用來評估對話品質和指令跟隨能力。

一個 7B 自建專案的真實成本拆解

撇開大公司，看一個典型的中小企業案場：Qwen 2.5 7B 微調 + AWQ 量化 + vLLM 部署，做一個內部專屬的客服 / 知識問答系統。從 0 到 1 完整跑下來，台灣市場行情大致如下：

項目	預估成本（NT$）	備註
資料準備（10,000 筆 SFT 資料）	8 萬 ~ 25 萬	PM + 領域專家工時為主
GPU 雲端訓練（H100 × 30 小時）	1.5 萬 ~ 2 萬	RunPod / Vast.ai 行情
量化與評測（含 lm-eval-harness 跑分）	1 萬 ~ 3 萬	工程師 1-2 週工時
生產部署伺服器（含一張 RTX 4090 或 L40S，月租）	1.5 萬 ~ 3 萬 / 月	若自購機器一次 12-25 萬
MLOps 監控 / 重訓 pipeline 建置	10 萬 ~ 30 萬	一次性工程
首年總成本（含部署 12 個月）	40 萬 ~ 95 萬	依資料品質與重訓頻率波動

對照組——同樣場景用 GPT-4o API 做 RAG：

初期建置成本：5-15 萬（純工程，不需要硬體和訓練）
月 API 費用：以日均 1,000 次對話估算約 NT$ 6,000-15,000 / 月
首年總成本：約 12-35 萬

結論不意外——自建第一年通常貴 1.5-3 倍。但有兩個拐點會讓自建變划算：對話量持續成長到每月 5 萬次以上，API 費用會超過自建的伺服器月租；或是有合規 / 資料外洩的硬需求，那就無關 ROI。

詳細的 TCO 對照可以參考我們之前寫的自架 AI vs API vs SaaS 決策樹，那篇有把三條路徑的 3 年 TCO 攤開算給你看。

老闆視角：要不要養團隊？什麼時候該外包？

這一段給的是商業決策框架，不是技術內容。如果你正在評估報價或考慮要不要養一個 AI 團隊，請繼續看。

自建 LLM 對中小企業最大的隱性成本是「人」。一個能完整跑這條 pipeline 的工程師，台灣 2026 年的市場行情月薪是 18-35 萬，年薪兩百多萬。而且很難招，104 數據顯示 56% 的企業反映 AI 人才嚴重不足。要養兩三個這種人，光人事年支出就 600 萬起跳。

實務上比較常見的選擇有三條路：

選擇	適合的公司樣態	首年預算範圍	風險點
養內部小團隊（1 PM + 2 工程師）	資料是核心競爭力、長期高頻使用 AI	800 萬 ~ 1,500 萬	人才流失即崩盤
全外包給顧問公司	一次性建置、後續維運簡單	150 萬 ~ 500 萬	知識不留在公司、長期依賴外部
混合：內部 1 PM + 外包技術	資料敏感但團隊小、想保有掌控力	200 萬 ~ 600 萬	需要強而清楚的需求溝通能力

我們做過很多次第三種——公司內部找一個懂業務的 PM，技術交給外部團隊執行。原因很單純：自建 LLM 一年裡真正需要「全力衝刺」的時間大概 3-6 個月，剩下時間是維運和小幅優化。養兩個工程師全年坐板凳並不合理；但完全外包又會讓知識在公司外、未來想 in-house 接手很痛。

如果你正在評估外包報價，有幾個訊號可以判斷對方是不是真懂：他會不會問你的資料樣態和量、會不會主動建議「先用 RAG 試一個月再決定要不要微調」、會不會提出明確的評測方案。會問會建議的，多半是內行；上來就賣你 70B 模型的，多半是把案子報大想多收錢。

恆遠的做法是先用兩週做 POC，跑通 RAG 跟 LoRA 兩條路的效果對比，再給客戶看數據決定要走哪條。如果你正在評估這類專案，可以直接聯絡我們做免費的技術需求釐清，至少讓你拿著對的問題去問廠商。

常見問題 FAQ

Q完全沒有 ML 背景，能自己跑通 LoRA 微調嗎？

可以，但會痛。Hugging Face 的 TRL 函式庫和 Unsloth 已經把流程簡化到「填表式」訓練。如果只是想 demo 性質試一次，照著 Unsloth 的 colab notebook 半天能跑通。但要做到生產等級——資料清洗、超參調優、評測、部署——還是需要至少一個工程師全職投入幾週。建議走的路徑是：先用 Ollama 跑開源模型 + RAG 驗證需求，確認真的需要微調再投入時間。

QQLoRA 微調出來的模型，精度跟全微調差多少？

對大多數任務差異 < 5%。QLoRA 論文和後續多篇實驗都顯示，4-bit 量化 + LoRA adapter 在 instruction-tuning 上能達到全微調 90-95% 的效果。差距主要出現在「需要學新事實知識」的任務（如把模型訓練成記住特定 API 文件），這時 QLoRA 會明顯較弱，要考慮 full fine-tuning 或乾脆用 RAG。

Q微調後的模型可以再次微調嗎？

可以，但兩種做法。第一種：在原本的 LoRA adapter 上繼續訓練，這叫 continual fine-tuning，適合資料持續累積的場景。第二種：把 LoRA 合併回 base model（merge_and_unload），再從新的 base 重新訓練 LoRA。第二種比較乾淨但要重新評測。建議每三到六個月做一次重訓，避免模型認知和現實脫節。

QAWQ 量化會不會讓模型「變笨」？

肉眼幾乎察覺不到。AWQ 在多數 benchmark 上保留 95% 以上的原始效果，特別是對話和指令跟隨類任務幾乎無感。少數會掉分的場景是 code generation（HumanEval 大約掉 4%）和需要精細推理的數學題。如果是這兩類任務，可以考慮 8-bit 量化或不量化。

QvLLM 部署需要什麼樣的伺服器？

看模型尺寸。7B AWQ 量化版本能跑在單張 RTX 4090（24GB）甚至 RTX 4080（16GB）；13B AWQ 需要 RTX 4090 或 L40S；70B AWQ 需要一張 H100（80GB）。CPU 一般選 32 核以上、RAM 128GB 起跳。網路頻寬視併發量而定，內部使用通常 1Gbps 夠了，對外服務建議 10Gbps。

Q自建 LLM 的資料外洩風險真的比較低嗎？

在「資料不離開公司網段」這個維度上，是。但其他維度的風險反而增加：模型權重檔本身就可能被反向工程出訓練資料（model inversion attack）、API 端點若沒做好認證會被外部濫用、推論日誌如果記錄 prompt 也會有外洩風險。三星員工把內部資料丟給公用 ChatGPT 那種事故，自建確實能避免；但自建不是免疫資安風險的銀彈，依然要做完整的 OWASP LLM Top 10 風險評估。

結語：技術選對了，剩下的是運營耐力

自建 LLM 在 2026 年技術上已經不是高牆。基底模型免費、QLoRA 把硬體門檻拉到一張消費級顯卡、vLLM 把部署複雜度大幅降低。三個人的小團隊，六到十週能把一條 pipeline 跑通。但「能跑通」不等於「能穩定服務」——後面 1 到 3 年的運營、重訓、評測、版本管理，才是 80% 的工程量。

給技術主管的建議：先別急著選模型，先把「我們的資料能做出什麼差異化」想清楚。如果你的資料 RAG 就能搞定，自建是浪費錢。但如果你有別人沒有的資料、有不能外送的合規要求、有想做的口吻或行業專屬能力，那這條路值得走。

給老闆的建議：別被「自建 AI = 高科技公司」這種行銷話術帶風向。OpenAI 跟 Anthropic 的模型已經夠強到讓多數企業靠 API 就能做出 80 分產品。自建是為了拿那 90 分以上，且願意為此付 10 倍時間和錢。如果你的競爭壓力沒到那個程度，先把錢花在資料治理和產品設計，比花在訓練上更有 ROI。

想評估這條技術路徑的可行性，或想找團隊執行 POC？我們提供 AI 顧問諮詢與客製化開發服務，從技術選型、POC 到正式上線一條龍。也可以直接聯絡我們聊聊，恆遠專注做 AI 與系統的客製化開發，能幫你判斷什麼該做、什麼不該做。

延伸閱讀

想看完整的決策角度：AI 模型 Fine-tuning vs RAG 成本指南。想看採購層級的判斷：自架 AI vs API vs SaaS 決策樹。想了解硬體選型：NVIDIA DGX Spark 本地 AI 主機解析。

如果你正在評估「地端 agent vs 雲端 API」的硬體採購決策，可以延伸讀：Dell PowerRack 與 Deskside Agentic AI 完整解析，那篇針對金融、醫療、律師事務所這類資料敏感型中小企業，拆解 Dell 2026/5 在 Tech World 端出的 PowerRack 與 Deskside 兩款地端 AI 主機，含 24 個月 TCO 比較與外包合約紅線。

企業自建 LLM 完整技術路徑：從基底選型到 LoRA 微調、量化部署的實戰指南

先說結論：什麼公司值得自建、什麼公司是在燒錢

基底模型選型矩陣：Llama 3.3、Qwen 2.5、Gemma 3 該怎麼挑

顯存怎麼算：從參數量到實際吃幾 GB

LoRA 與 QLoRA 超參實戰：rank、alpha、target_modules 的真實影響

資料準備才是真正的工程：SFT 格式、清洗、token 預算

量化選型：GPTQ、AWQ、GGUF、bitsandbytes 該怎麼挑

推論部署：vLLM、Ollama、TGI、SGLang 各自的位置

評測：怎麼證明你微調出來的模型真的有變強

自動化基準

業務情境測試

一個 7B 自建專案的真實成本拆解

老闆視角：要不要養團隊？什麼時候該外包？

常見問題 FAQ

結語：技術選對了，剩下的是運營耐力

留言(0)

想了解更多？看看我們的相關服務

AI 自動化顧問

企業形象網站架設

SEO 優化代操

需要網站系統架設或軟體開發？

相關文章

Headless CMS 選型完整指南：Strapi / Sanity / Payload / Contentful / WordPress Headless 五條路徑 — 中小企業內容團隊 6 個決策、5 條合約紅線、3 個報價區間

A/B Testing 與 Feature Flags 採購完整指南：LaunchDarkly / Statsig / GrowthBook / Unleash / 自架四條路徑 — 中小企業老闆 6 個治理決策、5 條合約紅線、3 個報價區間

軟體外包 PM 配置完整指南：廠商 PM vs 業主 PM 3 條配置模式、6 個職能、4 條合約條款、5 個失敗訊號——中小企業老闆把『PM 是誰』從合約附件搬到首頁的決策手冊

中小企業 IT 採購委員會（Steering Committee）完整 SOP：3 個固定角色、5 條議事規則、6 個常見死結、4 種升級時機——把 SaaS / 系統採購從『老闆一人扛』拆成可運作的小組決策

中小企業 SaaS 續約議價完整 SOP：renewal 前 90 天節奏、6 個議價槓桿、5 個替代廠商評估、4 條換廠紅線——把每年那張續約單從『被動續費』變『主動採購』

用 AI 寫 Code 的安全指南：從 Cursor 9 秒刪光資料庫看完整防爆 SOP — 6 條風險紅線、5 個權限隔離設定、4 條救援機制