
78%。 23%。 一個是 2026 年正在做 LLM fine-tuning 的企業比例,另一個是「覺得自己做得夠划算」的比例。中間 55 個百分點的落差,幾乎全部來自同一個誤判:把該用 RAG 解決的問題,硬拿去微調模型。
這篇是技術選擇的決策指南,定位接續兩個姊妹篇:費用維度看 客製化 AI 系統開發費用拆解,場景維度看 中小企業導入 AI 系統的 5 個高 ROI 場景。本篇要做的事很簡單:給你一個能在 30 分鐘內判斷「該不該 fine-tune」的決策框架,外加台灣 2026 的真實報價、3 個實例,以及 4 個最常見的踩坑模式。
先給一個錨點。產業 benchmark 顯示,RAG + Fine-tuning 混合架構 在 2026 年實測準確率達到 96%,純 RAG 是 89%,純 fine-tuning 是 91%。多數中小企業會以為「混合一定比較貴、比較難」,但這篇會告訴你為什麼 2026 年「不混合」反而是浪費錢的選項——前提是你選對哪一塊用 RAG、哪一塊用微調。

三分鐘決策表:先看你需不需要 fine-tune
如果只想看結論,這張表幾乎能解決 80% 的場景。下面所有 H2 都是這張表的延伸論證、成本拆解與避坑說明。
你的需求類型 | 推薦做法 | 為什麼 | 典型起跳成本 |
|---|---|---|---|
公司內部文件問答(產品 FAQ、技術手冊) | RAG | 文件會更新,fine-tune 進去隔月就過時 | NT$ 24–60 萬 |
固定回答風格 / 語氣 / 格式(品牌客服話術) | Fine-tuning(LoRA) | 行為模式要改,prompt 寫不穩 | NT$ 3–9 萬 / 次 |
一次性報表分析、會議紀要 | Prompt Engineering | 頻率低、規則簡單,不需要動模型 | 零成本(API 用量) |
特定領域分類(醫療代碼、合約風險點) | Fine-tuning(Full) | 專業術語密度高,prompt 教不完 | NT$ 36 萬+ |
整合公司即時數據(庫存、訂單) | RAG + Function calling | 數據是動態的,必須查當下狀態 | NT$ 30–80 萬 |
資料極敏感、不能上雲 | 地端 Fine-tuning | API 出去就違規,只能就地訓練 | NT$ 80 萬+ |
以上多種混合 | RAG + Fine-tuning 混合 | 2026 年生產級系統的標配 | NT$ 100 萬+ |
三秒判斷法
問自己一個問題:『模型回答錯,是因為它不知道(缺資料),還是因為它不會(行為不對)?』前者選 RAG,後者選 fine-tuning。這個判準能幫你避開 90% 的誤判。
這張表的設計邏輯來自 2026 年產業共識:把會變的知識交給檢索(RAG),把穩定的行為烙進權重(fine-tuning)。Anthropic 與 Glean 等廠商在 2026 Q1 公開的部署實踐 都是這個切法。
Fine-tuning 到底在改什麼?用「請新員工 vs 給 SOP」打比方
用一個熟悉的場景來理解。假設你今天接手一家連鎖餐廳,要讓服務生統一用「您好,我是 XX 餐廳的小幫手」開口招呼客人。你有三種做法:
做法 A:每次上班前提醒一次。 這就是 Prompt Engineering——每次對話前在 system prompt 寫『請用 XX 開頭招呼客人』。優點是改動極快、成本最低;缺點是寫得越多,模型越容易『忘記』前面的規則,忙起來會漏掉。
做法 B:印一本 SOP 手冊放櫃檯,服務生不確定就翻。 這就是 RAG——把規則放在外部知識庫,模型每次回答前『查』一次手冊。優點是手冊改了模型立刻就改、知識來源可追溯;缺點是查找會多花一點時間,而且查不到的東西模型還是不會。
做法 C:花兩週訓練新員工,把規則內化成本能。 這就是 Fine-tuning——用大量範例反覆訓練,直接改變模型的『行為傾向』。優點是不需要每次提醒、回應速度快;缺點是訓練成本高、規則改了要重訓、訓練得不好還會『忘記原本會的事』(catastrophic forgetting)。
把這三種做法放回 LLM 的場景:
做法 | 改的東西 | 生效速度 | 撤回難度 | 可追溯性 |
|---|---|---|---|---|
Prompt | 當次對話的指令 | 即時 | 零成本 | 高(prompt 即原始檔) |
RAG | 外部知識庫 | 分鐘級 | 低(換掉文件即可) | 高(每筆回答可附 source) |
Fine-tuning | 模型權重(行為傾向) | 數小時到數天 | 高(要重訓 base model) | 低(黑盒) |
這三件事的關鍵差異不是「哪個比較好」,是作用層級不同。Prompt 改的是『現在這次對話』,RAG 改的是『模型能查到什麼』,Fine-tuning 改的是『模型整體的反應模式』。當你需求是『模型每次回答都要符合某種風格 / 格式 / 邏輯』,prompt 寫到第 50 條就會開始漏掉,這時候 fine-tuning 才是合理選擇。
ℹ️可追溯性為什麼重要
金融、醫療、法務這類受監管產業,被問到『為什麼模型給這個答案?』時,RAG 可以指著文件說『因為手冊第 47 頁這樣寫』,fine-tune 後的模型只能說『因為訓練資料裡 80% 都這樣回答』。這是為什麼受監管產業 2026 年大量轉向 RAG-first 的根本原因。
RAG / Prompt Engineering / Fine-tuning 三者一張圖看懂
把三者放在同一張表上比較,差異會變得很清楚。這張表整合了 2026 年 Microsoft Learn 的 LLM 增強策略指南 與多家供應商的部署數據。如果想先打底什麼是 prompt engineering,建議先讀 AI 提問技巧入門:5 個 Prompt 公式,再回來看本篇的進階決策。
維度 | Prompt Engineering | RAG | Fine-tuning |
|---|---|---|---|
解決的問題 | 少量、結構化的指令調整 | 讓模型『知道』新的、會變的資訊 | 讓模型『學會』穩定的行為模式 |
起步成本 | 零(內建在 API) | NT$ 8–60 萬 | NT$ 3 萬(LoRA)至 36 萬+(Full) |
月運維成本 | 僅 token 用量 | NT$ 5,000–30,000(向量庫 + token) | NT$ 0–10,000(推論用量) |
知識更新 | 改 prompt,立即生效 | 更新文件,分鐘級生效 | 要重新訓練,數天起跳 |
可追溯性 | 中(看 prompt log) | 高(每筆答案附 source) | 低(黑盒權重) |
回應速度 | 最慢(prompt 變長 latency 拉高) | 中(多一次檢索) | 最快(短 prompt 即可) |
適合產業 / 場景 | 一次性任務、低頻使用 | 文件問答、知識庫、客服 FAQ | 品牌語氣、領域分類、固定流程 |
資料準備門檻 | 無 | 中(要文件 + 切片 + embedding) | 高(需 1,000+ 筆乾淨範例) |
失敗主因 | prompt 太長模型『忘記』 | 檢索不到 / 取錯片段 | 過擬合 / 資料髒 / base model 選錯 |
有一個數字很值得注意——2026 年企業 LLM 部署統計,63.6% 的部署使用 GPT 系列模型,80.5% 採用 FAISS 或 Elasticsearch 這類標準檢索框架。也就是說,主流不是「自己訓練模型」,是「在強模型外面綁一層檢索」。這對中小企業是好消息:你不需要養一個 ML 團隊也能做出生產級系統。

真實成本拆解:Full Fine-tune / LoRA / Prompt Tuning 各多少錢
2026 年 fine-tuning 的成本曲線跟 2024 年完全不同。這個變化大多數中小企業還沒跟上。
關鍵變化是 LoRA 與 QLoRA 已經成為主流。 Stratagem Systems 2026 年 LoRA 成本分析 指出,LoRA 微調能達到 Full Fine-tune 95% 的效能,成本只要 10%。這代表「微調」這件事的入場券,從原本的 NT$ 36 萬降到 NT$ 3 萬就能開始試。
三種 fine-tuning 方法的真實價格
方法 | 典型成本(USD) | 換算 NT$ | 效能保留 | 適合場景 |
|---|---|---|---|---|
Full Fine-tune(7B 模型) | $10,000–$12,000 | 約 30–36 萬 | 100%(基準) | 醫療、法律、金融等高度專業領域 |
LoRA(7B 模型) | $1,000–$3,000 | 約 3–9 萬 | 80–95% | 品牌語氣、客服話術、固定格式輸出 |
QLoRA(70B 模型,RTX 4090 地端) | $70–$140 | 約 2,200–4,400 | 80–90% | PoC 試水溫、單機可跑的小規模實驗 |
Together AI LoRA(雲端服務) | $0.48 / 1M tokens | 約 NT$ 15 / 1M tokens | 約 90% | 不想管基礎建設、要快速 ship |
Phi-2(2.7B)+ LoRA | $300–$700 | 約 9,000–22,000 | 85–90% | 輕量級任務、edge 部署 |
這張表的數據來自 aisuperior 2026 LLM Fine-tuning 預算指南 與 PricePerToken 2026 年 fine-tune 報價對照。值得注意的是這只是『一次訓練』的費用,多數中小企業會低估的是『重訓頻率』——資料每兩個月重整一次的話,年度成本要乘 6。
RAG 的真實成本對比
RAG 規模 | 建置成本(USD) | 換算 NT$ | 適合對象 |
|---|---|---|---|
單一用途(小規模) | $8,000–$20,000 | 約 24–60 萬 | 中小企業單一部門 PoC |
多用途(中型) | $30,000–$80,000 | 約 90–240 萬 | 跨部門知識庫 |
Multi-agent 完整治理 | $100,000–$250,000+ | 約 300–750 萬 | 企業級導入 |
RAG 與 fine-tuning 的成本曲線在 2026 年出現一個有趣的交叉點:RAG 在前 18 個月比較便宜,但 18 個月後 fine-tuned 模型對「需求穩定且高頻使用」的場景反而更划算。 為什麼?因為 RAG 每次查詢都要消耗檢索成本與 token,fine-tuned 模型則是『一次性投資』後 token 消耗大幅降低。如果你的應用每天有 10,000 次以上的查詢、需求又穩定不變,18 個月後微調的 TCO 反而比 RAG 低。
⚠️別忘了基礎建設加成
Fine-tune 的『直接成本』只是冰山一角。Xenoss 的成本優化研究指出,基礎建設管理會額外加上 15–30% 的隱形成本——含 GPU 排程、模型版本管理、A/B 測試、評估 pipeline。一個帳面上 30 萬的微調案,實際落地會落在 35–40 萬。報價單上沒列這塊,要主動問。
想看更完整的「30/100/300 萬等級客製化 AI 系統能各自買到什麼」,可以對照 客製化 AI 系統開發費用拆解 那篇。本篇聚焦在「微調本身」的成本結構,那篇談的是「整套系統」的報價邏輯。
5 個「該 fine-tune」的訊號 vs 5 個「RAG 就夠」的訊號
實務上判斷該不該微調,最快的方法是檢查下面這兩組訊號。如果你 5 個 fine-tune 訊號中過 3 個以上,就值得評估微調;如果 RAG 訊號中得多,多花的錢就純粹是燒掉。
該 fine-tune 的 5 個訊號
訊號 1:你的『失敗模式』屬於行為一致性問題。 模型會回答,但格式 / 語氣 / 結論飄忽。Prompt 加了又加還是不穩——這代表行為要改,正是 fine-tune 的甜蜜點。
訊號 2:你需要極短的 prompt 達到極高的任務一致性。 例如客服 SaaS 的回應 latency 要求 200ms 以下,但 prompt 寫滿規則會讓 latency 變 800ms。把規則訓進權重,就能用短 prompt 換 latency。
訊號 3:你的領域用詞 / 縮寫 / 術語密度極高。 醫療代碼 ICD-10、半導體製程術語、合約風險點分類——這些詞光在 prompt 裡解釋會吃掉幾千 token,fine-tune 進去後省下來的成本很可觀。
訊號 4:你已經累積 1,000+ 筆高品質 input-output 範例。 資料是現成的、乾淨的、有人標記過——這是 fine-tune 最大的門檻被你跨過了。沒這個量別碰 fine-tune(後面會解釋為什麼)。
訊號 5:法遵或隱私要求模型必須地端部署。 不能呼叫 OpenAI / Anthropic API、又需要超出開源模型基準效能——除了 fine-tune 沒別的選擇。這是金融與醫療業最常見的場景。
RAG 就夠的 5 個訊號
訊號 1:你的『失敗模式』屬於『模型沒看過這份資料』。 把正確答案塞進 prompt 給它,它就答得出來——只是公司內部資料它本來就接觸不到。這 100% 是 RAG 場景,硬 fine-tune 進去不僅貴,更新還很麻煩。
訊號 2:你的知識會更新。 產品功能每月迭代、政策每季調整、SOP 每半年改版——任何會變的東西塞進權重都是給未來的自己挖坑。
訊號 3:你需要『回答來源可追溯』。 客戶問『你怎麼知道?』要能指出原始文件第幾頁。受監管產業(金融、醫療、法務)這條幾乎是必備。
訊號 4:你手上是『一堆文件』形式的資料。 RAG 吃的是文件,fine-tune 吃的是 input-output 對話範例。500 頁 PDF 跟 1,000 筆對話 log 是完全不同的食物——前者直接做 RAG 才合理。
訊號 5:你的查詢類型多樣、難以列舉。 客戶問題千奇百怪,沒辦法事先列出『這類問題該這樣回』。RAG 的開放性比 fine-tune 高,能應付未預期的問法。
🚨最常見的誤判
「我們公司有很多文件,想 fine-tune 一個模型懂這些」——這句話我們聽過不下 50 次。99% 的情況下這是 RAG 場景被誤認成 fine-tune。文件 = RAG 的食物,對話範例 = fine-tune 的食物。搞混這個,後面所有錢都白花。
資料準備才是真正的隱藏成本:要幾筆?多乾淨?
回到開頭那個 78% 對 23% 的反差。多數企業在做的 fine-tune 之所以不划算,根本原因不是模型訓練本身——是資料。
Eduonix 2026 年 2 月發布的企業 LLM 調查指出,78% 的公司在做 fine-tuning,但只有 23% 認為自己做得划算。沒做划算的那 55% 落差,最大來源是資料準備時間與成本被嚴重低估。Jina AI 的 Finetuner 文件甚至給出一個明確的衰退曲線:ROI 在你標到第 500 筆資料後開始顯著下降——再往上加,邊際效益急速縮小。這代表「越多資料越好」是錯的,「精準的 1,000 筆」幾乎永遠贏過「雜亂的 10,000 筆」。
不同任務需要的資料量基準
任務類型 | 最小可用資料量 | 建議資料量 | 為什麼這個量 |
|---|---|---|---|
風格 / 語氣調整 | 200–500 筆 | 1,000–2,000 筆 | 風格學起來相對快,但要避免單一作者偏差 |
格式輸出(JSON / 表格) | 500 筆 | 1,500–3,000 筆 | 結構化輸出對範例多樣性敏感 |
分類任務(5–10 類) | 每類 100–200 筆 | 每類 500 筆 | 類別要覆蓋邊界 case,否則會偏 |
專業領域對話 | 2,000 筆 | 5,000–10,000 筆 | 專業詞彙密度高,需要更多上下文 |
代碼生成 | 3,000 筆 | 10,000+ 筆 | 錯誤代價高,必須夠多範例避免引入 bug |
資料準備真正花在哪
這是大多數中小企業在報價單上看不到、但實際燒掉最多時間的部分。一個典型 1,000 筆訓練資料的準備流程:
收集原始資料: 從現有客服 log、工單、郵件、文件中撈出可訓練的對話。約 8–15 人天。
去識別化: 客戶姓名、電話、地址、訂單號全部 mask 或替換。約 3–5 人天。違反個資法的代價遠高於這個成本。
品質篩選: 不是每筆對話都值得拿來訓練。有矛盾的、有錯字的、有負評的全部要剔除。約 5–10 人天。
人工標註與校正: 標準答案要由領域專家寫,不能直接用客服當下的回應(可能本來就有誤)。約 10–20 人天。
評估集切分: 拿出 10–15% 當測試集,這部分絕對不能進訓練。約 1 人天。
資料增強(optional): 用 GPT-4 把 1,000 筆改寫成 3,000 筆同義變體,提升泛化能力。約 2–3 人天 + token 費用。
光是上面這些算下來就 30–55 人天。 以資深工程師日費 NT$ 8,000–15,000 計算,光資料準備的人力成本就是 NT$ 24–82 萬——這個數字通常是模型訓練本身費用的 3–5 倍。 報價單只寫『模型訓練 NT$ 8 萬』的廠商,不是少報,就是準備偷工。
ℹ️為什麼「越多越好」是錯的
Jina AI 的研究觀察到,資料量到達 500 筆後,每多 100 筆的 ROI 開始急速下降。原因是模型先學會『大方向』後,後面每筆資料只能再修正一點細節,邊際效益遞減。比起『標 5,000 筆品質普通的資料』,『精挑 1,000 筆代表性極高的資料』通常效果更好、成本更低。

三個台灣中小企業實例:兩個 fine-tune、一個用 RAG 就解決
理論講完,來看實際案例。下面三個是 2026 年我們實際接觸過的台灣中小企業場景,做過完整評估後給的建議。
Case 1:80 人法務團隊──fine-tune 是對的選擇
背景。 一家中型法律事務所,需要 AI 幫忙做合約風險點標註。每月處理約 200 份合約,每份要標出 12 種風險類型(履約風險、付款風險、IP 歸屬等),原本 1 份合約資深律師要看 25 分鐘。
評估過程。 一開始他們也想做 RAG——把過去 5 年標註過的合約全部塞進向量庫,希望模型『查到類似條款就照樣標』。我們做了 PoC,結果準確率只有 71%,原因是合約的風險點判斷靠的不是『查相似條款』,是『判斷整段邏輯』。 這是典型的『行為一致性』問題,不是『知識缺漏』問題。
最後做法。 用過去 3 年人工標註的 4,200 份合約,做 LoRA fine-tune(base model: Llama 3.1 70B),訓練成本約 USD 2,800(NT$ 8.4 萬),加上資料準備人力 NT$ 35 萬,總成本 NT$ 43 萬。上線後準確率達到 91%,每份合約的標註時間從 25 分鐘降到 4 分鐘。
為什麼這個案子 fine-tune 對。 因為(1)失敗模式是行為不一致,(2)資料量足夠,(3)任務是『穩定的判斷邏輯』而不是『會變的知識』。中過 5 個 fine-tune 訊號中的 3 個。
Case 2:技術文件 AI 客服──RAG 完勝,差點被廠商坑
背景。 一家工業自動化設備廠商,產品技術手冊有 2,800 頁,分散在 60 個 PDF。客戶詢問常常要工程師查手冊查 30 分鐘才能回答,每月超過 200 通技術詢問。
廠商的提案。 一家 AI 整合商開了 NT$ 280 萬的提案,主打『把貴公司 2,800 頁手冊全部 fine-tune 進專屬模型』。聽起來很高科技,老闆差點簽下去。
我們的反提案。 這個場景 100% 是 RAG。理由很簡單:(1)手冊每季都會更新,fine-tune 進去三個月就過時,(2)需要追溯回答來源(不能讓客戶以為是隨便瞎掰的),(3)資料是文件不是對話範例。我們做了 RAG 系統,總成本 NT$ 38 萬,月運維 NT$ 12,000。
結果。 上線 6 個月後,技術詢問的平均回應時間從 30 分鐘降到 2 分鐘,工程師每月省下約 80 小時。跟原本廠商的 280 萬方案相比,省下 242 萬,效果還更好。 這個案子的關鍵是『看穿 fine-tune 的話術』——很多 AI 廠商喜歡推 fine-tune,因為單價高、客戶不容易驗證效果。
⚠️fine-tune 話術三件套
聽到下面三句話要警覺:(1)「這是您的專屬模型,別人偷不走」(RAG 一樣可以做到資料隔離)、(2)「fine-tune 比 RAG 智慧,回答更自然」(沒這回事,2026 benchmark RAG 89% vs FT 91%,相差不大)、(3)「您的資料越多越值得 fine-tune」(500 筆後 ROI 急速下降,多不一定好)。
Case 3:B2B 客服回應風格統一──LoRA 微調最便宜的解法
背景。 一家 SaaS 公司客服團隊有 12 個人,因為背景不同回應風格落差大——有的太正式、有的太隨便、有的會用簡體用語。CEO 想統一回應風格成『專業但溫暖』的品牌調性,但寫 SOP 教了一年沒效果。
為什麼不用 prompt。 試過了。用 system prompt 寫了 200 行的『回應風格指南』,結果客服 AI 回應時前 2 句符合風格,後面就漂走,因為 prompt 太長模型『稀釋』了。每次對話 latency 也飆到 1.2 秒。
為什麼不用 RAG。 風格不是『知識』,沒辦法存在文件裡讓模型查。RAG 在這場景完全沒幫助。
最後做法。 整理了過去 6 個月被 CEO 親自稱讚的 1,400 則客服回應當訓練資料,用 OpenAI fine-tune API(gpt-4o-mini)做 LoRA 微調。訓練成本 USD 180(NT$ 5,400),資料整理人力 NT$ 8 萬,總成本不到 NT$ 9 萬。上線後客服 AI 回應風格一致性從 53% 提升到 88%,CEO 不再每週半夜傳訊息抱怨『今天又看到一個怪回應』。
這三個案例對應到「中小企業實際導入 5 大場景」的細節,可以參考 中小企業導入 AI 系統的 5 個高 ROI 場景 那篇。本篇給的是『技術選擇邏輯』,那篇給的是『場景與 ROI 數字』。
常見失敗:花錢 fine-tune 卻沒效果的 4 個原因
Eduonix 那份 78% / 23% 的調查也整理了失敗原因。把這 4 個拿出來講,因為每一個我們都在台灣案例上實際看過。
失敗 1:診斷錯誤──該用 RAG 卻去 fine-tune
最常見也最貴的錯誤。模型答錯不一定是『行為問題』,更多時候是『知識問題』。知識注入式 fine-tune(用 fine-tune 把資料『教』給模型)幾乎注定失敗,因為(1)資料更新等於要重訓,(2)模型可能還是會忘,(3)沒辦法追溯來源。
自我診斷法: 把模型答錯的 case 收集 20 個,問自己『如果我把正確答案放在 prompt 裡給模型,它會回答對嗎?』如果答案是 yes,那是 RAG 場景;如果還是會錯(行為跑偏),才是 fine-tune 場景。
失敗 2:過擬合──小資料 + 過多 epoch
在小資料集上跑 fine-tune 最容易踩的坑。OpenAI 開發者社群的實測 顯示,1,000 筆以下的訓練資料跑超過 3 個 epoch,模型會開始『背答案』而不是『學模式』,新資料一進來表現就崩。
避坑做法: 資料量低於 500 筆時直接放棄 fine-tune,用 few-shot prompting 先頂著;資料量 500–2,000 筆時 epoch 數設 1–2,並且嚴格保留 15% 當測試集,evaluation loss 開始上升就停。
失敗 3:base model 選錯──小模型扛不住複雜任務
為了省錢挑了 1B–3B 的小模型做 fine-tune,結果發現任務需要的推理深度超出模型容量。這在『需要多步驟推理』的任務上特別明顯——例如合約風險判斷、客服多輪對話。
選擇原則: 簡單分類 / 格式化任務用 1B–3B 沒問題;多輪對話、推理任務最少 7B 起跳;專業領域 + 推理請直接用 70B+ 的 LoRA 微調,比訓練 7B Full Fine-tune 通常更便宜效果更好。
失敗 4:沒做評估集──上線後才發現模型壞了
這個錯誤聽起來很基本,但 80% 的中小企業案子都犯。沒切評估集 + 沒設定明確 KPI(準確率閾值、F1 score、人工抽樣比例),上線後才靠『使用者抱怨』來知道模型壞了。等到客戶開始離開,回頭調已經晚了。
最低要求: 至少 10–15% 資料切出當 holdout、定義 3 個量化指標、上線前跑一次完整評估報告、上線後每月 random sample 50 筆人工複核。這 4 件事任何一個漏掉,fine-tune 就是在賭運氣。
🚨失敗成本估算
fine-tune 失敗的成本不只是訓練費。一個 NT$ 30 萬的微調案,如果上線後 2 個月才發現效果不對,要算的成本包含:(1)訓練 30 萬、(2)資料準備 40 萬、(3)2 個月運維與廠商溝通 15 萬、(4)真實效果與預期落差造成的決策延誤、(5)內部對 AI 失去信心的隱形成本。總計往往超過 100 萬。比較划算的策略是:先用 RAG 試 1 個月,確定『真的需要改行為』再 fine-tune。
決策樹:你的需求應該走哪一條路
把上面所有判準收斂成一張流程圖。從最上面的問題開始一路往下答,最終會落到 4 個方案中的一個。
這張流程圖的設計邏輯是「先排除不該做 fine-tune 的場景」。Prompt → RAG → LoRA → 混合 → 地端 Full FT,每一級成本與複雜度都跳一個 order of magnitude,所以「能用前一級解決就絕對不要往下走」。
決策樹的使用方式
把這張圖印出來,每次有人提案『要不要 fine-tune』時,要求對方從 Start 一路答到底,把答案寫下來。光是這個動作就能擋掉 70% 的盲目 fine-tune 提案。
常見問題 FAQ
QFine-tuning 跟 RAG 哪個更省錢?
前 18 個月幾乎都是 RAG 比較省(建置 NT$ 24–60 萬 vs 微調動輒 NT$ 30–80 萬含資料準備)。但 18 個月後如果你的應用需求穩定、查詢頻率高(每天 10,000+),fine-tuned 模型的 TCO 反而較低,因為省下的是每次查詢的 token 與檢索成本。中小企業 PoC 階段一律建議從 RAG 開始,跑穩了再評估混合或微調。
Q我可以同時用 RAG 和 fine-tuning 嗎?
可以,而且這是 2026 年生產級系統的標配。基準測試顯示混合架構準確率 96%,純 RAG 89%、純 fine-tune 91%。常見組合是『LoRA fine-tune 處理風格與格式 + RAG 處理會更新的知識』。但混合方案的成本會是單一方案的 1.5–2 倍,建議單一方案撐不住效果時才加上另一個。
Q中小企業需要多少資料才能 fine-tune?
風格類任務 200–500 筆勉強起步、1,000–2,000 筆是甜蜜點;分類任務每類別 100–200 筆勉強、每類 500 筆較穩;專業領域對話需要 2,000–10,000 筆。資料量低於 500 筆強烈不建議 fine-tune,會嚴重過擬合。沒有足夠資料的情況下,先用 few-shot prompting + RAG 撐 6 個月,把使用者的真實對話收集成訓練資料,再評估微調。
QLoRA 跟 Full Fine-tune 差在哪?我該選哪個?
LoRA 只訓練模型的一小部分參數(adapter layer),Full Fine-tune 訓練所有權重。LoRA 成本只有 Full 的 10%、效能保留 80–95%,所以中小企業 90% 的場景應該選 LoRA。Full Fine-tune 只在『極專業領域 + 資料量超過 10,000 筆 + 需要極致準確率』的場景才划算,例如醫療代碼分類、法律條文解析。沒這個需求別碰 Full。
QFine-tune 過的模型可以再 fine-tune 嗎?要重訓多久一次?
可以,但累積 fine-tune 容易出現 catastrophic forgetting(學新的忘舊的)。實務做法是把新資料併入原訓練集從 base model 重訓,而不是在 fine-tuned 模型上疊加。重訓頻率取決於你的領域變化速度——產品說明類 1–2 個月一次、專業判斷類 3–6 個月一次、極穩定的格式 / 風格類 1 年一次。每次重訓記得保留前一版的測試集,做 A/B 比對確保新版本沒退化。
Q為什麼 78% 的公司在做 fine-tuning,只有 23% 認為划算?
55% 的落差幾乎全部來自三個原因:(1)診斷錯誤——把該用 RAG 的問題拿去微調;(2)資料準備被嚴重低估——廠商報價只算模型訓練不算資料人力,實際成本是報價的 3–5 倍;(3)沒做評估集——上線後才發現模型沒比 base model 好。避開這三個坑,fine-tune 划算的機率會從 23% 拉到 60%+。
QOpenAI / Claude 的 fine-tune API 跟自己訓練哪個好?
中小企業 PoC 階段強烈建議用 OpenAI / Claude / Together AI 的 fine-tune API。原因:(1)不需要管 GPU 資源排程、(2)模型品質有基本保證、(3)API 成本透明可預估。自建訓練 pipeline 只在『資料極敏感不能上雲』或『月度 fine-tune 量超過 50 次』時才划算。多數台灣中小企業跑完整年都不會跨過這個門檻。
Q怎麼判斷 AI 廠商提案中的 fine-tune 是真的還是話術?
三個檢查點:(1)報價單是否寫明資料準備人天數與分工(沒寫的多半是話術,真做要 30 人天起跳);(2)是否提供 base model 選型理由(為什麼選 Llama 3.1 而不是 GPT-4o-mini?沒理由的多半是套版);(3)驗收標準是否含具體量化指標(準確率閾值、F1 score、回應時間 SLA)。這三件事都模糊的廠商,提案金額不論多少都該重新議。需要第三方協助拆解報價可以走 /services/ai-consult 預約。
最後一個提醒:先做 RAG,再決定要不要 fine-tune
這篇拆了 10 段,最重要的結論其實只有一句話:90% 的中小企業 AI 場景,應該先做 RAG 跑 3–6 個月,確認真的需要改行為再評估 fine-tune。 倒過來做的人,付的學費通常是順著做的 5 倍。
回到開頭那個 78% / 23% 的反差。23% 的公司之所以做得划算,不是因為他們更懂技術,是因為他們在動手前花了時間做正確的『需求診斷』。這篇所有的表格、決策樹、訊號清單,本質上都是在幫你做這件事——把『該不該 fine-tune』從直覺判斷變成可檢驗的流程。
接下來怎麼做:
如果你還沒開始任何 AI 專案: 先讀 中小企業 AI 高 ROI 場景 找出最痛的 1 個場景。
如果你正在比 AI 廠商報價: 用 客製化 AI 系統開發費用拆解 那篇的 8 個檢測問題對照本篇的決策樹,篩出話術型廠商。
如果你已經被推銷 fine-tune 方案: 把對方的提案套到本篇的決策樹走一遍,問廠商每個分岔點的判斷依據是什麼。答不出來的提案就是話術。
如果你想先入門 prompt engineering: 從 AI 提問技巧入門:5 個 Prompt 公式 開始,prompt 是 RAG 與 fine-tune 的共同基礎。
需要協助判斷?
如果手上已經有 AI 廠商的 fine-tune 或 RAG 提案想要客觀第三方評估,可以走 /services/ai-consult 預約一次免費 30 分鐘的技術選型診斷。我們會幫你逐項對照本篇的決策樹,標出哪些是合理選擇、哪些是話術。
最後一句話:技術選擇的對與錯,不會在簽約那天揭曉,會在上線 6 個月後讓你的財報說話。花 30 分鐘把決策樹走一遍,是這 6 個月裡 ROI 最高的投資。
AUTHOR
自由揚John
想了解更多?看看我們的相關服務
相關文章
中小企業客戶反饋 NPS SaaS 採購完整指南:Typeform / SurveyMonkey / Qualtrics / Hotjar / 自架 4 條路徑、5 個落地踩雷、3 個報價區間

Text-to-SQL 中小企業 BI 採購完整指南:老闆自己查、不再排隊等資料工程師的 5 條 LLM 路徑與 4 個治理風險

客戶流失預測(Customer Churn)AI 系統完整指南:4 條模型路徑、5 條觸發訊號、3 個 ROI 試算框架——中小企業老闆從「救單」到「主動預防」的決策手冊

中小企業老闆 AI 工具堆疊(AI Sprawl)治理完整指南:5 個盤點訊號、4 條合併路徑、3 個老闆每季審視框架

電子簽章 SaaS 採購完整指南:DocuSign / Adobe Acrobat Sign / CloudSign / 自架 4 條路徑、台灣法規必懂 5 點、4 條合約紅線——中小企業老闆「紙本合約消失」的完整決策框架

留言(0)
尚無留言,成為第一個留言的人吧!