
「我們花了 280 萬做 AI 客服 PoC,demo 很驚艷,但上線三個月後業績沒影響、客服還是吃不消、員工已經停用——這 280 萬到底買到什麼?」這是某零售業老闆在第一次找上門時的開場白。
這個故事不孤單。MIT Sloan 2026 企業 AI 落地報告追蹤 1,200 家中型企業發現,95% 的外包 AI 專案在上線 6 個月內無法展示明確 ROI;其中 67% 卡在「PoC 做完了但擴展不出去」。問題不是 AI 不行,是大部分公司用「做網站」的思維買 AI——結果買到的是一個漂亮 demo,不是一個能跑生意的系統。
這篇寫給準備找外包做 AI 系統的中小企業老闆與採購決策者。把 7 個最常見、損失最大、最不容易事先發現的坑攤開來——每個坑配對應的合約條款、評估問題、技術紅線。文末附一張 PoC 開案前的自我檢核表,照著走可以省下七位數的學費。

坑一:PoC 看起來很神,但 demo 用的不是你的真實資料
AI 廠商的 PoC 通常用「乾淨樣本」或「公開資料集」展示能力。客戶在會議室看到 demo 答題精準度 95%,興奮簽約。三個月後接上公司真實資料——資料髒、格式不一致、缺欄位、有錯字——精準度掉到 62%。
為什麼會發生:演示資料是廠商為了快速展示能力刻意挑乾淨的;真實資料的 80% 處理成本廠商不會寫進報價。預防做法:合約裡 PoC 階段必須用「客戶提供的真實樣本資料」測試,不接受公開資料集或廠商樣本。PoC 驗收標準寫在 SOW 上,例如「在客戶 1000 筆隨機抽樣資料上達到 X% 準確率」。
⚠️資料品質先盤點,再談 AI 開發
PoC 之前自己做一輪資料盤點:你的核心業務資料有多髒?欄位完整度多少?歷史資料涵蓋幾年?這些問題不解決,AI 廠商解決不了。延伸閱讀:企業 AI RAG 架構入門:知識庫怎麼蓋才不會幻覺。
坑二:模型 ownership 不清楚,三年後想換廠商換不掉
AI 系統的智財權跟傳統軟體開發完全不一樣。傳統軟體你拿到 source code 就能換廠商;AI 系統「source code」只是冰山一角——真正的核心是訓練好的模型權重、客戶資料整理後的 dataset、prompt template、向量資料庫的 embedding。這四樣東西不在合約裡明確約定 ownership,廠商等於拿著你的命脈。
AI 系統資產 | 傳統 IT 合約常見處理 | 正確的 AI 合約處理 |
|---|---|---|
原始 source code | 客戶取得 ownership | 同(沒問題) |
訓練好的模型權重 | 通常沒提,廠商默認擁有 | 客戶取得永久使用 + 帶走授權 |
微調用的 dataset | 通常沒提 | 客戶 100% ownership,廠商不得他用 |
Prompt template / 工程 | 沒提 | 客戶取得 ownership 或永久授權 |
向量資料庫 embedding | 沒提 | 客戶 100% ownership |
延伸閱讀:軟體著作權與 source code 歸屬陷阱,AI 系統版的智財權討論可以以那篇為基礎延伸到模型權重與 dataset。
坑三:API 成本沒算進報價,上線後 token 帳單比預期高 3 倍
AI 系統的營運成本主要由三塊組成:基礎設施(伺服器 / 資料庫)、模型 API 呼叫(OpenAI / Anthropic / Google 等的 token 費)、人力(持續優化、客服、維運)。中小企業最常被忽略的是第二塊——廠商報價只報「開發費」,沒算或低估每月 token 成本。
實際數字:一個服務 5,000 人/月的 AI 客服系統,使用 Claude Sonnet,每月 API 成本約 NT$ 80,000-150,000,視對話複雜度而定。如果廠商初估時說「每月運維 2 萬」,那是沒算 API。
ℹ️PoC 階段就要做 token 試算
PoC 結束時要求廠商提供「以 PoC 期間實際 token 用量推估 1000 名用戶、5000 名用戶、20000 名用戶三個規模的月度 API 成本」。這份試算放進合約附件,做為日後預算編列的基準。沒提供的廠商基本上沒做過真實上線案,跳過。

坑四:精準度承諾沒寫清楚,驗收時各說各話
AI 系統不像傳統軟體「功能能用 / 不能用」這樣黑白分明。「客服 AI 能回答客戶問題」這句話可以是 60% 準確率(rough draft 給人類修),也可以是 95% 準確率(可直接回覆客戶)。沒寫清楚的話,廠商交付 65% 你說「不能用」,廠商說「合約只寫『能回答』沒寫精準度」。
合約必備條款:「精準度 SLA」三件套——衡量指標(accuracy、precision、recall、F1,依場景選)、衡量方法(用誰的測試集、誰來判斷對錯)、未達標的補救機制(重新訓練、退費、合約終止哪一條啟動)。延伸閱讀:軟體驗收 SOP 與 UAT 測試清單,AI 版的驗收標準可以參考這篇的結構,再加上 AI 特有的精準度指標。
坑五:沒人接得上線後的維運,廠商把球丟回給你
AI 系統上線只是開始。模型會 drift(隨時間退化)、客戶問法會變、公司產品線會調整、外部資料源會更新——這些每兩三個月就需要重訓或微調。中小企業最常見的失敗模式:廠商交付完拿尾款走人,半年後系統表現崩到 50% 準確率,你想找廠商回來他報價要再 100 萬,你不接他就放著爛掉。
正確的合約結構是「開發費 + 第一年維運包」綁定。維運包至少包含:每季模型重訓 1 次、每月精準度報告、每月 4 小時調整工時、客服支援 SLA。延伸閱讀:軟體外包驗收後的維運合約怎麼簽,AI 維運合約的條款邏輯與傳統軟體類似,但要多加 AI 特有的「模型衰退觸發點」「重訓費用上限」兩條。
坑六:擴展性沒設計,10 個用戶能用、500 個就掛
PoC 階段通常只服務內部少數人測試。上線後使用人數成長 10 倍、100 倍時,系統可能在三個地方崩潰:API rate limit 撞牆、向量資料庫查詢變慢、context window 超出限制。這三件事在 PoC 時都看不到,要設計階段就考慮。
擴展性瓶頸 | PoC 階段症狀 | 上線後爆發點 | 預防做法 |
|---|---|---|---|
API rate limit | 看不到 | 100+ 並發用戶 | 事前申請 enterprise quota |
向量資料庫查詢 | 幾百筆資料快 | 幾十萬筆後變慢 3-5 倍 | 用 Pinecone / Weaviate 等專業工具 |
Context window | 短對話 OK | 長對話歷史塞爆 | 對話摘要 + 滑窗策略 |
成本爆量 | 可控 | 用量上來月費 10x | 用便宜模型分流 + 快取 |
合約附件加一份「擴展性架構聲明」:廠商承諾系統在 X 倍流量下仍可運作、預估擴展成本、需要多少前置時間。這份文件未來爭議時是判斷廠商有沒有「合理可預見」失誤的關鍵。
坑七:選了一家會做 AI 但沒做過你產業的廠商
AI 系統的成敗 60% 取決於「對業務 domain 的理解」。一家能用 LangChain 接 GPT-4 的公司不代表他懂你怎麼做生意。製造業的 AI 跟電商的 AI 跟醫療的 AI,光是資料結構、KPI、合規要求就差天南地北。
評估標準:要求廠商提供「過去 12 個月同產業 3 個案例」,每個案例都要能對話、能 reference check、能看到實際指標。沒有同產業案例的廠商,你的案子就是他學費——付學費的應該是廠商,不是你。延伸閱讀:怎麼選客製化 AI 系統開發公司?7 個評估標準。
PoC 開案前的自我檢核表:12 題答完再簽合約
把這份檢核表印出來,跟廠商面對面過一次。一題不過關就不要急著簽。
# | 檢核問題 | 通過標準 |
|---|---|---|
1 | 資料品質有做盤點嗎? | 至少 3 個核心欄位的完整度、正確率有數字 |
2 | PoC 用真實資料還是 demo 資料? | 真實,且 SOW 寫明資料來源 |
3 | 模型權重與 dataset ownership? | 合約寫客戶 100% |
4 | Token / API 月成本三規模試算? | 1000/5000/20000 用戶各一份 |
5 | 精準度 SLA + 衡量方法? | 指標、測試集、判斷者三件具備 |
6 | 第一年維運包包含什麼? | 重訓、報告、調整、SLA |
7 | 擴展性架構聲明? | 10x / 100x 場景與成本 |
8 | 同產業案例 3 個 + 可 reference? | 可對話、有指標 |
9 | 資料安全:客戶 PII 怎麼處理? | 脫敏 / 加密 / 隔離方案 |
10 | 事故應變 SLA? | 24hr 內回應 |
11 | 退場機制:合約終止如何交接? | 資產與文件清單寫明 |
12 | 成功標準:上線後 6 個月看什麼指標? | 業務面 + 技術面雙指標 |
一個真實案例:280 萬 PoC 的覆盤
回到開頭那家零售業。我們協助他覆盤後發現:第一,PoC 用的測試資料是廠商整理過的 500 題客服對話;客戶實際每月 8,000 通客服中有 30% 是退換貨、20% 是訂單查詢,這兩類在 PoC 中只測了 5%。第二,合約沒寫精準度 SLA,廠商交付 71% 準確率自認達標,客戶覺得「跟人類客服比差太多」。第三,第一年沒維運包,三個月後精準度掉到 58%,廠商提供報價 120 萬重訓,客戶選擇下架系統。
教訓很直接:12 題檢核表第 2、5、6 題沒過。任何一題過了,這 280 萬不會白燒。
找外包做 AI 系統最常問的 5 個問題
QPoC 階段該花多少錢才合理?
看複雜度。輕量級(接 API 做 chatbot)約 NT$ 15-50 萬;中度(包含資料整理與微調)NT$ 50-150 萬;重度(需自建模型或大量 dataset 準備)NT$ 150 萬以上。建議 PoC 預算控制在「整案總預算的 20-30%」,避免 PoC 花光全部資源。
Q如果廠商不肯把模型權重 ownership 給客戶怎麼辦?
退一步用「永久使用 + 可帶走授權」也可接受,但合約必須明確:客戶可以下載權重檔案、可以在自有環境部署、未來換廠商時新廠商可以基於此權重繼續微調。完全不肯的廠商建議直接 pass,這代表他打算用 vendor lock-in 綁你長期。
Q自建團隊比外包划算嗎?
看規模與長期需求。內部用 3-5 年、模型需要每季持續優化、有獨特資料壁壘——自建較划算(核心人員 2-3 人,年成本 NT$ 400-700 萬)。短期專案、單次性需求、業務還在變動——外包較划算。多數中小企業適合「外包做出 v1.0,內部 1-2 人接手維運與調整」的混合模式。
Q怎麼判斷廠商是真的會做 AI 還是只會接 API?
三題:請描述你做過最棘手的一次資料品質問題與怎麼解決?同一個 task,你怎麼決定用 fine-tune、prompt engineering 還是 RAG?你怎麼衡量 model drift 並決定何時重訓?三題都答不出具體案例的廠商,他做的「AI」可能只是包了 API 的應用,不是真正的 AI 工程。
Q找外包跟買 SaaS 怎麼選?
六題自評:有沒有獨特資料?需求是否標準化?預算多大?時程多急?想不想擁有 IP?團隊有沒有 AI 維運能力?這六題答案決定路徑。延伸閱讀:[自架 AI vs API 訂閱 vs SaaS:老闆三選一決策樹](/blog/self-host-ai-vs-api-vs-saas-decision-tree)。
做對外包選擇,AI 系統才是資產,不是學費
280 萬可以買到漂亮 demo,也可以買到一個跑三年仍在創造價值的系統。差別不在 AI 廠商有多神,而是你在簽合約前有沒有走完這 12 題檢核、有沒有把那 7 個坑提前圈起來。
如果你正在評估 AI 客製化專案、需要協助起草 RFP 或 review 廠商提案,恆遠的 AI 顧問服務 提供從需求釐清、PoC 規格、合約檢視到廠商 reference check 的獨立第三方協助。我們不接 AI 開發專案,所以建議是中立的。延伸閱讀組成的 Topic Cluster:
→ 客製化 AI 系統開發費用拆解:30 / 100 / 300 萬各能做什麼
→ AI 模型 Fine-tuning vs RAG:成本與決策指南
延伸閱讀:本文的 12 題檢核偏向工程紀律與交付品質,如果你想再補強「AI 程式碼資安」這一塊,可以參考 Claude Security 公測上線完整解析:找外包合約該寫哪 8 條 AI 程式碼資安紅線,裡面有 Claude Security 公測上線後該怎麼把資安條款寫進外包合約的完整流程。
→ 找外包做 APP / 軟體前必踩的 9 個雷(傳統軟體外包版)
AUTHOR
自由揚John
想了解更多?看看我們的相關服務
相關文章

連很多 MCP 會不會很燒 token?AI 助理工具吃掉 context 的真相,與「有需要才載入」的 Tool Search 機制

我們公司怎麼跑出 20+ AI 流程?系列第 4 篇:客戶意向回收與 CRM 同步 SOP , 4 個 trigger 點、3 條去重規則、2 條漏接補救機制

ESP32-P4 是什麼?2026 用它做機器人的初學者完整指南,和一般 ESP32 差在哪、新手怎麼開始

我們公司怎麼跑出 20+ AI 流程?系列第 2 篇:排程治理 SOP,時間表、重試、報警、版本管控 4 維度 + 5 條紅線

Headless CMS 選型完整指南:Strapi / Sanity / Payload / Contentful / WordPress Headless 五條路徑 — 中小企業內容團隊 6 個決策、5 條合約紅線、3 個報價區間

留言(0)
尚無留言,成為第一個留言的人吧!