找外包做 AI 系統的 7 個坑：PoC 卡關到上線無法擴展

「我們花了 280 萬做 AI 客服 PoC，demo 很驚艷，但上線三個月後業績沒影響、客服還是吃不消、員工已經停用——這 280 萬到底買到什麼？」這是某零售業老闆在第一次找上門時的開場白。

這個故事不孤單。MIT Sloan 2026 企業 AI 落地報告追蹤 1,200 家中型企業發現，95% 的外包 AI 專案在上線 6 個月內無法展示明確 ROI；其中 67% 卡在「PoC 做完了但擴展不出去」。問題不是 AI 不行，是大部分公司用「做網站」的思維買 AI——結果買到的是一個漂亮 demo，不是一個能跑生意的系統。

這篇寫給準備找外包做 AI 系統的中小企業老闆與採購決策者。把 7 個最常見、損失最大、最不容易事先發現的坑攤開來——每個坑配對應的合約條款、評估問題、技術紅線。文末附一張 PoC 開案前的自我檢核表，照著走可以省下七位數的學費。

AI 系統外包合約簽署封面

坑一：PoC 看起來很神，但 demo 用的不是你的真實資料

AI 廠商的 PoC 通常用「乾淨樣本」或「公開資料集」展示能力。客戶在會議室看到 demo 答題精準度 95%，興奮簽約。三個月後接上公司真實資料——資料髒、格式不一致、缺欄位、有錯字——精準度掉到 62%。

為什麼會發生：演示資料是廠商為了快速展示能力刻意挑乾淨的；真實資料的 80% 處理成本廠商不會寫進報價。預防做法：合約裡 PoC 階段必須用「客戶提供的真實樣本資料」測試，不接受公開資料集或廠商樣本。PoC 驗收標準寫在 SOW 上，例如「在客戶 1000 筆隨機抽樣資料上達到 X% 準確率」。

⚠️資料品質先盤點，再談 AI 開發

PoC 之前自己做一輪資料盤點：你的核心業務資料有多髒？欄位完整度多少？歷史資料涵蓋幾年？這些問題不解決，AI 廠商解決不了。延伸閱讀：企業 AI RAG 架構入門：知識庫怎麼蓋才不會幻覺。

坑二：模型 ownership 不清楚，三年後想換廠商換不掉

AI 系統的智財權跟傳統軟體開發完全不一樣。傳統軟體你拿到 source code 就能換廠商；AI 系統「source code」只是冰山一角——真正的核心是訓練好的模型權重、客戶資料整理後的 dataset、prompt template、向量資料庫的 embedding。這四樣東西不在合約裡明確約定 ownership，廠商等於拿著你的命脈。

AI 系統資產	傳統 IT 合約常見處理	正確的 AI 合約處理
原始 source code	客戶取得 ownership	同（沒問題）
訓練好的模型權重	通常沒提，廠商默認擁有	客戶取得永久使用 + 帶走授權
微調用的 dataset	通常沒提	客戶 100% ownership，廠商不得他用
Prompt template / 工程	沒提	客戶取得 ownership 或永久授權
向量資料庫 embedding	沒提	客戶 100% ownership

延伸閱讀：軟體著作權與 source code 歸屬陷阱，AI 系統版的智財權討論可以以那篇為基礎延伸到模型權重與 dataset。

坑三：API 成本沒算進報價，上線後 token 帳單比預期高 3 倍

AI 系統的營運成本主要由三塊組成：基礎設施（伺服器 / 資料庫）、模型 API 呼叫（OpenAI / Anthropic / Google 等的 token 費）、人力（持續優化、客服、維運）。中小企業最常被忽略的是第二塊——廠商報價只報「開發費」，沒算或低估每月 token 成本。

實際數字：一個服務 5,000 人/月的 AI 客服系統，使用 Claude Sonnet，每月 API 成本約 NT$ 80,000-150,000，視對話複雜度而定。如果廠商初估時說「每月運維 2 萬」，那是沒算 API。

ℹ️PoC 階段就要做 token 試算

PoC 結束時要求廠商提供「以 PoC 期間實際 token 用量推估 1000 名用戶、5000 名用戶、20000 名用戶三個規模的月度 API 成本」。這份試算放進合約附件，做為日後預算編列的基準。沒提供的廠商基本上沒做過真實上線案，跳過。

AI 開發專案 PoC 評估會議內文

坑四：精準度承諾沒寫清楚，驗收時各說各話

AI 系統不像傳統軟體「功能能用 / 不能用」這樣黑白分明。「客服 AI 能回答客戶問題」這句話可以是 60% 準確率（rough draft 給人類修），也可以是 95% 準確率（可直接回覆客戶）。沒寫清楚的話，廠商交付 65% 你說「不能用」，廠商說「合約只寫『能回答』沒寫精準度」。

合約必備條款：「精準度 SLA」三件套——衡量指標（accuracy、precision、recall、F1，依場景選）、衡量方法（用誰的測試集、誰來判斷對錯）、未達標的補救機制（重新訓練、退費、合約終止哪一條啟動）。延伸閱讀：軟體驗收 SOP 與 UAT 測試清單，AI 版的驗收標準可以參考這篇的結構，再加上 AI 特有的精準度指標。

坑五：沒人接得上線後的維運，廠商把球丟回給你

AI 系統上線只是開始。模型會 drift（隨時間退化）、客戶問法會變、公司產品線會調整、外部資料源會更新——這些每兩三個月就需要重訓或微調。中小企業最常見的失敗模式：廠商交付完拿尾款走人，半年後系統表現崩到 50% 準確率，你想找廠商回來他報價要再 100 萬，你不接他就放著爛掉。

正確的合約結構是「開發費 + 第一年維運包」綁定。維運包至少包含：每季模型重訓 1 次、每月精準度報告、每月 4 小時調整工時、客服支援 SLA。延伸閱讀：軟體外包驗收後的維運合約怎麼簽，AI 維運合約的條款邏輯與傳統軟體類似，但要多加 AI 特有的「模型衰退觸發點」「重訓費用上限」兩條。

坑六：擴展性沒設計，10 個用戶能用、500 個就掛

PoC 階段通常只服務內部少數人測試。上線後使用人數成長 10 倍、100 倍時，系統可能在三個地方崩潰：API rate limit 撞牆、向量資料庫查詢變慢、context window 超出限制。這三件事在 PoC 時都看不到，要設計階段就考慮。

擴展性瓶頸	PoC 階段症狀	上線後爆發點	預防做法
API rate limit	看不到	100+ 並發用戶	事前申請 enterprise quota
向量資料庫查詢	幾百筆資料快	幾十萬筆後變慢 3-5 倍	用 Pinecone / Weaviate 等專業工具
Context window	短對話 OK	長對話歷史塞爆	對話摘要 + 滑窗策略
成本爆量	可控	用量上來月費 10x	用便宜模型分流 + 快取

合約附件加一份「擴展性架構聲明」：廠商承諾系統在 X 倍流量下仍可運作、預估擴展成本、需要多少前置時間。這份文件未來爭議時是判斷廠商有沒有「合理可預見」失誤的關鍵。

坑七：選了一家會做 AI 但沒做過你產業的廠商

AI 系統的成敗 60% 取決於「對業務 domain 的理解」。一家能用 LangChain 接 GPT-4 的公司不代表他懂你怎麼做生意。製造業的 AI 跟電商的 AI 跟醫療的 AI，光是資料結構、KPI、合規要求就差天南地北。

評估標準：要求廠商提供「過去 12 個月同產業 3 個案例」，每個案例都要能對話、能 reference check、能看到實際指標。沒有同產業案例的廠商，你的案子就是他學費——付學費的應該是廠商，不是你。延伸閱讀：怎麼選客製化 AI 系統開發公司？7 個評估標準。

PoC 開案前的自我檢核表：12 題答完再簽合約

把這份檢核表印出來，跟廠商面對面過一次。一題不過關就不要急著簽。

#	檢核問題	通過標準
1	資料品質有做盤點嗎？	至少 3 個核心欄位的完整度、正確率有數字
2	PoC 用真實資料還是 demo 資料？	真實，且 SOW 寫明資料來源
3	模型權重與 dataset ownership？	合約寫客戶 100%
4	Token / API 月成本三規模試算？	1000/5000/20000 用戶各一份
5	精準度 SLA + 衡量方法？	指標、測試集、判斷者三件具備
6	第一年維運包包含什麼？	重訓、報告、調整、SLA
7	擴展性架構聲明？	10x / 100x 場景與成本
8	同產業案例 3 個 + 可 reference?	可對話、有指標
9	資料安全：客戶 PII 怎麼處理？	脫敏 / 加密 / 隔離方案
10	事故應變 SLA？	24hr 內回應
11	退場機制：合約終止如何交接？	資產與文件清單寫明
12	成功標準：上線後 6 個月看什麼指標？	業務面 + 技術面雙指標

一個真實案例：280 萬 PoC 的覆盤

回到開頭那家零售業。我們協助他覆盤後發現：第一，PoC 用的測試資料是廠商整理過的 500 題客服對話；客戶實際每月 8,000 通客服中有 30% 是退換貨、20% 是訂單查詢，這兩類在 PoC 中只測了 5%。第二，合約沒寫精準度 SLA，廠商交付 71% 準確率自認達標，客戶覺得「跟人類客服比差太多」。第三，第一年沒維運包，三個月後精準度掉到 58%，廠商提供報價 120 萬重訓，客戶選擇下架系統。

教訓很直接：12 題檢核表第 2、5、6 題沒過。任何一題過了，這 280 萬不會白燒。

找外包做 AI 系統最常問的 5 個問題

QPoC 階段該花多少錢才合理？

看複雜度。輕量級（接 API 做 chatbot）約 NT$ 15-50 萬；中度（包含資料整理與微調）NT$ 50-150 萬；重度（需自建模型或大量 dataset 準備）NT$ 150 萬以上。建議 PoC 預算控制在「整案總預算的 20-30%」，避免 PoC 花光全部資源。

Q如果廠商不肯把模型權重 ownership 給客戶怎麼辦？

退一步用「永久使用 + 可帶走授權」也可接受，但合約必須明確：客戶可以下載權重檔案、可以在自有環境部署、未來換廠商時新廠商可以基於此權重繼續微調。完全不肯的廠商建議直接 pass，這代表他打算用 vendor lock-in 綁你長期。

Q自建團隊比外包划算嗎？

看規模與長期需求。內部用 3-5 年、模型需要每季持續優化、有獨特資料壁壘——自建較划算（核心人員 2-3 人，年成本 NT$ 400-700 萬）。短期專案、單次性需求、業務還在變動——外包較划算。多數中小企業適合「外包做出 v1.0，內部 1-2 人接手維運與調整」的混合模式。

Q怎麼判斷廠商是真的會做 AI 還是只會接 API？

三題：請描述你做過最棘手的一次資料品質問題與怎麼解決？同一個 task，你怎麼決定用 fine-tune、prompt engineering 還是 RAG？你怎麼衡量 model drift 並決定何時重訓？三題都答不出具體案例的廠商，他做的「AI」可能只是包了 API 的應用，不是真正的 AI 工程。

Q找外包跟買 SaaS 怎麼選？

六題自評：有沒有獨特資料？需求是否標準化？預算多大？時程多急？想不想擁有 IP？團隊有沒有 AI 維運能力？這六題答案決定路徑。延伸閱讀：[自架 AI vs API 訂閱 vs SaaS：老闆三選一決策樹](/blog/self-host-ai-vs-api-vs-saas-decision-tree)。

做對外包選擇，AI 系統才是資產，不是學費

280 萬可以買到漂亮 demo，也可以買到一個跑三年仍在創造價值的系統。差別不在 AI 廠商有多神，而是你在簽合約前有沒有走完這 12 題檢核、有沒有把那 7 個坑提前圈起來。

如果你正在評估 AI 客製化專案、需要協助起草 RFP 或 review 廠商提案，恆遠的 AI 顧問服務 提供從需求釐清、PoC 規格、合約檢視到廠商 reference check 的獨立第三方協助。我們不接 AI 開發專案，所以建議是中立的。延伸閱讀組成的 Topic Cluster：

→ 怎麼選客製化 AI 系統開發公司？7 個評估標準

→ 客製化 AI 系統開發費用拆解：30 / 100 / 300 萬各能做什麼

→ AI 模型 Fine-tuning vs RAG：成本與決策指南

延伸閱讀：本文的 12 題檢核偏向工程紀律與交付品質，如果你想再補強「AI 程式碼資安」這一塊，可以參考 Claude Security 公測上線完整解析：找外包合約該寫哪 8 條 AI 程式碼資安紅線，裡面有 Claude Security 公測上線後該怎麼把資安條款寫進外包合約的完整流程。

→ 找外包做 APP / 軟體前必踩的 9 個雷（傳統軟體外包版）

找外包做 AI 系統的 7 個坑：從 PoC 卡關到上線無法擴展，附 12 題檢核表

坑一：PoC 看起來很神，但 demo 用的不是你的真實資料

坑二：模型 ownership 不清楚，三年後想換廠商換不掉

坑三：API 成本沒算進報價，上線後 token 帳單比預期高 3 倍

坑四：精準度承諾沒寫清楚，驗收時各說各話

坑五：沒人接得上線後的維運，廠商把球丟回給你

坑六：擴展性沒設計，10 個用戶能用、500 個就掛

坑七：選了一家會做 AI 但沒做過你產業的廠商

PoC 開案前的自我檢核表：12 題答完再簽合約

一個真實案例：280 萬 PoC 的覆盤

找外包做 AI 系統最常問的 5 個問題

做對外包選擇，AI 系統才是資產，不是學費

留言(0)

想了解更多？看看我們的相關服務

AI 自動化顧問

企業形象網站架設

SEO 優化代操

需要網站系統架設或軟體開發？

相關文章

連很多 MCP 會不會很燒 token？AI 助理工具吃掉 context 的真相，與「有需要才載入」的 Tool Search 機制

我們公司怎麼跑出 20+ AI 流程？系列第 4 篇：客戶意向回收與 CRM 同步 SOP ， 4 個 trigger 點、3 條去重規則、2 條漏接補救機制

ESP32-P4 是什麼?2026 用它做機器人的初學者完整指南，和一般 ESP32 差在哪、新手怎麼開始

我們公司怎麼跑出 20+ AI 流程？系列第 2 篇：排程治理 SOP，時間表、重試、報警、版本管控 4 維度 + 5 條紅線

Headless CMS 選型完整指南：Strapi / Sanity / Payload / Contentful / WordPress Headless 五條路徑 — 中小企業內容團隊 6 個決策、5 條合約紅線、3 個報價區間

A/B Testing 與 Feature Flags 採購完整指南：LaunchDarkly / Statsig / GrowthBook / Unleash / 自架四條路徑，中小企業老闆 6 個治理決策、5 條合約紅線、3 個報價區間

找外包做 AI 系統的 7 個坑：從 PoC 卡關到上線無法擴展，附 12 題檢核表

坑一：PoC 看起來很神，但 demo 用的不是你的真實資料

坑二：模型 ownership 不清楚，三年後想換廠商換不掉

坑三：API 成本沒算進報價，上線後 token 帳單比預期高 3 倍

坑四：精準度承諾沒寫清楚，驗收時各說各話

坑五：沒人接得上線後的維運，廠商把球丟回給你

坑六：擴展性沒設計，10 個用戶能用、500 個就掛

坑七：選了一家會做 AI 但沒做過你產業的廠商

PoC 開案前的自我檢核表：12 題答完再簽合約

一個真實案例：280 萬 PoC 的覆盤

找外包做 AI 系統最常問的 5 個問題

做對外包選擇，AI 系統才是資產，不是學費

留言(0)

想了解更多？看看我們的相關服務

AI 自動化顧問

企業形象網站架設

SEO 優化代操

需要網站系統架設或軟體開發？

相關文章

連很多 MCP 會不會很燒 token？AI 助理工具吃掉 context 的真相，與「有需要才載入」的 Tool Search 機制

我們公司怎麼跑出 20+ AI 流程？系列第 4 篇：客戶意向回收與 CRM 同步 SOP ， 4 個 trigger 點、3 條去重規則、2 條漏接補救機制

ESP32-P4 是什麼?2026 用它做機器人的初學者完整指南，和一般 ESP32 差在哪、新手怎麼開始

我們公司怎麼跑出 20+ AI 流程？系列第 2 篇：排程治理 SOP，時間表、重試、報警、版本管控 4 維度 + 5 條紅線

Headless CMS 選型完整指南：Strapi / Sanity / Payload / Contentful / WordPress Headless 五條路徑 — 中小企業內容團隊 6 個決策、5 條合約紅線、3 個報價區間

A/B Testing 與 Feature Flags 採購完整指南：LaunchDarkly / Statsig / GrowthBook / Unleash / 自架四條路徑 ， 中小企業老闆 6 個治理決策、5 條合約紅線、3 個報價區間

A/B Testing 與 Feature Flags 採購完整指南：LaunchDarkly / Statsig / GrowthBook / Unleash / 自架四條路徑，中小企業老闆 6 個治理決策、5 條合約紅線、3 個報價區間