AI Agent 評估方法論：6 KPI、3 陷阱、90 天驗收清單（2026）

AI Agent 評估儀表板示意圖—KPI、量測、驗收清單

我們公司自己每天在跑 20+ 個 AI 流程——客服分流、報價草稿、合約初校、會議摘要、廣告素材生成都在裡面。但去年下半年我們踩過一個坑：有個內部 agent 在 demo 看起來表現很好，上線三個月才發現，它把 30% 的客戶問題分到「人工」隊列裡，等於沒有省到人。當時我們是怎麼發現的？不是 dashboard 告訴我們的，是業務同事抱怨「最近回工單變多了」。

這是一個很多中小企業老闆現在會遇到的問題——你導入了 AI，工程師說「跑起來了」，業務說「還行」，但你看著每月 $50k–200k 的 API 帳單，不知道該繼續加碼、還是該收手。問題不在 AI 本身，是在「怎麼驗收一個 AI 系統」這件事，多數團隊根本沒有方法論。

有一個數字很值得注意——Boston Consulting Group 2026 年初的調查 顯示，74% 的企業導入 AI 一年後無法明確指出哪一塊有商業價值；只有 5% 的公司能把 AI 投資跟具體 P&L 數字對得起來。意思是——大多數公司是 AI 帳單照付、但沒人能告訴老闆「這筆錢花得值不值」。Gartner 也在 2026 AI Forecast 預測，2027 年底前會有 40% 的 agentic AI 專案被取消，主因是「成本失控與商業價值不明」——不是技術不行，是驗收沒人會做。

這篇要拆解的是：身為老闆 / 採購評估者，怎麼用 6 個 KPI、3 個量測陷阱、跟一份 90 天驗收清單，把「AI 是不是真的省到人」這個問題搞清楚。不是個人怎麼用 ChatGPT 那種文章——是企業這個層級該怎麼建立驗收紀律，讓你下季要不要繼續投錢、是延伸到第二個流程、還是收手轉做別的，能有 data 可以依靠。

如果你剛要導入 AI、還在挑廠商階段，可以先看我們之前寫的 你的公司還不該導入 AI 的 5 個訊號 跟 AI 導入的 ROI 怎麼算？95% 企業踩過的 5 個陷阱與正確評估框架。這篇處理的是「已經導入 3-6 個月後，要怎麼用 data 判斷它有效沒效」的下半場問題。

為什麼 AI 系統不能用「軟體驗收」那套做

傳統 SaaS 驗收看三件事——功能能不能跑、UI 對不對、SLA 有沒有達標。但 AI 系統不是 deterministic 的軟體：同一個 prompt、同一份知識庫、同一個模型，今天回答 A，下週可能回答 A'。verifier 通不過？沒辦法用「功能規格表」打勾。

我們的看法是——AI 系統的驗收本質上是「量測一個機率分布」，不是「驗證一個合約」。同樣的問題你問 100 次，agent 答對 92 次叫「92% accuracy」；軟體規格從來不會說「這個按鈕 92% 的時候會 work」——但 AI 的世界就是這樣。所以驗收標準必須轉成統計指標：accuracy、faithfulness、cost、latency、coverage 這幾個都要有 baseline、有區間、有趨勢，不是單一 yes/no 通過。

這跟為什麼很多公司導入 AI 一年後說不清楚「值不值」——他們把 AI 當作客製化系統驗收，工程師說「跑起來了」就結案。結果三個月後業務抱怨變多、客訴上升、但沒人有 data 證明這跟 AI 有沒有關係。驗收標準在第一天就錯了。

我們不認同「先導入再說、邊跑邊調」這種 AI 採購觀——這在 2023 年那種「ChatGPT 才剛出、大家都在試」的時候講得通，2026 年 agent 採購已經成熟到能算 unit economics 的階段。如果你今天打算花超過 $200k 在 AI 系統上、卻沒事先定義 6 個 KPI 跟驗收門檻——這筆錢就是賭博，不是投資。

AI agent 驗收的 6 個 KPI（中小企業實際用得到的那種）

把 ML 領域的學術 metric 直接搬到中小企業驗收用不大對——precision/recall 那一套講的是 model 層級，老闆要看的是「業務層級」結果。我們在內部跑 20+ AI 流程、跟客戶評估系統的過程中，逐漸收斂成下面這 6 個。每個都有「老闆能看的版本」+「技術能量的版本」+「驗收門檻建議」。

KPI	老闆問法	技術定義	中小企業驗收門檻
Task Success Rate	這 100 個案子 AI 真的幫我處理完幾個？	Agent 從 user 提問到產出可用結果（不需人工接手）的比例	上線 1 個月達 70%、3 個月達 85%
Faithfulness（不亂講）	AI 講的東西能不能信？	輸出內容能在知識庫 / 資料源找到支撐證據的比例	≥ 95%（任何低於這個門檻的客服 / 醫療 / 法務 agent 都不能上線）
Human-in-the-Loop Rate	我同事還要花多少時間救 AI？	需要人工 review / 修改 / 接手的比例	≤ 15%；超過就代表 agent 沒省到人
Cost per Successful Task	每完成一個案子花多少 API 錢？	(LLM token 成本 + tool call 成本) / 成功完成數	視場景：客服 < $0.3、合約初校 < $5、複雜分析 < $20
Latency P95	最慢那 5% 案子要等多久？	95 percentile 的 end-to-end 回應時間	客服 < 8 秒、Async 工作流 < 5 分鐘
Coverage / Scope Creep	AI 真的處理我說好的那批案子嗎？	進入 agent 的案子裡，符合預設 scope 的比例	≥ 90%；低於代表 routing 或 prompt 沒對齊

這 6 個的關係是——前 3 個（success rate / faithfulness / HITL rate）回答「品質夠不夠」；中間 1 個（cost per task）回答「划不划算」；後 2 個（latency / coverage）回答「規模化會不會炸」。少了任何一條都不算完整。

ℹ️為什麼不直接看 ROI 就好

ROI 是後驗指標——它告訴你「上一季 AI 賺了多少 / 省了多少錢」，但不會告訴你「下一季要不要繼續投」。當 ROI 看起來不錯時，可能是 success rate 高但 HITL rate 也高（同事辛苦撐起來的、伸縮不了）；當 ROI 看起來很差時，也可能是 cost per task 偏高、但 success rate 跟 faithfulness 都健康（換個模型就能拉起來）。先看 6 個 leading indicator、再算 ROI，順序對了才有意義。

3 個量測陷阱：你的 dashboard 為什麼會騙你

陷阱一：用 demo case 算 accuracy

最常見的踩坑——驗收時拿工程師當初測試的那 50 個 case 跑回歸，accuracy 報 95%，老闆簽核上線。問題是這 50 個 case 是工程師反覆調 prompt 調出來的，它跟真實業務 distribution 差很遠。我們看過一家電商客服系統，內部測試 96%，上線兩週 dashboard 顯示 73%——差距就是 demo case 跟真實 case 的 distribution gap。

正確做法：驗收前先抽 200-500 個 近 30 天的真實業務樣本 作為 holdout set，不讓工程師看到、不讓 prompt 針對性調整。上線後拿真實樣本跑，accuracy 才是真實的 baseline。

陷阱二：把 LLM 自己當 judge

為了省時間，很多團隊讓另一個 LLM 來打分數——叫 LLM-as-a-judge。聽起來合理，實際上有兩個問題：第一，judge model 跟 generator model 用同一家（例如都用 Claude）會有「家族偏好」，judge 系統性地給自家模型較高分；第二，judge 本身有 hallucination，你會疊兩層幻覺。

能用 LLM-as-a-judge 嗎？可以，但要做兩件事：(a) judge 用跟 generator 不同家的模型（generator Claude → judge GPT-5 或反之）；(b) 每月抽 10% sample 給人工 review 跟 judge 結果對齊，calibrate。光抓 Anthropic 自家 evals cookbook 跟 Hamel Husain 廣為流傳的 LLM evals 三層架構 來看，就知道這套不是隨便跑跑的——industry best practice 都強調 human-LLM correlation 必須 calibrate。

陷阱三：忽略 cost 趨勢

Cost per task 很多 dashboard 只看「本月平均」——但這數字會被 outlier 拉得很離譜：某個複雜案子可能花 $50（重試 5 次、用了長 context），蓋過 100 個正常案子。我們的建議是——一定要追 P95 跟 P99 cost，並且每週看一次趨勢。如果 P95 cost 連續 3 週上升、平均沒動，代表 long tail 案子越來越貴——通常是 prompt 變長、context window 用滿、或 retry policy 過寬，都該回頭看。

90 天驗收清單：怎麼從 day 1 跑到能下決策

光講 KPI 沒用，要把它變成可以照表操課的時程。下面這份 90 天清單是我們內部 ai-consult 服務在帶客戶驗收時的版本——按週節奏推進、每階段都有交付物、每階段都有可以「叫停」的紅線。

階段	週數	重點動作	交付物 / 紅線
Phase 0 — Baseline 建立	Week -2 ~ 0	抽 200-500 真實樣本當 holdout、定義 6 個 KPI 門檻、設定 cost ceiling	Eval 樣本集 + KPI dashboard 雛形；紅線：拿不出 holdout = 不准上線
Phase 1 — Shadow Mode	Week 1-2	Agent 跑在 production traffic 上但 output 不對外、只記 log 對照真人處理	Shadow 期間 success rate + faithfulness 報告；紅線：faithfulness < 90% 直接打回工程
Phase 2 — Canary 5%	Week 3-4	5% 流量導 agent、95% 走原流程，每日對照 KPI	Cost per task + HITL rate 雙週報；紅線：HITL > 25% 退回 shadow
Phase 3 — Ramp 25% → 50%	Week 5-8	逐週擴大到 50%，每週 KPI review、抓回歸	P95 latency + Coverage 趨勢報告；紅線：任一 KPI 連續 2 週下滑、回 25%
Phase 4 — Full Ramp + 季度復盤	Week 9-12	100% 流量 + 計算實際 ROI、決定是否擴第二條流程	季度 ROI 報告 + 廠商 KPI 對賬；紅線：實際省下人時 < 預估 50%、季底會議重審

這份清單看起來像是「ML team 的工作」——但對中小企業老闆來說，要看的是「廠商 / 工程師有沒有照這個節奏做」。如果你的 AI 供應商給你的時程是「兩週上線、後續再調」，這條紅線就過了——回頭問他們 holdout 怎麼抽、faithfulness 怎麼量、cost ceiling 設多少。問不出來就是該換廠商，不是該下單。

⚠️你正在這條時程的哪個位置？

如果你的 agent 已經上線 3-6 個月、但你回答不出 (a) 上線前 holdout 怎麼定的、(b) 上一季 faithfulness 數字、(c) cost per task P95——代表你跳過了 Phase 0-2，現在處在「黑盒子上線」狀態。這時候要做的不是繼續加大投資，是退一步回去補 baseline。我們做過幾個 AI 系統重新驗收的案子，退回去補一次比繼續往前撞牆便宜多了。

不同行業的 KPI 門檻怎麼調

上面講的 KPI 門檻是中位數版本——實際依產業要調整。下面整理我們在不同行業看過的調校方向，給你做為對廠商提案時的參考標準。沒對應你產業的就抓最像的那條當基準。

產業 / 場景	Task Success Rate 門檻	Faithfulness 門檻	HITL Rate 門檻	Cost per Task 上限
電商客服分流	≥ 85%	≥ 92%	≤ 15%	$0.2
醫療 / 法務文件初校	≥ 75%	≥ 98%（嚴格）	≤ 25%（高品控）	$3-8
製造業 SOP 查詢 / 工單分類	≥ 88%	≥ 95%	≤ 10%	$0.5
報價 / 合約草稿生成	≥ 70%（半自動）	≥ 90%	≤ 30%（業務必審）	$2-5
內部知識庫問答	≥ 80%	≥ 93%	≤ 20%	$0.3
行銷 / 廣告素材生成	≥ 60%（創意彈性）	N/A（品味判斷）	≤ 50%	$1-3

特別講一下醫療 / 法務跟行銷兩端——Faithfulness 在合規敏感場域要拉到 98%+、且任何「降低 HITL rate」的動作都要先跟合規對齊，因為這兩個產業的失敗成本不是「客戶不爽」，是「法律責任」。反過來看行銷素材生成，success rate 看起來可以放鬆到 60%——但這 60% 的定義要寫清楚是「人工 review 後可採用」還是「直接發佈」，差很多。

我們做過一家 電商品牌客戶的 AI 智慧客服系統（化名某美妝電商），上線時參考了上面 Phase 0-4 的節奏，第 12 週復盤時 task success rate 達 87%、faithfulness 94%、HITL rate 11%、cost per task $0.23——客服團隊縮編 1.5 名人力同時 SLA 從 4 小時縮到 35 分鐘。但同樣那套 framework 給另一家 製造業生產力管理系統 用時，因為 SOP 文件複雜度高，第 8 週的 faithfulness 卡在 88% 一直拉不上去，最後在 Phase 2 stop、回去先補知識庫結構化才繼續。同樣框架、不同結果——這就是為什麼要看 leading indicator 而不是只看上線時間。

廠商提案怎麼看：5 個必問問題

如果你正在挑 AI 系統開發 / agent 顧問廠商，下面 5 個問題是進評估會議前一定要問出口的。問不出來、答不漂亮的 → 直接 pass，不要被「demo 跑得好」迷惑。

#	必問問題	好答案長相	危險答案
1	你會用什麼方法定義 holdout eval set？	從近 30-90 天 production log 隨機抽 N 件、不讓 prompt 看到、每月更新一次	「我們用 demo case」「上線後再說」
2	Faithfulness 怎麼量？	至少兩種：(a) Retrieval 證據對齊比例、(b) LLM-as-judge + 月度人工 calibrate	「靠人工抽 review」「客戶覺得好就好」
3	Cost ceiling 怎麼設？超過怎麼辦？	Per-task cost P95 上限 + 自動觸發 fallback 到便宜模型 / 拒絕高 cost 案子	「依用量計費」「不確定」
4	Shadow → canary → ramp 的流量比例與停損點？	明確百分比 + 每階段 KPI 紅線 + 自動回滾機制	「先上線再說」「兩週後就 100%」
5	三個月後驗收沒過怎麼處理？	退費 / 退階段 / 補 baseline 重做、合約寫死	「我們會努力」「再追加預算」

第 5 題尤其關鍵——大部分廠商在合約裡只寫「上線」當交付條件，不寫「驗收門檻」當付款條件。這對買方來說等於放掉所有 leverage。建議 企業 GEO 採購指南那篇講的合約紅線 同樣適用——把 KPI 跟付款進度綁在一起、廠商沒達門檻 = 沒拿到尾款，這是最有效的 alignment。

看到這裡，如果你公司已經導入 AI 系統 3-6 個月、但目前說不清楚這 6 個 KPI 的 baseline 是多少——可以把現況丟過來，我們 聽你聊聊現在這個 agent 跑成什麼樣，一起看看是該補 baseline、是該換廠商、還是該擴第二條流程。

ℹ️我們做過這件事

順帶說一下，這篇講的方法我們公司自己每天都在跑——目前內部就有 20+ 個 AI 流程在工作中（客服分流、報價草稿、合約初校、會議摘要、廣告素材生成等），每個都有對應的 success rate / cost / HITL dashboard。

我們做過一家電商品牌的 AI 智慧客服系統——用上面講的 Phase 0-4 節奏 12 週做完，客服團隊縮編 1.5 名人力、SLA 從 4 小時縮到 35 分鐘；也做過一家製造業生產力管理系統，因為 SOP 結構化沒做夠，Phase 2 stop 回頭補 baseline 才繼續，這經驗就是上面 Phase 0 紅線那條怎麼來的。

看到這裡，如果你也在想「這套放在我們公司會是什麼樣子」——我們很樂意聽你聊聊現在的實際情況，一起看看哪些做得起來、能從哪一塊開始。

ℹ️我們怎麼看

Agent 評估現在像 2010 年的前端工程——大家都覺得「能跑就好」，3 年後會分成兩種公司：把 agent 當「demo 工具」的，每年付一堆 API 帳單但答不出 unit economics；把 agent 當「工程方法」的，每個 agent 上線前先量、上線後持續量、KPI 跟付款綁在一起。我們的取捨是後者——因為前者那條路會在 ROI 質詢進來的那一天卡住。

對中小企業老闆而言，現在不需要急著挑最炫的 framework，但要開始問自己一件事：「我們公司現在跑的這個 agent，下一季 KPI 該是多少、達不到怎麼辦？」答得出來，後面挑廠商、加碼、收手都會有依據；答不出來，再多投錢只是把問題延後。

Q我公司還沒導入 AI，這份驗收清單還用得到嗎？

用得到——而且建議在簽合約前就拿這份去問廠商。Phase 0-4、6 個 KPI、5 個必問問題，全部都可以變成廠商提案評估表。沒提到的廠商或回答不上來的，直接 pass。

Q中小企業沒有資料科學家，這些 KPI 量得起來嗎？

Success rate / HITL rate / cost per task 三個從 production log 直接撈就能算，不需要 data scientist。Faithfulness 跟 P95 latency 需要工程資源 setup 一次後續會自動跑——好的廠商應該把這幾個 dashboard 列為標準交付，不是要你另外付錢。如果廠商把這當「客製化加值」收費，這本身就是個訊號。

QLLM-as-a-judge 真的不能用嗎？

可以用、但要 calibrate——(a) judge 用跟 generator 不同家的模型避免家族偏好、(b) 每月抽 10% 人工 review 跟 judge 結果對齊。完全不能用的場域是醫療 / 法務這種 faithfulness 要 98%+ 的，那種一定要人工 review、不能讓另一個 LLM 簽核。

Q我們花 6 個月做了一個 agent，現在發現 KPI 量得很差怎麼辦？

退回 Phase 0 補 baseline 比繼續加碼便宜。具體做法是停掉 prompt 持續調整、抽 holdout、量現況 baseline、訂下季 KPI 目標、再決定是 (a) 換模型、(b) 換 RAG 架構、(c) 縮 scope。我們做過幾個這類「重新驗收」的案子，通常 4-6 週就能撈回 traction。

QCost per task $0.3 看起來很便宜、為什麼還要設 ceiling？

因為 long tail 案子會吃預算。平均 $0.3 但 P95 可能 $5、P99 可能 $30——一個月 10 萬筆案子，long tail 佔總成本可能超過 40%。Ceiling 不是省錢，是讓你提早看到「這個 use case 越來越貴」的訊號、好決定要不要縮 scope。

如果這篇有用，再延伸三篇相關的：製造業 AI 工作流完整指南（5 場景 SOP + 90 天落地路線圖）、Dify / Sim / Coze Studio 三家開源視覺化 Agent Builder 完整實測、AI 導入的 ROI 怎麼算？5 個陷阱與正確評估框架。三篇加上這一篇，從規劃 → 選 framework → ROI 估算 → 驗收量測，一條線整理完。