

找外包做 AI Agent 系統,框架選錯光是返工成本就能燒掉 60 到 100 萬。LangGraph 適合 production-grade、複雜狀態流、人在迴路審核的企業系統;CrewAI 適合 6 到 8 週要跑出 PoC、團隊偏業務角色思考的場景;AutoGen / AG2 適合 Microsoft 全家桶綁 Azure OpenAI 的客戶;OpenAI Agents SDK 適合單供應商、輕運維、不想養平台團隊的中小企業。底下這篇是給你跟外包廠商簽約前的 5 維度決策框架,含對比表、預算區間、合約紅線、場景決策樹,看完你可以直接拿著問廠商。
如果你還沒搞清楚自己到底需不需要 Agent 系統、跟 RAG 或 Workflow 自動化的差別在哪,建議先看 Production RAG 系統 8 個關鍵技術選型決策 跟 找外包做 AI 系統的 7 個坑,再回來看本篇。
為什麼框架選錯,PoC 跑得動上線跑不動
先說一個我們去年下半年踩過的坑。某零售客戶想做訂單異常偵測 + 客服自動回覆的雙 Agent 系統,外包廠商兩週用 CrewAI 跑出 PoC,老闆當場拍板。等到要加「人工審核才能執行高額退款」這條人在迴路(Human-in-the-Loop)規則時,問題炸了——CrewAI 在那個版本的 checkpoint 機制還不夠成熟,agent state 沒辦法穩定存回再恢復。最後整個換到 LangGraph 重做狀態機,多花 3 個月、客戶情緒崩潰、廠商賠了一筆。
這其實是「選型沒對齊使用情境」的問題,與 CrewAI 本身的優劣無關。有一個數字很值得注意——根據 Towards AI 對 LangGraph、CrewAI、AutoGen 的對比分析,LangGraph 在 2026 上半年 GitHub stars 已正式超車 CrewAI,真正的原因是企業端把 production 等級的需求(audit trail、rollback、checkpointing)一股腦倒進這個生態系,社群行銷反而只是次要因素。換言之,PoC 階段的快感跟 production 階段的痛苦,本來就是兩件事。
這篇文章不教你寫 Agent,要教的是:你身為老闆或工程主管,外包廠商來提案時,怎麼從 5 個維度判斷他選的框架是不是真的合理,還是只是「他熟這個」。維度依序是:production readiness、學習曲線與團隊配置、多 Agent 協作複雜度、observability、vendor lock-in 風險。每個維度我們都會給對比表跟可以直接抄去問廠商的問題清單。
4 個主流框架的本質差異
先把名詞釐清。市面上 AI Agent 框架幾十個,但企業實務上能進到「該不該採購」這層討論的,大概就是這 4 個。每個我用三句話講清楚定位、強項、弱項,後面才好對比。
LangGraph:狀態機派,企業 production 的首選
LangGraph 是 LangChain 團隊 2024 年推出的 graph-based agent framework。把 agent 行為定義成有向圖(directed graph),每個節點是一個 step、邊是條件轉移。最大優勢是顯式狀態管理跟 checkpoint:agent 跑到一半斷電、被使用者中斷、要等人工審核,狀態可以序列化存進資料庫,下次接著跑。配套的 LangSmith observability 算是目前 agent 圈最成熟的除錯工具。
代價是學習曲線陡。工程師如果沒寫過狀態機(state machine)或熟悉 React Flow / XState 這類概念,第一週通常會卡在「為什麼我要把這個寫成 graph 不是一個 function」。團隊規模建議至少 1 個資深工程師 + 1 個中階工程師起跳,外包工期抓 8 到 12 週起。
CrewAI:角色化派,PoC 跑得最快
CrewAI 把 agent 抽象成「角色(Role)」——一個 agent 就是一個有 goal、有 backstory、有 tools 的虛擬員工,多個 agent 組成 crew,按照流程(sequential / hierarchical)協作。對於業務思考偏「我有一個團隊,每個人負責什麼」的老闆來說,CrewAI 的心智模型最直觀。文件清楚、社群活躍、Python 寫法簡潔,一個工程師兩三週可以跑出像樣的 PoC。
但 production readiness 仍在追趕。Checkpointing 跟 retry 機制沒有 LangGraph 成熟、observability 工具相對單薄、複雜的條件分支(譬如「如果客戶情緒分數低於 0.3 就交給主管 agent」)寫起來會繞。如果你的場景是「順序明確、不太需要中途人工介入、PoC 跑通就上線」,CrewAI 是性價比最高的選擇;反之要做動態工作流,後面會痛。
AutoGen / AG2:對話派,Microsoft 全家桶友善
AutoGen 是 Microsoft Research 2023 開源的 multi-agent framework,2025 年分支出社群驅動的 AG2。核心心智模型是「GroupChat」——多個 agent 在一個共享對話空間互相對話,由一個 manager agent 決定誰下一個發言。優勢是天生跟 Azure OpenAI、Microsoft 365、Copilot Studio 整合好,對 Microsoft 重壓的客戶來說省下大量串接時間。
缺點是「對話驅動」這件事本身對某些場景不直覺。如果你要做的是「資料庫查詢 → 計算 → 回寫」這種 deterministic 流程,硬塞到對話框架裡會增加 token 消耗、debug 難度。AG2 rewrite 後體質改善很多,但 production 案例累積仍少於 LangGraph。台灣中小企業要找 AutoGen 經驗的工程師也比 LangGraph 難找。
OpenAI Agents SDK:單供應商派,輕運維首選
OpenAI 2025 年推出的 Agents SDK(前身為 Swarm),主打「最簡單的 multi-agent」。寫法接近原生 Python decorator,跟 OpenAI 的 Responses API、Assistants、function calling、file search、code interpreter 深度整合。如果你的 AI 已經全押 OpenAI,這是最省整合工的選項。
但「單供應商派」這四個字就是雙面刃。Vendor lock-in 風險明顯——你的 prompt、tool 定義、memory 都跟 OpenAI 平台綁定,要切到 Anthropic 或開源模型成本不低。對中小企業老闆來說,這代表 OpenAI 漲價、改規則、停某個服務你只能照單全收。優勢是運維簡單、沒有平台組件要自己維護、上線快;劣勢是議價空間趨近於零。

5 維度決策框架:每個你都該問廠商一次
接下來這 5 個維度,是我們幫客戶評估外包提案時實際在跑的清單。每個維度都附上「該問廠商什麼」,建議直接複製到需求文件裡。
維度 1:Production Readiness(上線就緒度)
PoC 跑通到實際上線中間隔了什麼?checkpointing、retry 邏輯、human-in-the-loop、audit log、rollback。LangGraph 在這 5 項都有官方提供的標準解,CrewAI 跟 AutoGen 部分需要自己寫,OpenAI Agents SDK 大部分綁在 OpenAI 平台、不需要你管但也不能客製。問廠商一句話:「請列出你打算用哪個元件處理 agent 中斷後的狀態恢復,code 在哪裡。」如果廠商支吾或說「我們上線後再來補」,這個提案就值得重評。
維度 2:學習曲線與團隊配置(你能不能找到後續維運的工程師)
選一個框架不只是初版能不能交付,更是「未來 3 年誰來改它」。LangGraph 的曲線最陡,台灣懂 LangGraph 的資深工程師薪資中位數比 Python backend 高 30 到 50%;CrewAI 跟 OpenAI Agents SDK 容易入門、開放給中階工程師接手;AutoGen 經驗的工程師最稀缺。問廠商:「未來 12 個月如果我自己招工程師接手,市場上的人才供給跟薪資區間大概多少?」
維度 3:多 Agent 協作複雜度(你的場景需要幾個 agent 合作)
「我要做 AI 客服」是 1 個 agent;「我要做 AI 客服 + 訂單系統 + 內部知識庫 + 主管審核」是 4 個 agent 協作。Agent 數量超過 3 個、且彼此要動態協商任務的場景,CrewAI 跟 AutoGen 的 group chat 模式表達力較好;LangGraph 可以做但要寫更多 boilerplate;OpenAI Agents SDK 在 handoff 機制上 2025 年才補上、相對年輕。問廠商:「請畫出 agent 之間的協作圖,標註每個交接點的決策邏輯。」
維度 4:Observability(出問題你能不能查得到)
Agent 系統最痛的環節是 debug,寫的階段反而相對單純。上線後 agent 為什麼回了一個奇怪的答案、為什麼卡住、為什麼多花了 3 倍 token,沒有 trace 工具就是大海撈針。LangGraph 配 LangSmith 是目前最成熟的組合,可以 step-by-step 看到每個節點的輸入輸出、token 用量、延遲。CrewAI 有自家 dashboard 但深度不夠,AutoGen 要自己接 OpenTelemetry,OpenAI Agents SDK 倚賴 OpenAI Platform 的內建 trace(你看不到 OpenAI 端的問題)。問廠商:「請給我看一個過去專案的 trace 截圖,包含一個失敗 case 的 root cause 分析。」
維度 5:Vendor Lock-in 風險(要換掉這個框架有多痛)
框架本身是開源還是綁平台、模型支援度、工具呼叫協定是不是業界標準(譬如 MCP)、prompt 跟 memory 是不是可攜。OpenAI Agents SDK 鎖在 OpenAI 最緊;AutoGen 鎖 Microsoft / Azure 較緊;LangGraph 跟 CrewAI 模型不挑(Claude、Gemini、開源模型都可),但 LangGraph 跟 LangChain 生態系深度耦合、換掉要重寫不少。問廠商:「如果未來我要把底層 LLM 從 OpenAI 換成 Claude,這個系統需要改幾個檔案、預估工期多久?」
4 框架完整對比表:一張表決定方向
這張表是上面 5 個維度的縮影。建議列印貼在牆上跟外包簽約前對一次。
評估維度 | LangGraph | CrewAI | AutoGen / AG2 | OpenAI Agents SDK |
|---|---|---|---|---|
核心心智模型 | 狀態機 + 有向圖 | 角色化 crew | 對話式 GroupChat | Decorator-based handoff |
Production Readiness | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐(綁 OpenAI 平台) |
學習曲線 | 陡(需懂狀態機) | 低(業務直覺) | 中(要懂對話流) | 低(Python 原生) |
多 Agent 協作 | 可,但 boilerplate 多 | 最直觀 | 最自然 | 中等 |
Observability | LangSmith 業界最成熟 | 自家 dashboard 中等 | 需自接 OTel | OpenAI 內建(封閉) |
模型支援 | 全(多家 LLM) | 全 | 偏 OpenAI / Azure OpenAI | 僅 OpenAI |
Vendor Lock-in | 中(LangChain 生態系) | 低 | 中高(Azure 親和) | 最高 |
台灣工程師供給 | 中 | 中高 | 低 | 中高 |
適合場景 | 企業 production、人在迴路、合規重 | PoC 快、流程清楚、預算有限 | Microsoft 客戶、多 agent 對話 | OpenAI 全押、輕運維、單供應商 |
不適合場景 | PoC 快狠準、單一 agent | 複雜分支、長期 production | 非 Microsoft 環境、deterministic 流程 | 多供應商、低 vendor risk |
預算、工期與真實成本拆解
接下來談錢。以下價格區間是我們 2026 年 Q1 到 Q2 接觸過的真實報價(含我們自己接的案子跟同業參考),給你抓預算的參考。實際還是看複雜度,但這個範圍是「市場合理價」。
專案規模 | 典型場景 | LangGraph | CrewAI | AutoGen | OpenAI SDK | 工期 |
|---|---|---|---|---|---|---|
小型 PoC | 1-2 個 agent,單一工作流 | 60-120 萬 | 30-60 萬 | 45-90 萬 | 25-50 萬 | 6-10 週 |
中型 production | 3-5 agent,含人工審核、多渠道 | 180-350 萬 | 150-280 萬 | 200-350 萬 | 120-220 萬 | 3-5 個月 |
大型企業系統 | 5+ agent,多 tenant、RBAC、SOC2 | 450-900 萬 | 400-750 萬 | 500-900 萬 | 不建議單押 | 6-12 個月 |
年度維運費 | LLM 成本 + 工程師 + observability | 專案費 25-35% | 專案費 20-30% | 專案費 25-35% | 專案費 15-25% + OpenAI 帳單 | 持續 |
這張表有幾個老闆常忽略的點。第一,LangGraph 報價最貴的真正原因是工程師稀缺加 LangSmith 觀測平台費,而與授權成本無關。第二,OpenAI Agents SDK 看起來最便宜,但「OpenAI 帳單」這項變動極大——一個多 agent 系統一個月可能 50 萬、也可能 200 萬,取決於 prompt 設計跟 caching 策略,本來就難估。第三,年度維運費通常被低估。客戶常問「上線後是不是就沒事了」——其實還有持續成本,agent 系統的 token 成本、prompt 漂移、observability 工具訂閱,都是每月持續支出。
省錢小技巧
如果你的 PoC 預算不到 50 萬,先做「Workflow 自動化(n8n / Make / Zapier)+ 單 LLM 呼叫」就好,不要直接跳 multi-agent。我們看過太多客戶用 Agent 框架做的事,其實 n8n 加一個 GPT-4o 呼叫就解了,省 60% 預算。
找外包做 Agent 系統的 5 條合約紅線
接下來這 5 條,是我們看過外包契約裡最常出包的地方。建議簽約前把這 5 條對齊,後面省很多麻煩。
⚠️這 5 條沒寫進合約,後面糾紛機率破 60%
我們去年協助 2 個客戶處理外包糾紛,根因都在這 5 條沒明寫。建議直接拿去當合約附件。
紅線 1:框架選型必須附「未來替換成本」評估
廠商不能只說「我們用 OpenAI Agents SDK 因為快」就算交差。合約應該明訂:選此框架的理由、未來 12 個月若需切換模型供應商,預估工期跟費用區間。沒這條就是把 vendor lock-in 風險全壓到你身上。
紅線 2:observability 與 trace 資料的擁有權
用 LangSmith、Arize、LangFuse 這類觀測平台,trace 資料的擁有權該歸客戶,不是廠商。曾經有客戶要終止合約時才發現所有 production trace 都存在廠商的 LangSmith 帳號裡、拿不出來、要花錢買出口。合約應明訂:「所有 production 環境的 trace、log、metric 資料屬客戶,可隨時匯出,並於合約終止後 30 日內完整移交。」
紅線 3:Prompt、Tool 定義、Memory 結構的智財歸屬
Agent 系統最值錢的資產是長期迭代出來的 prompt、tool schema、memory 設計,code 反而是其次。這些是「Configuration 還是 Source Code」在合約裡常打模糊仗。建議直接寫:「所有 prompt 範本、tool 定義、memory schema、evaluation dataset 屬客戶所有,廠商不得在其他客戶複用未經授權的部分。」
紅線 4:失敗 case 的處理 SLA 與 fallback 策略
Agent 系統一定會有失敗 case——LLM 回了爛答案、tool call 超時、無限迴圈燒 token。合約該約定:失敗率超過 X% 時觸發什麼動作、token cost 超出預算 Y% 時自動 fallback 到哪個策略、誰負責 prompt regression 監控。沒這條,後面客戶會說「為什麼月帳單突然漲 3 倍」廠商說「啊我們沒約定要管這個」。
紅線 5:移交清單明確到「換廠商也能接手」
這條最容易省略,也最致命。合約結束時廠商該交付什麼,要列得跟搬家清單一樣細:source code + commit history、prompt 版本管理 repo、eval dataset、observability 帳號移轉、production secret 移交流程、知識轉移會議至少 N 小時。沒這條,下一家廠商接手會直接擺爛。可以參考 AI 系統外包 7 個坑 的檢核表。
場景對應建議:3 分鐘決策樹
把上面 5 個維度濃縮成一個流程。下面這張圖你照著走,9 成的中小企業 Agent 案子可以直接決定方向。
3 個常見情境拆給你看:
- 情境 A:B2B 公司想做 AI 客服 + 訂單查詢,1 個 agent,PoC 階段,預算 50 萬以下。→ OpenAI Agents SDK 或 CrewAI。
- 情境 B:金融 / 醫療客戶,3 個 agent 協作,必須人工審核高風險動作,要 audit log。→ LangGraph + LangSmith,無懸念。
- 情境 C:Microsoft 365 重壓 + Power Platform 已上線,想做內部知識 agent,5 個 agent 對話模式。→ AutoGen / AG2 + Azure OpenAI 最省整合。

上線後常見地雷與避坑清單
PoC 跑得動、demo 漂亮,上線一個月才發現一堆事。下面這 8 條是我們看過的真實地雷,順序按出現頻率排。
🚨上線前必跑這 3 個壓力測試
1) Token cost 滿載測試:模擬一天最大流量,看月帳單估算。2) Failover 測試:手動斷 OpenAI API,看系統有沒有 fallback。3) Eval regression:跑完 golden dataset,準確率不能比 PoC 階段掉超過 5%。
怎麼挑能交付的廠商:3 條快速判斷
最後一段,給你一個快速篩選 AI 外包廠商的清單。我們看過太多廠商履歷漂亮、Agent 系統做不出來的案例。3 條起手:
- 看他過去的 trace 截圖:能秀出 production case 的 LangSmith / Arize / LangFuse trace(含失敗 case 的根因分析),證明他真的跑過。
- 看他評估架構的方法:請廠商現場用本文的 5 維度回答你的場景,含不通的問題答得出取捨。只會說「我們用 OpenAI 因為強」的廠商,後面合約很難約束。
- 看他的維運交接 SOP:請看一份過去案子的交接文件樣本(去識別化)。沒準備的廠商,就是把客戶當下家。
恆遠在 AI Agent 系統的角色比較單純——我們不接 PoC 快速包,因為 PoC 燒得起的客戶通常自己團隊也能搞;我們專做「PoC 已驗證、要上 production」的階段,幫客戶把架構、observability、合約紅線一次做齊。如果你正在評估外包,先看 AI 系統諮詢與導入 服務頁,再看 企業 AI 導入完整指南 對齊心智模型,然後直接約我們聊。
常見問題 FAQ
Q我預算只有 30 萬,4 個框架我該選哪個?
30 萬以下的預算通常做不到完整 multi-agent production。建議先用 n8n / Zapier 做 workflow 自動化加單一 GPT 呼叫,或選 CrewAI / OpenAI Agents SDK 做最小 PoC。預算到位再升級到 LangGraph。
QLangGraph 那麼難學,廠商會不會故意推這個收高價?
確實有這個現象。判斷方式是請廠商解釋「為什麼你的場景一定要用 LangGraph」。如果你的需求是 1 個 agent、不需要人工審核、沒有合規要求,廠商還硬推 LangGraph,可能是想多收工。簡單場景優先考慮 CrewAI 或 OpenAI Agents SDK。
QAutoGen 跟 AG2 是什麼關係?哪個比較穩?
AutoGen 是 Microsoft Research 原版,2025 年部分核心開發者分支出社群驅動的 AG2。目前 AG2 迭代速度較快、社群活躍,但 production 案例累積仍少;AutoGen 主線跟 Microsoft 生態系整合更深。Azure / Microsoft 客戶優先 AutoGen,社群路線優先 AG2。
Q為什麼不直接用 LangChain 不用 LangGraph?
LangChain 是上一代的「鏈式」框架,適合 prompt chain 跟 RAG,但對 stateful agent 表達力不足。LangGraph 是 LangChain 團隊推出的下一代狀態機框架,agent 場景應該直接選 LangGraph。LangChain 用在 RAG retrieval 跟 tool 抽象上仍很合理。
Q本土廠商(台灣)懂這 4 個框架的多嗎?
依我們的觀察,CrewAI 跟 OpenAI Agents SDK 的台灣工程師供給最多(中高),LangGraph 中等、有經驗的資深工程師薪資較高,AutoGen 最稀缺。如果預算敏感、又想要 production 等級,CrewAI 是性價比最高的折衷。
Q我能不能同時用兩個框架?例如 LangGraph 加 CrewAI
技術上可以但不推薦。兩個框架的狀態管理、observability、debugging 工具都不同,混用會大幅增加維運複雜度。比較合理的是:用 LangGraph 當主框架管狀態,把 CrewAI 的「角色化思維」拿來做 prompt 設計、實作仍走 LangGraph。
下一步:拿這份清單去問廠商
這篇文章你可以直接當需求文件用。把對比表、5 維度問題清單、5 條合約紅線印出來,下次跟外包提案會議帶去。如果廠商有 3 個以上問題答不上來,就再多看一家。
如果你已經在做 PoC、準備上 production,或上線後遇到我們文中提到的地雷,歡迎跟我們聊一聊。恆遠專做「AI Agent 系統 production 化」的階段,提供架構評估、合約紅線審閱、observability 落地、廠商交接協助。第一次諮詢免費,我們先聽你的場景,再判斷需不需要進到正式合作。預約方式請看 AI 諮詢服務。
延伸閱讀
AUTHOR
自由揚John
想了解更多?看看我們的相關服務
相關文章

ESP32 機械手臂視覺辨識夾取完整指南:運算放哪、手臂怎麼選、模型用哪個

手機 NFC 加 ESP32 能做打卡系統嗎?初學者從零動手做完整指南

廠商換手「接手第一週」SOP:6 個治理動作、5 條合約條款、4 個決勝點,中小企業老闆把新外包團隊從『簽約即冷感』變『第一週就上軌道』

軟體授權憑證是什麼?離線軟體包防盜版與授權驗證機制入門指南

連很多 MCP 會不會很燒 token?AI 助理工具吃掉 context 的真相,與「有需要才載入」的 Tool Search 機制

留言(0)
尚無留言,成為第一個留言的人吧!