老闆決策 AI 與自動化系統與軟體開發 AI 導入策略 AI Agent / LLM 接系統

AI Agent 框架選型完整指南：LangGraph、CrewAI、AutoGen、OpenAI Agents SDK 老闆與工程主管 5 維度決策框架

自由揚John2026年5月18日約 18 分鐘閱讀

複製引文

AI Agent 框架選型決策

找外包做 AI Agent 系統，框架選錯光是返工成本就能燒掉 60 到 100 萬。LangGraph 適合 production-grade、複雜狀態流、人在迴路審核的企業系統；CrewAI 適合 6 到 8 週要跑出 PoC、團隊偏業務角色思考的場景；AutoGen / AG2 適合 Microsoft 全家桶綁 Azure OpenAI 的客戶；OpenAI Agents SDK 適合單供應商、輕運維、不想養平台團隊的中小企業。底下這篇是給你跟外包廠商簽約前的 5 維度決策框架，含對比表、預算區間、合約紅線、場景決策樹，看完你可以直接拿著問廠商。

如果你還沒搞清楚自己到底需不需要 Agent 系統、跟 RAG 或 Workflow 自動化的差別在哪，建議先看 Production RAG 系統 8 個關鍵技術選型決策 跟 找外包做 AI 系統的 7 個坑，再回來看本篇。

為什麼框架選錯，PoC 跑得動上線跑不動

先說一個我們去年下半年踩過的坑。某零售客戶想做訂單異常偵測 + 客服自動回覆的雙 Agent 系統，外包廠商兩週用 CrewAI 跑出 PoC，老闆當場拍板。等到要加「人工審核才能執行高額退款」這條人在迴路（Human-in-the-Loop）規則時，問題炸了——CrewAI 在那個版本的 checkpoint 機制還不夠成熟，agent state 沒辦法穩定存回再恢復。最後整個換到 LangGraph 重做狀態機，多花 3 個月、客戶情緒崩潰、廠商賠了一筆。

這其實是「選型沒對齊使用情境」的問題，與 CrewAI 本身的優劣無關。有一個數字很值得注意——根據 Towards AI 對 LangGraph、CrewAI、AutoGen 的對比分析，LangGraph 在 2026 上半年 GitHub stars 已正式超車 CrewAI，真正的原因是企業端把 production 等級的需求（audit trail、rollback、checkpointing）一股腦倒進這個生態系，社群行銷反而只是次要因素。換言之，PoC 階段的快感跟 production 階段的痛苦，本來就是兩件事。

這篇文章不教你寫 Agent，要教的是：你身為老闆或工程主管，外包廠商來提案時，怎麼從 5 個維度判斷他選的框架是不是真的合理，還是只是「他熟這個」。維度依序是：production readiness、學習曲線與團隊配置、多 Agent 協作複雜度、observability、vendor lock-in 風險。每個維度我們都會給對比表跟可以直接抄去問廠商的問題清單。

4 個主流框架的本質差異

先把名詞釐清。市面上 AI Agent 框架幾十個，但企業實務上能進到「該不該採購」這層討論的，大概就是這 4 個。每個我用三句話講清楚定位、強項、弱項，後面才好對比。

LangGraph：狀態機派，企業 production 的首選

LangGraph 是 LangChain 團隊 2024 年推出的 graph-based agent framework。把 agent 行為定義成有向圖（directed graph），每個節點是一個 step、邊是條件轉移。最大優勢是顯式狀態管理跟 checkpoint：agent 跑到一半斷電、被使用者中斷、要等人工審核，狀態可以序列化存進資料庫，下次接著跑。配套的 LangSmith observability 算是目前 agent 圈最成熟的除錯工具。

代價是學習曲線陡。工程師如果沒寫過狀態機（state machine）或熟悉 React Flow / XState 這類概念，第一週通常會卡在「為什麼我要把這個寫成 graph 不是一個 function」。團隊規模建議至少 1 個資深工程師 + 1 個中階工程師起跳，外包工期抓 8 到 12 週起。

CrewAI：角色化派，PoC 跑得最快

CrewAI 把 agent 抽象成「角色（Role）」——一個 agent 就是一個有 goal、有 backstory、有 tools 的虛擬員工，多個 agent 組成 crew，按照流程（sequential / hierarchical）協作。對於業務思考偏「我有一個團隊，每個人負責什麼」的老闆來說，CrewAI 的心智模型最直觀。文件清楚、社群活躍、Python 寫法簡潔，一個工程師兩三週可以跑出像樣的 PoC。

但 production readiness 仍在追趕。Checkpointing 跟 retry 機制沒有 LangGraph 成熟、observability 工具相對單薄、複雜的條件分支（譬如「如果客戶情緒分數低於 0.3 就交給主管 agent」）寫起來會繞。如果你的場景是「順序明確、不太需要中途人工介入、PoC 跑通就上線」，CrewAI 是性價比最高的選擇；反之要做動態工作流，後面會痛。

AutoGen / AG2：對話派，Microsoft 全家桶友善

AutoGen 是 Microsoft Research 2023 開源的 multi-agent framework，2025 年分支出社群驅動的 AG2。核心心智模型是「GroupChat」——多個 agent 在一個共享對話空間互相對話，由一個 manager agent 決定誰下一個發言。優勢是天生跟 Azure OpenAI、Microsoft 365、Copilot Studio 整合好，對 Microsoft 重壓的客戶來說省下大量串接時間。

缺點是「對話驅動」這件事本身對某些場景不直覺。如果你要做的是「資料庫查詢 → 計算 → 回寫」這種 deterministic 流程，硬塞到對話框架裡會增加 token 消耗、debug 難度。AG2 rewrite 後體質改善很多，但 production 案例累積仍少於 LangGraph。台灣中小企業要找 AutoGen 經驗的工程師也比 LangGraph 難找。

OpenAI Agents SDK：單供應商派，輕運維首選

OpenAI 2025 年推出的 Agents SDK（前身為 Swarm），主打「最簡單的 multi-agent」。寫法接近原生 Python decorator，跟 OpenAI 的 Responses API、Assistants、function calling、file search、code interpreter 深度整合。如果你的 AI 已經全押 OpenAI，這是最省整合工的選項。

但「單供應商派」這四個字就是雙面刃。Vendor lock-in 風險明顯——你的 prompt、tool 定義、memory 都跟 OpenAI 平台綁定，要切到 Anthropic 或開源模型成本不低。對中小企業老闆來說，這代表 OpenAI 漲價、改規則、停某個服務你只能照單全收。優勢是運維簡單、沒有平台組件要自己維護、上線快；劣勢是議價空間趨近於零。

LangGraph CrewAI AutoGen 對比

5 維度決策框架：每個你都該問廠商一次

接下來這 5 個維度，是我們幫客戶評估外包提案時實際在跑的清單。每個維度都附上「該問廠商什麼」，建議直接複製到需求文件裡。

維度 1：Production Readiness（上線就緒度）

PoC 跑通到實際上線中間隔了什麼？checkpointing、retry 邏輯、human-in-the-loop、audit log、rollback。LangGraph 在這 5 項都有官方提供的標準解，CrewAI 跟 AutoGen 部分需要自己寫，OpenAI Agents SDK 大部分綁在 OpenAI 平台、不需要你管但也不能客製。問廠商一句話：「請列出你打算用哪個元件處理 agent 中斷後的狀態恢復，code 在哪裡。」如果廠商支吾或說「我們上線後再來補」，這個提案就值得重評。

維度 2：學習曲線與團隊配置（你能不能找到後續維運的工程師）

選一個框架不只是初版能不能交付，更是「未來 3 年誰來改它」。LangGraph 的曲線最陡，台灣懂 LangGraph 的資深工程師薪資中位數比 Python backend 高 30 到 50%；CrewAI 跟 OpenAI Agents SDK 容易入門、開放給中階工程師接手；AutoGen 經驗的工程師最稀缺。問廠商：「未來 12 個月如果我自己招工程師接手，市場上的人才供給跟薪資區間大概多少？」

維度 3：多 Agent 協作複雜度（你的場景需要幾個 agent 合作）

「我要做 AI 客服」是 1 個 agent；「我要做 AI 客服 + 訂單系統 + 內部知識庫 + 主管審核」是 4 個 agent 協作。Agent 數量超過 3 個、且彼此要動態協商任務的場景，CrewAI 跟 AutoGen 的 group chat 模式表達力較好；LangGraph 可以做但要寫更多 boilerplate；OpenAI Agents SDK 在 handoff 機制上 2025 年才補上、相對年輕。問廠商：「請畫出 agent 之間的協作圖，標註每個交接點的決策邏輯。」

維度 4：Observability（出問題你能不能查得到）

Agent 系統最痛的環節是 debug，寫的階段反而相對單純。上線後 agent 為什麼回了一個奇怪的答案、為什麼卡住、為什麼多花了 3 倍 token，沒有 trace 工具就是大海撈針。LangGraph 配 LangSmith 是目前最成熟的組合，可以 step-by-step 看到每個節點的輸入輸出、token 用量、延遲。CrewAI 有自家 dashboard 但深度不夠，AutoGen 要自己接 OpenTelemetry，OpenAI Agents SDK 倚賴 OpenAI Platform 的內建 trace（你看不到 OpenAI 端的問題）。問廠商：「請給我看一個過去專案的 trace 截圖，包含一個失敗 case 的 root cause 分析。」

維度 5：Vendor Lock-in 風險（要換掉這個框架有多痛）

框架本身是開源還是綁平台、模型支援度、工具呼叫協定是不是業界標準（譬如 MCP）、prompt 跟 memory 是不是可攜。OpenAI Agents SDK 鎖在 OpenAI 最緊；AutoGen 鎖 Microsoft / Azure 較緊；LangGraph 跟 CrewAI 模型不挑（Claude、Gemini、開源模型都可），但 LangGraph 跟 LangChain 生態系深度耦合、換掉要重寫不少。問廠商：「如果未來我要把底層 LLM 從 OpenAI 換成 Claude，這個系統需要改幾個檔案、預估工期多久？」

4 框架完整對比表：一張表決定方向

這張表是上面 5 個維度的縮影。建議列印貼在牆上跟外包簽約前對一次。

評估維度	LangGraph	CrewAI	AutoGen / AG2	OpenAI Agents SDK
核心心智模型	狀態機 + 有向圖	角色化 crew	對話式 GroupChat	Decorator-based handoff
Production Readiness	⭐⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐（綁 OpenAI 平台）
學習曲線	陡（需懂狀態機）	低（業務直覺）	中（要懂對話流）	低（Python 原生）
多 Agent 協作	可，但 boilerplate 多	最直觀	最自然	中等
Observability	LangSmith 業界最成熟	自家 dashboard 中等	需自接 OTel	OpenAI 內建（封閉）
模型支援	全（多家 LLM）	全	偏 OpenAI / Azure OpenAI	僅 OpenAI
Vendor Lock-in	中（LangChain 生態系）	低	中高（Azure 親和）	最高
台灣工程師供給	中	中高	低	中高
適合場景	企業 production、人在迴路、合規重	PoC 快、流程清楚、預算有限	Microsoft 客戶、多 agent 對話	OpenAI 全押、輕運維、單供應商
不適合場景	PoC 快狠準、單一 agent	複雜分支、長期 production	非 Microsoft 環境、deterministic 流程	多供應商、低 vendor risk

預算、工期與真實成本拆解

接下來談錢。以下價格區間是我們 2026 年 Q1 到 Q2 接觸過的真實報價（含我們自己接的案子跟同業參考），給你抓預算的參考。實際還是看複雜度，但這個範圍是「市場合理價」。

專案規模	典型場景	LangGraph	CrewAI	AutoGen	OpenAI SDK	工期
小型 PoC	1-2 個 agent，單一工作流	60-120 萬	30-60 萬	45-90 萬	25-50 萬	6-10 週
中型 production	3-5 agent，含人工審核、多渠道	180-350 萬	150-280 萬	200-350 萬	120-220 萬	3-5 個月
大型企業系統	5+ agent，多 tenant、RBAC、SOC2	450-900 萬	400-750 萬	500-900 萬	不建議單押	6-12 個月
年度維運費	LLM 成本 + 工程師 + observability	專案費 25-35%	專案費 20-30%	專案費 25-35%	專案費 15-25% + OpenAI 帳單	持續

這張表有幾個老闆常忽略的點。第一，LangGraph 報價最貴的真正原因是工程師稀缺加 LangSmith 觀測平台費，而與授權成本無關。第二，OpenAI Agents SDK 看起來最便宜，但「OpenAI 帳單」這項變動極大——一個多 agent 系統一個月可能 50 萬、也可能 200 萬，取決於 prompt 設計跟 caching 策略，本來就難估。第三，年度維運費通常被低估。客戶常問「上線後是不是就沒事了」——其實還有持續成本，agent 系統的 token 成本、prompt 漂移、observability 工具訂閱，都是每月持續支出。

省錢小技巧

如果你的 PoC 預算不到 50 萬，先做「Workflow 自動化（n8n / Make / Zapier）+ 單 LLM 呼叫」就好，不要直接跳 multi-agent。我們看過太多客戶用 Agent 框架做的事，其實 n8n 加一個 GPT-4o 呼叫就解了，省 60% 預算。

找外包做 Agent 系統的 5 條合約紅線

接下來這 5 條，是我們看過外包契約裡最常出包的地方。建議簽約前把這 5 條對齊，後面省很多麻煩。

⚠️這 5 條沒寫進合約，後面糾紛機率破 60%

我們去年協助 2 個客戶處理外包糾紛，根因都在這 5 條沒明寫。建議直接拿去當合約附件。

紅線 1：框架選型必須附「未來替換成本」評估

廠商不能只說「我們用 OpenAI Agents SDK 因為快」就算交差。合約應該明訂：選此框架的理由、未來 12 個月若需切換模型供應商，預估工期跟費用區間。沒這條就是把 vendor lock-in 風險全壓到你身上。

紅線 2：observability 與 trace 資料的擁有權

用 LangSmith、Arize、LangFuse 這類觀測平台，trace 資料的擁有權該歸客戶，不是廠商。曾經有客戶要終止合約時才發現所有 production trace 都存在廠商的 LangSmith 帳號裡、拿不出來、要花錢買出口。合約應明訂：「所有 production 環境的 trace、log、metric 資料屬客戶，可隨時匯出，並於合約終止後 30 日內完整移交。」

紅線 3：Prompt、Tool 定義、Memory 結構的智財歸屬

Agent 系統最值錢的資產是長期迭代出來的 prompt、tool schema、memory 設計，code 反而是其次。這些是「Configuration 還是 Source Code」在合約裡常打模糊仗。建議直接寫：「所有 prompt 範本、tool 定義、memory schema、evaluation dataset 屬客戶所有，廠商不得在其他客戶複用未經授權的部分。」

紅線 4：失敗 case 的處理 SLA 與 fallback 策略

Agent 系統一定會有失敗 case——LLM 回了爛答案、tool call 超時、無限迴圈燒 token。合約該約定：失敗率超過 X% 時觸發什麼動作、token cost 超出預算 Y% 時自動 fallback 到哪個策略、誰負責 prompt regression 監控。沒這條，後面客戶會說「為什麼月帳單突然漲 3 倍」廠商說「啊我們沒約定要管這個」。

紅線 5：移交清單明確到「換廠商也能接手」

這條最容易省略，也最致命。合約結束時廠商該交付什麼，要列得跟搬家清單一樣細：source code + commit history、prompt 版本管理 repo、eval dataset、observability 帳號移轉、production secret 移交流程、知識轉移會議至少 N 小時。沒這條，下一家廠商接手會直接擺爛。可以參考 AI 系統外包 7 個坑 的檢核表。

場景對應建議：3 分鐘決策樹

把上面 5 個維度濃縮成一個流程。下面這張圖你照著走，9 成的中小企業 Agent 案子可以直接決定方向。

圖表載入中…

3 個常見情境拆給你看：

情境 A：B2B 公司想做 AI 客服 + 訂單查詢，1 個 agent，PoC 階段，預算 50 萬以下。→ OpenAI Agents SDK 或 CrewAI。
情境 B：金融 / 醫療客戶，3 個 agent 協作，必須人工審核高風險動作，要 audit log。→ LangGraph + LangSmith，無懸念。
情境 C：Microsoft 365 重壓 + Power Platform 已上線，想做內部知識 agent，5 個 agent 對話模式。→ AutoGen / AG2 + Azure OpenAI 最省整合。

AI Agent 開發團隊協作

上線後常見地雷與避坑清單

PoC 跑得動、demo 漂亮，上線一個月才發現一堆事。下面這 8 條是我們看過的真實地雷，順序按出現頻率排。

🚨上線前必跑這 3 個壓力測試

1) Token cost 滿載測試：模擬一天最大流量，看月帳單估算。2) Failover 測試：手動斷 OpenAI API，看系統有沒有 fallback。3) Eval regression：跑完 golden dataset，準確率不能比 PoC 階段掉超過 5%。

怎麼挑能交付的廠商：3 條快速判斷

最後一段，給你一個快速篩選 AI 外包廠商的清單。我們看過太多廠商履歷漂亮、Agent 系統做不出來的案例。3 條起手：

看他過去的 trace 截圖：能秀出 production case 的 LangSmith / Arize / LangFuse trace（含失敗 case 的根因分析），證明他真的跑過。
看他評估架構的方法：請廠商現場用本文的 5 維度回答你的場景，含不通的問題答得出取捨。只會說「我們用 OpenAI 因為強」的廠商，後面合約很難約束。
看他的維運交接 SOP：請看一份過去案子的交接文件樣本（去識別化）。沒準備的廠商，就是把客戶當下家。

恆遠在 AI Agent 系統的角色比較單純——我們不接 PoC 快速包，因為 PoC 燒得起的客戶通常自己團隊也能搞；我們專做「PoC 已驗證、要上 production」的階段，幫客戶把架構、observability、合約紅線一次做齊。如果你正在評估外包，先看 AI 系統諮詢與導入 服務頁，再看 企業 AI 導入完整指南 對齊心智模型，然後直接約我們聊。

常見問題 FAQ

Q我預算只有 30 萬，4 個框架我該選哪個？

30 萬以下的預算通常做不到完整 multi-agent production。建議先用 n8n / Zapier 做 workflow 自動化加單一 GPT 呼叫，或選 CrewAI / OpenAI Agents SDK 做最小 PoC。預算到位再升級到 LangGraph。

QLangGraph 那麼難學，廠商會不會故意推這個收高價？

確實有這個現象。判斷方式是請廠商解釋「為什麼你的場景一定要用 LangGraph」。如果你的需求是 1 個 agent、不需要人工審核、沒有合規要求，廠商還硬推 LangGraph，可能是想多收工。簡單場景優先考慮 CrewAI 或 OpenAI Agents SDK。

QAutoGen 跟 AG2 是什麼關係？哪個比較穩？

AutoGen 是 Microsoft Research 原版，2025 年部分核心開發者分支出社群驅動的 AG2。目前 AG2 迭代速度較快、社群活躍，但 production 案例累積仍少；AutoGen 主線跟 Microsoft 生態系整合更深。Azure / Microsoft 客戶優先 AutoGen，社群路線優先 AG2。

Q為什麼不直接用 LangChain 不用 LangGraph？

LangChain 是上一代的「鏈式」框架，適合 prompt chain 跟 RAG，但對 stateful agent 表達力不足。LangGraph 是 LangChain 團隊推出的下一代狀態機框架，agent 場景應該直接選 LangGraph。LangChain 用在 RAG retrieval 跟 tool 抽象上仍很合理。

Q本土廠商（台灣）懂這 4 個框架的多嗎？

依我們的觀察，CrewAI 跟 OpenAI Agents SDK 的台灣工程師供給最多（中高），LangGraph 中等、有經驗的資深工程師薪資較高，AutoGen 最稀缺。如果預算敏感、又想要 production 等級，CrewAI 是性價比最高的折衷。

Q我能不能同時用兩個框架？例如 LangGraph 加 CrewAI

技術上可以但不推薦。兩個框架的狀態管理、observability、debugging 工具都不同，混用會大幅增加維運複雜度。比較合理的是：用 LangGraph 當主框架管狀態，把 CrewAI 的「角色化思維」拿來做 prompt 設計、實作仍走 LangGraph。

下一步：拿這份清單去問廠商

這篇文章你可以直接當需求文件用。把對比表、5 維度問題清單、5 條合約紅線印出來，下次跟外包提案會議帶去。如果廠商有 3 個以上問題答不上來，就再多看一家。

如果你已經在做 PoC、準備上 production，或上線後遇到我們文中提到的地雷，歡迎跟我們聊一聊。恆遠專做「AI Agent 系統 production 化」的階段，提供架構評估、合約紅線審閱、observability 落地、廠商交接協助。第一次諮詢免費，我們先聽你的場景，再判斷需不需要進到正式合作。預約方式請看 AI 諮詢服務。

延伸閱讀

分享文章

自

AUTHOR

自由揚John

查看作者頁

留言(0)

尚無留言，成為第一個留言的人吧！

SERVICES

GET IN TOUCH

需要網站系統架設或軟體開發？

無論是品牌官網、客製化系統還是應用程式，我們的團隊擁有豐富經驗，歡迎聯繫我們，讓專業為您的事業加分。

免費諮詢看我們做過的案例 →