AI Agent 是什麼?從聊天到自主行動的一條光譜
「Agent」大概是這兩年最氾濫的 AI 詞彙:新聞說今年是 AI Agent 元年,工具個個自稱 agentic。但被問到「Agent 到底是什麼?跟我每天用的 ChatGPT 差在哪?」,多數人答不上來——包括天天在用的人。
《Learning LangChain》這本寫給工程師的書,反而給了我看過最清楚的非工程師答案:Agent 不是一個東西,而是一條光譜的最右端。從「純程式」到「AI 全自主」之間有好幾個層級,每往右一格,AI 拿到的決定權就多一點。看懂這條光譜,你就能判斷手上的工具是哪一級、該給它多少信任。
這篇把光譜攤開講,不需要任何程式背景。
這篇文章整理了《Learning LangChain》的認知架構光譜,從單次呼叫、鏈、路由器到代理五個層級,講清楚自主與可靠的取捨和人在迴路的用法。適合常聽到 Agent 這個詞、想判斷手上工具是哪一級該給多少信任的人閱讀。
先白話定義:Agent 就是「會自己決定下一步的 AI」
Agent 中文常譯「代理」,AI 教科書的經典定義很精煉:能行動者(something that acts)。「行動」這個詞比表面上重:要行動,得先決定做什麼;要決定,得有不只一個選項;要決定得像樣,還得知道外界的狀況。
翻成 AI 的語言:Agent 是拿到「目標+一組工具」的 AI 程式,自己決定先用哪個工具、什麼時候收工。工具(tool)指 AI 能呼叫的外部功能——查網頁、算數學、讀檔案、寄信都算。AI 本身只會生成文字,是工具讓它的決定變成真實世界的動作。
支撐這件事的技巧不神祕:把工具清單和使用說明放進提示裡,請 AI 用固定格式回答「我要用哪個工具、輸入什麼」,再加上「一步一步想」的引導,讓它把大問題拆成小步驟。
一條光譜:從純程式到全自主的五個層級
書裡把 AI 應用的「認知架構」(可理解成應用的思考流程設計圖)排成一條光譜,衡量標準只有一個:這個應用的行為,有多少由 AI 決定、多少由程式預先寫死。
第 0 級:純程式碼。沒有 AI,一切照寫好的規則跑。鬧鐘、Excel 公式、自動轉帳都是。最可靠,也最死板。
第 1 級:單次 AI 呼叫。整個應用只請 AI 出手一次:你按下「翻譯」「摘要」,AI 處理完就結束。筆記軟體裡的 AI 按鈕就是這級。AI 只決定「這一步的輸出長什麼樣」,其他全是程式說了算。
第 2 級:鏈(chain)。把多個 AI 步驟串成固定順序:先請 AI 把需求翻成資料庫查詢,再請 AI 把查詢結果解釋成人話。步驟誰先誰後是寫死的,AI 只負責各站的產出。像工廠流水線——每站的師傅手藝再好,動線都不歸他管。
第 3 級:路由器(router)。開始讓 AI 選路:客服系統先請 AI 判斷「這題該查保險條款還是病歷資料」,再走對應流程。AI 多了一個決定權:在預先鋪好的幾條路裡挑一條——但它不能自己開新路。
第 4 級:代理(agent)。關鍵差異只有一句話:讓 AI 控制迴圈什麼時候停。前面幾級的步驟數都是固定的,Agent 不是——它規劃一步、執行一步、看結果再決定下一步,直到它自己判斷「目標達成」才收手。決定權升級成「總共走幾步、何時結束」。
流程總覽
Agent 的心臟:計畫-執行迴圈
書裡用一個小例子講透 Agent 的運作:「美國第 30 任總統過世時幾歲?」
AI 手上有搜尋和計算機兩個工具。第一圈,它決定先搜尋,拿到結果:柯立芝,1872 年生、1933 年卒;第二圈,它呼叫計算機算 1933 減 1872,得到 61;第三圈,它判斷資訊夠了,輸出答案、結束迴圈。
注意整個過程:沒有人預先寫「先搜尋、再計算、共三步」,每一步都是 AI 看著當下進度自己決定的。換一個問題,它可能搜兩次、可能完全不用計算機。這是 Agent 強大的原因——同一套系統能應付沒料到的問題;也是它不可靠的原因——可能搜錯方向、繞圈子,或在第三步走偏然後一路錯到底。
進階版本還會加「反思」(一個 AI 產出、另一個批改,迭代幾輪再交卷)或「多代理」(一個主管 AI 把任務派給幾個專職 AI)。聽起來炫,本質都是把更多決定權交給模型,換更強的能力。
自主與可靠:一座翹翹板
這條光譜藏著全書最值得非工程師帶走的觀念:自主性(agency)與可靠性(reliability)是一組取捨。
書中的例子是郵件助理。你當然希望它愈自動愈好——自己歸檔、自己回例行信,愈少打擾你愈省時間;但自動過了頭,它遲早寄出一封你絕不會那樣寫的信。往右,能力強、出包機會大;往左,可靠安穩、事事得自己來。
工程上有不少技巧能把這個取捨的邊界往外推:結構化輸出讓回答乖乖符合格式、串流讓你即時看到進度、反思讓它交卷前自我檢查。但最便宜也最有效的一招,是把「人」放回流程裡。
人在迴路:最強的保險是你
「人在迴路」(human-in-the-loop)指的是:系統自動跑,但在關鍵節點停下來等人看過——可以隨時中斷、核准後才放行、改寫中間結果,甚至回溯重來。
這件事我有切身體會。重建 pbtw.tw 時,我用的 AI 編程工具就是不折不扣的 Agent:自己讀檔案、改程式、跑指令、看錯誤訊息再修,一個任務常常自己跑十幾步。而我全程做的事,就是教科書定義的人在迴路——盯著每一步輸出,方向不對立刻喊停,改動大的地方驗收過才放行。
我的經驗:我也真的遇過它「太熱心」,改了我沒叫它動的地方——能力沒變,變的是那一刻沒人卡在迴路裡。
資安內訓時我常遇到另一面:企業學員聽完 Agent,第一反應是「太好了,讓它自動回客戶信、自動處理單據」。我都先反問一句:這件事出錯一次的代價是什麼?寫錯一份內部摘要,成本是重寫;寄錯一封給客戶的信,成本是商譽。
重點:代價低的事盡量自動化,代價高的事把人留在迴路裡——自主性不是愈高愈好,是配得上出錯代價才好。
一般人什麼時候會遇到 Agent
其實你大概已經在用了。判斷方法很簡單:看這個功能是「一問一答」,還是會自己多走好幾步、步數不固定。
- 聊天工具的「深入研究」功能:自己決定搜尋幾輪、讀哪些網頁,十幾分鐘後交報告——Agent
- AI 編程助理:寫程式、跑測試、看報錯、自己修——Agent
- 客服機器人先判斷你的問題類型再轉接流程——多半是路由器
- 按一下生成摘要、翻譯、改寫——單次呼叫
認出層級的實際用處是校準信任:左邊幾級的輸出,抽查就好;Agent 級的輸出,驗收要更認真——查引用來源、看它改了什麼,別被「跑了很多步」的勤奮表象繳械。
反過來說,也別高估自己的需求。我做過一個選賽道決策機器人,聽起來很「Agent」,拆開看只是光譜第 1 級——一段寫好的角色設定加對話。多數個人需求停在光譜左半邊就解決了;該不該往右走、要不要動用開發框架,可對照我整理的這張決策地圖。
常見問題
Q1:Agent 跟 ChatGPT 到底差在哪?
你平常的一問一答是第 1 級:每次回覆都是單次呼叫。但同一個產品裡的深入研究、代理模式,就是掛上工具與迴圈的第 4 級。看你用的是哪個功能——同一張訂閱裡,常常兩種都有。
Q2:Agent 會不會失控?
它不會「有意圖地」造反,但會出錯——而且是有行動力的出錯:錯誤會變成真實動作——寄出的信、改掉的檔案。所以重點是控制爆炸半徑:限制權限、代價高的動作設核准關卡、別給它超過任務需要的存取權。
Q3:我需要學著自己做 Agent 嗎?
多數人先學會「用」和「監工」就夠:會判斷層級、會設人在迴路、會驗收輸出。真想動手做,從光譜左邊做起——一段好提示詞能解決的事,不要上 Agent。
Q4:多個 Agent 一起工作是怎麼回事?
把大任務拆給幾個各有專長的 AI,常見作法是設一個「主管」AI 負責派工與整合。能力更強,但每多一層轉手就多一處可能出錯——跟人類組織一模一樣。
看懂光譜之後,最好的下一步是親手當一次監工:挑個小需求,用 AI 編程工具做出來,過程裡你會自然學會什麼時候放手、什麼時候喊停。我的 Vibe Coding 工作坊 就是帶你完整走一遍——從需求一句話到能用的工具,順便把人在迴路練成肌肉記憶。
這篇的書籍觀念出自《Learning LangChain》第 5-7 章,完整讀書筆記在:/note-learning-langchain/