AI Agent 是什麼？從聊天到自主行動的一條光譜

2026-06-12 15:00:00 Vibe Coding 實戰

「Agent」大概是這兩年最氾濫的 AI 詞彙：新聞說今年是 AI Agent 元年，工具個個自稱 agentic。但被問到「Agent 到底是什麼？跟我每天用的 ChatGPT 差在哪？」，多數人答不上來——包括天天在用的人。

《Learning LangChain》這本寫給工程師的書，反而給了我看過最清楚的非工程師答案：Agent 不是一個東西，而是一條光譜的最右端。從「純程式」到「AI 全自主」之間有好幾個層級，每往右一格，AI 拿到的決定權就多一點。看懂這條光譜，你就能判斷手上的工具是哪一級、該給它多少信任。

這篇把光譜攤開講，不需要任何程式背景。

這篇文章整理了《Learning LangChain》的認知架構光譜，從單次呼叫、鏈、路由器到代理五個層級，講清楚自主與可靠的取捨和人在迴路的用法。適合常聽到 Agent 這個詞、想判斷手上工具是哪一級該給多少信任的人閱讀。

先白話定義：Agent 就是「會自己決定下一步的 AI」

Agent 中文常譯「代理」,AI 教科書的經典定義很精煉：能行動者(something that acts)。「行動」這個詞比表面上重：要行動，得先決定做什麼；要決定，得有不只一個選項；要決定得像樣，還得知道外界的狀況。

翻成 AI 的語言：Agent 是拿到「目標+一組工具」的 AI 程式，自己決定先用哪個工具、什麼時候收工。工具(tool)指 AI 能呼叫的外部功能——查網頁、算數學、讀檔案、寄信都算。AI 本身只會生成文字，是工具讓它的決定變成真實世界的動作。

支撐這件事的技巧不神祕：把工具清單和使用說明放進提示裡，請 AI 用固定格式回答「我要用哪個工具、輸入什麼」，再加上「一步一步想」的引導，讓它把大問題拆成小步驟。

一條光譜：從純程式到全自主的五個層級

書裡把 AI 應用的「認知架構」（可理解成應用的思考流程設計圖）排成一條光譜，衡量標準只有一個：這個應用的行為，有多少由 AI 決定、多少由程式預先寫死。

第 0 級：純程式碼。沒有 AI，一切照寫好的規則跑。鬧鐘、Excel 公式、自動轉帳都是。最可靠，也最死板。

第 1 級：單次 AI 呼叫。整個應用只請 AI 出手一次：你按下「翻譯」「摘要」,AI 處理完就結束。筆記軟體裡的 AI 按鈕就是這級。AI 只決定「這一步的輸出長什麼樣」，其他全是程式說了算。

第 2 級：鏈(chain)。把多個 AI 步驟串成固定順序：先請 AI 把需求翻成資料庫查詢，再請 AI 把查詢結果解釋成人話。步驟誰先誰後是寫死的，AI 只負責各站的產出。像工廠流水線——每站的師傅手藝再好，動線都不歸他管。

第 3 級：路由器(router)。開始讓 AI 選路：客服系統先請 AI 判斷「這題該查保險條款還是病歷資料」，再走對應流程。AI 多了一個決定權：在預先鋪好的幾條路裡挑一條——但它不能自己開新路。

第 4 級：代理(agent)。關鍵差異只有一句話：讓 AI 控制迴圈什麼時候停。前面幾級的步驟數都是固定的，Agent 不是——它規劃一步、執行一步、看結果再決定下一步，直到它自己判斷「目標達成」才收手。決定權升級成「總共走幾步、何時結束」。

流程總覽

Agent 的心臟：計畫-執行迴圈

書裡用一個小例子講透 Agent 的運作：「美國第 30 任總統過世時幾歲？」

AI 手上有搜尋和計算機兩個工具。第一圈，它決定先搜尋，拿到結果：柯立芝，1872 年生、1933 年卒；第二圈，它呼叫計算機算 1933 減 1872，得到 61；第三圈，它判斷資訊夠了，輸出答案、結束迴圈。

注意整個過程：沒有人預先寫「先搜尋、再計算、共三步」，每一步都是 AI 看著當下進度自己決定的。換一個問題，它可能搜兩次、可能完全不用計算機。這是 Agent 強大的原因——同一套系統能應付沒料到的問題；也是它不可靠的原因——可能搜錯方向、繞圈子，或在第三步走偏然後一路錯到底。

進階版本還會加「反思」（一個 AI 產出、另一個批改，迭代幾輪再交卷）或「多代理」（一個主管 AI 把任務派給幾個專職 AI）。聽起來炫，本質都是把更多決定權交給模型，換更強的能力。

自主與可靠：一座翹翹板

這條光譜藏著全書最值得非工程師帶走的觀念：自主性(agency)與可靠性(reliability)是一組取捨。

書中的例子是郵件助理。你當然希望它愈自動愈好——自己歸檔、自己回例行信，愈少打擾你愈省時間；但自動過了頭，它遲早寄出一封你絕不會那樣寫的信。往右，能力強、出包機會大；往左，可靠安穩、事事得自己來。

工程上有不少技巧能把這個取捨的邊界往外推：結構化輸出讓回答乖乖符合格式、串流讓你即時看到進度、反思讓它交卷前自我檢查。但最便宜也最有效的一招，是把「人」放回流程裡。

人在迴路：最強的保險是你

「人在迴路」(human-in-the-loop)指的是：系統自動跑，但在關鍵節點停下來等人看過——可以隨時中斷、核准後才放行、改寫中間結果，甚至回溯重來。

這件事我有切身體會。重建 pbtw.tw 時，我用的 AI 編程工具就是不折不扣的 Agent：自己讀檔案、改程式、跑指令、看錯誤訊息再修，一個任務常常自己跑十幾步。而我全程做的事，就是教科書定義的人在迴路——盯著每一步輸出，方向不對立刻喊停，改動大的地方驗收過才放行。

我的經驗：我也真的遇過它「太熱心」，改了我沒叫它動的地方——能力沒變，變的是那一刻沒人卡在迴路裡。

資安內訓時我常遇到另一面：企業學員聽完 Agent，第一反應是「太好了，讓它自動回客戶信、自動處理單據」。我都先反問一句：這件事出錯一次的代價是什麼？寫錯一份內部摘要，成本是重寫；寄錯一封給客戶的信，成本是商譽。

重點：代價低的事盡量自動化，代價高的事把人留在迴路裡——自主性不是愈高愈好，是配得上出錯代價才好。

一般人什麼時候會遇到 Agent

其實你大概已經在用了。判斷方法很簡單：看這個功能是「一問一答」，還是會自己多走好幾步、步數不固定。

聊天工具的「深入研究」功能：自己決定搜尋幾輪、讀哪些網頁，十幾分鐘後交報告——Agent
AI 編程助理：寫程式、跑測試、看報錯、自己修——Agent
客服機器人先判斷你的問題類型再轉接流程——多半是路由器
按一下生成摘要、翻譯、改寫——單次呼叫

認出層級的實際用處是校準信任：左邊幾級的輸出，抽查就好；Agent 級的輸出，驗收要更認真——查引用來源、看它改了什麼，別被「跑了很多步」的勤奮表象繳械。

反過來說，也別高估自己的需求。我做過一個選賽道決策機器人，聽起來很「Agent」，拆開看只是光譜第 1 級——一段寫好的角色設定加對話。多數個人需求停在光譜左半邊就解決了；該不該往右走、要不要動用開發框架，可對照我整理的這張決策地圖。

常見問題

Q1:Agent 跟 ChatGPT 到底差在哪？
你平常的一問一答是第 1 級：每次回覆都是單次呼叫。但同一個產品裡的深入研究、代理模式，就是掛上工具與迴圈的第 4 級。看你用的是哪個功能——同一張訂閱裡，常常兩種都有。

Q2:Agent 會不會失控？
它不會「有意圖地」造反，但會出錯——而且是有行動力的出錯：錯誤會變成真實動作——寄出的信、改掉的檔案。所以重點是控制爆炸半徑：限制權限、代價高的動作設核准關卡、別給它超過任務需要的存取權。

Q3:我需要學著自己做 Agent 嗎？
多數人先學會「用」和「監工」就夠：會判斷層級、會設人在迴路、會驗收輸出。真想動手做，從光譜左邊做起——一段好提示詞能解決的事，不要上 Agent。

Q4:多個 Agent 一起工作是怎麼回事？
把大任務拆給幾個各有專長的 AI，常見作法是設一個「主管」AI 負責派工與整合。能力更強，但每多一層轉手就多一處可能出錯——跟人類組織一模一樣。

看懂光譜之後，最好的下一步是親手當一次監工：挑個小需求，用 AI 編程工具做出來，過程裡你會自然學會什麼時候放手、什麼時候喊停。我的 Vibe Coding 工作坊就是帶你完整走一遍——從需求一句話到能用的工具，順便把人在迴路練成肌肉記憶。

這篇的書籍觀念出自《Learning LangChain》第 5-7 章，完整讀書筆記在：/note-learning-langchain/

#AI Agent #Vibe Coding #認知架構 #人在迴路