AI 讓快的更快、亂的更亂：DORA 數據給企業的警訊

2026-06-12 16:30:00 AI 資安與企業規範

過去一年，我看過不少企業的劇本長這樣：高層買了 AI 開發工具的全員授權，訂了使用率 KPI；半年後，工程師人人都說省了時間，但上線事故變多、改版反而更不敢推。結論變成兩派互罵：一派說 AI 被高估，一派說工程師不會用。

DORA 2024 年的報告給這個現象補上了數據，而《Vibe Coding》的兩位作者——Gene Kim 正是 DORA 研究的共同發起人——在書的第四部給了更有解釋力的框架。這篇把數據、假說和對策攤開來講，最後落到台灣企業可以直接做的三步。

這篇文章整理了 DORA 2024 的反直覺數據、「AI 是流程放大器」的假說、Adidas 與 Booking.com 的兩極案例，以及台灣企業的三步落地建議。適合正在規劃 AI 開發工具導入、或導入後反而更亂的團隊與主管閱讀。

先懂 DORA:36,000 份問卷換來的交付體檢表

DORA(DevOps Research and Assessment)是 2013 年起跑的長期研究，累計超過 36,000 名受訪者。它用四個指標體檢軟體交付：部署頻率、變更前置時間、變更失敗率、失敗後復原時間——前兩個量「快不快」，後兩個量「穩不穩」。

最反直覺的發現是：快和穩不是取捨，而是同一群人同時做到。菁英組織的前置時間快 127 倍、部署次數多 182 倍、變更失敗率低 8 倍、復原快上千倍；達成獲利與市占目標的機率也是其他公司的兩倍。預測高績效的最強因子很明確：鬆耦合的架構、快速的回饋迴圈、健康的學習文化。記住這三個因子，等一下會再出現。

2024 年的異常：AI 用越多，交付反而越不穩

然後是 2024 年報告裡那組尷尬的數字：依數據推估，GenAI 使用量每增加 25%，交付穩定性下降約 7%，吞吐量下降約 1.5%。以產業平均來看，AI 用得越兇的團隊，交付反而更不穩、沒有更快。對天天喊「全員 AI」的管理層，這是一盆冷水。

Kim 與 Yegge 的解讀不是「AI 沒用」，而是一個更鋒利的工作假說：AI 是你既有流程體質的放大器。原本就沒有自動化測試？現在是每人每天上千行程式碼沒有測試。原本就習慣大批量改動？GenAI 最誘人的陷阱就是一口氣給你四百行的 diff。原本架構耦合嚴重、改一處壞三處？現在壞的速度跟生成的速度一樣快。書裡的對策清單因此完全不神祕：每個 AI 產出的 commit 都配自動化測試、變更批量壓到最小、高風險改動讓第二個模型交叉審查、開發規範寫成 AI 讀得懂的文件。

重點：這些對策全是基本功——只是 AI 把「沒做基本功」的代價放大到藏不住。

放大器的兩端：Adidas 試點裡的兩個世界

這個假說最好的證據，是書中 Adidas 規模 700 名工程師的 GenAI 試點。整體數字漂亮:91% 滿意度、兩到三成生產力提升、82% 天天使用；工程師花在有價值工作上的時間(Happy Time)從 2018 年的 47% 升到 65%。

但平均值底下藏著兩個世界。在鬆耦合架構、回饋迴圈快的團隊（主要是電商系統），Happy Time 高達 80%；被綁在老 ERP 系統上的團隊——一年只敢部署幾次、測試一輪要好幾天——Happy Time 只有 30%,AI 工具對他們幾乎無感。負責人 Fernando Cornago 的原話很傳神：給這些團隊 Copilot，他們反過來罵他瘋了，「先把環境弄好、把測試流程修好再說」。這正是限制理論的教科書案例：瓶頸不在寫程式的時候，加速寫程式只是幻覺——像廚房爐子壞了，卻給切菜的人配三倍快的刀，菜只會堆在檯面上腐爛。

對照組是 Booking.com：三千名工程師的組織，先用工作坊把基本功教齊，再針對自家瓶頸打造專用代理（處理百萬 token 的 GraphQL schema、拆解萬行老函式的遷移工具），量到三成編碼效率提升、merge request 縮小七成。差別不在工具，在導入順序。

責任歸屬：出事的時候，誰半夜兩點被叫醒

書中第四部最值得企業主管抄走的，是 GitLab 首席工程師 Jessie Young 的紅線：「只要是我值班，團隊就不准無腦 Vibe Coding。」她怕的場景很具體：大家把腦袋關掉讓 AI 生程式碼上線，半夜被挖起來救火的卻是她。書裡還有更貴的版本：有團隊讓 AI 代理把變更推上正式環境，觸發對外部服務的 660 萬次呼叫，換來一張天價帳單。

對策是一條老原則的新應用：你建的，你來顧。每一個由 AI 產生的變更，都必須能指出一個負責的人類；指不出來，就是治理漏洞。「是 AI 弄壞的」不能是有效的卸責——AI 出包，代表人沒有把驗收流程做出來。把這條寫進規範，比任何工具白名單都重要。

領導者策略：你的十小時，勝過一百頁顧問報告

第 18 章給領導者的動作清單，每一條都不是技術，是文化。第一條最不舒服也最有效：自己先下場用——親手玩十個小時，對策略的幫助超過一份百頁分析師報告；團隊會看著主管的行為校準自己的風險胃納。再來是把採用變成趣味而非命令：Sourcegraph 執行長做了全公司的 token 消耗排行榜，第一週冠軍居然是財務副總，反而激出工程團隊的好勝心。然後是順序：護欄先於推廣（授權模型清單、成本上限、額外驗收要求），並趁早講一個內部英雄故事——書中那家博弈公司用 AI 原型取代漲價外部服務、直接上線的案例，就是全員大會的最佳教材。最後，AI 出包時開不究責的檢討會，把事故變成教材而不是獵巫。

我在企業內訓現場，對其中一條感受特別深：檯面下的生產力紅利。匿名提問最常出現兩類問題，一類是「AI 寫的東西出事算誰的」，另一類是學員私下承認用 AI 大幅省時、卻不敢讓主管知道——怕被加工作量，或被質疑偷懶。書裡的描述一針見血：沒有公開分享的文化，效率紅利就被個人收割，組織學不到任何東西。所以排行榜、英雄故事這些「軟」動作，其實是治理的硬基礎；影子用法放著不管，遲早變成〈影子 AI 治理〉要處理的資安問題。

給台灣企業的三步落地建議

第一步，先體檢再買票。用 DORA 四指標量一次自己：多久部署一次？變更多久能上線？壞版率多高？修多快？如果答案接近 Adidas 的 ERP 團隊，預算該先花在測試自動化和架構解耦，不是 AI 授權——否則你買到的是放大器，放大的是亂。這也呼應 MIT 報告的教訓：〈95% 的企業 AI 專案失敗〉，死因多半不在模型，在流程與整合。

第二步，小團隊試點，帶著護欄講故事。挑一個架構相對乾淨的團隊、一個拖了兩季沒人想碰的題目，配齊規範（AI commit 配測試、小批量、明確的人類負責人）後放手做，做成了就全員開講。一個內部英雄故事的推廣力，大於十封政策信。

第三步，把規矩寫成文件，而且寫給 AI 看。開發規範、驗收標準、不可碰的紅線，整理成 AGENTS.md 之類機器可讀的文件——同一份文件同時是新人手冊、AI 的工作守則與稽核依據。

流程總覽

flowchart TD A["想導入 AI 開發工具"] --> B{"DORA 四指標體檢及格?"} B -->|否| C["先補基本功:自動測試、小批量、解耦"] C --> B B -->|是| D["立護欄:測試配 commit、人類負責人"] D --> E["小團隊試點，挑積壓已久的題目"] E --> F{"成果可驗證?"} F -->|"否，開不究責檢討會"| D F -->|是| G["講英雄故事，擴大推廣"] G --> H["規範寫進 AGENTS.md，持續量測四指標"]

常見問題

問：DORA 數據代表企業現在不該導入 AI 嗎？
答：不是，它代表「只發工具不改流程」會倒虧。基本功到位的組織拿到了兩到三成的實質提升。問題從來不是要不要導，是順序。

問：公司規模小，這套還適用嗎？
答：適用，而且更簡單。四指標可以土法量測：這個月改了幾版、出了幾次包、多久修好。護欄縮成三條：AI 產出要有人驗收、改動要小、出事要能指到人。放大器原理不分規模。

問：怎麼說服高層「先補流程再買工具」?
答：用他們的語言：體質差的組織導入 GenAI 後穩定性下降 7%，等於把預算花在製造事故。再給一條近路——挑體質好的小團隊先試點，用內部成功案例說話，比簡報有效。

問：資安和合規部門的角色是什麼？
答：從審查者變成護欄設計者：界定哪些程式碼能進哪些模型、金鑰與個資紅線、AI 變更的稽核軌跡。越早拉進試點，越不會在推廣期被一票否決。

重點：AI 不會把一家公司變好或變壞，它只會把這家公司原本的樣子，用十倍速演給你看。

如果你正在規劃企業的 AI 導入、想先做一次流程體質健檢或內訓，歡迎透過企業合作洽詢聊聊現況——從體檢開始，而不是從買工具開始。

這篇文章的原始書摘整理在：/note-vibe-coding-kim-yegge/

#AI 治理 #DORA #企業導入 #Vibe Coding