AI 讓快的更快、亂的更亂:DORA 數據給企業的警訊

AI 讓快的更快、亂的更亂:DORA 數據給企業的警訊

過去一年,我看過不少企業的劇本長這樣:高層買了 AI 開發工具的全員授權,訂了使用率 KPI;半年後,工程師人人都說省了時間,但上線事故變多、改版反而更不敢推。結論變成兩派互罵:一派說 AI 被高估,一派說工程師不會用。

DORA 2024 年的報告給這個現象補上了數據,而《Vibe Coding》的兩位作者——Gene Kim 正是 DORA 研究的共同發起人——在書的第四部給了更有解釋力的框架。這篇把數據、假說和對策攤開來講,最後落到台灣企業可以直接做的三步。

這篇文章整理了 DORA 2024 的反直覺數據、「AI 是流程放大器」的假說、Adidas 與 Booking.com 的兩極案例,以及台灣企業的三步落地建議。適合正在規劃 AI 開發工具導入、或導入後反而更亂的團隊與主管閱讀。

先懂 DORA:36,000 份問卷換來的交付體檢表

DORA(DevOps Research and Assessment)是 2013 年起跑的長期研究,累計超過 36,000 名受訪者。它用四個指標體檢軟體交付:部署頻率、變更前置時間、變更失敗率、失敗後復原時間——前兩個量「快不快」,後兩個量「穩不穩」。

最反直覺的發現是:快和穩不是取捨,而是同一群人同時做到。菁英組織的前置時間快 127 倍、部署次數多 182 倍、變更失敗率低 8 倍、復原快上千倍;達成獲利與市占目標的機率也是其他公司的兩倍。預測高績效的最強因子很明確:鬆耦合的架構、快速的回饋迴圈、健康的學習文化。記住這三個因子,等一下會再出現。

2024 年的異常:AI 用越多,交付反而越不穩

然後是 2024 年報告裡那組尷尬的數字:依數據推估,GenAI 使用量每增加 25%,交付穩定性下降約 7%,吞吐量下降約 1.5%。以產業平均來看,AI 用得越兇的團隊,交付反而更不穩、沒有更快。對天天喊「全員 AI」的管理層,這是一盆冷水。

Kim 與 Yegge 的解讀不是「AI 沒用」,而是一個更鋒利的工作假說:AI 是你既有流程體質的放大器。原本就沒有自動化測試?現在是每人每天上千行程式碼沒有測試。原本就習慣大批量改動?GenAI 最誘人的陷阱就是一口氣給你四百行的 diff。原本架構耦合嚴重、改一處壞三處?現在壞的速度跟生成的速度一樣快。書裡的對策清單因此完全不神祕:每個 AI 產出的 commit 都配自動化測試、變更批量壓到最小、高風險改動讓第二個模型交叉審查、開發規範寫成 AI 讀得懂的文件。

重點:這些對策全是基本功——只是 AI 把「沒做基本功」的代價放大到藏不住。

放大器的兩端:Adidas 試點裡的兩個世界

這個假說最好的證據,是書中 Adidas 規模 700 名工程師的 GenAI 試點。整體數字漂亮:91% 滿意度、兩到三成生產力提升、82% 天天使用;工程師花在有價值工作上的時間(Happy Time)從 2018 年的 47% 升到 65%。

但平均值底下藏著兩個世界。在鬆耦合架構、回饋迴圈快的團隊(主要是電商系統),Happy Time 高達 80%;被綁在老 ERP 系統上的團隊——一年只敢部署幾次、測試一輪要好幾天——Happy Time 只有 30%,AI 工具對他們幾乎無感。負責人 Fernando Cornago 的原話很傳神:給這些團隊 Copilot,他們反過來罵他瘋了,「先把環境弄好、把測試流程修好再說」。這正是限制理論的教科書案例:瓶頸不在寫程式的時候,加速寫程式只是幻覺——像廚房爐子壞了,卻給切菜的人配三倍快的刀,菜只會堆在檯面上腐爛。

對照組是 Booking.com:三千名工程師的組織,先用工作坊把基本功教齊,再針對自家瓶頸打造專用代理(處理百萬 token 的 GraphQL schema、拆解萬行老函式的遷移工具),量到三成編碼效率提升、merge request 縮小七成。差別不在工具,在導入順序。

責任歸屬:出事的時候,誰半夜兩點被叫醒

書中第四部最值得企業主管抄走的,是 GitLab 首席工程師 Jessie Young 的紅線:「只要是我值班,團隊就不准無腦 Vibe Coding。」她怕的場景很具體:大家把腦袋關掉讓 AI 生程式碼上線,半夜被挖起來救火的卻是她。書裡還有更貴的版本:有團隊讓 AI 代理把變更推上正式環境,觸發對外部服務的 660 萬次呼叫,換來一張天價帳單。

對策是一條老原則的新應用:你建的,你來顧。每一個由 AI 產生的變更,都必須能指出一個負責的人類;指不出來,就是治理漏洞。「是 AI 弄壞的」不能是有效的卸責——AI 出包,代表人沒有把驗收流程做出來。把這條寫進規範,比任何工具白名單都重要。

領導者策略:你的十小時,勝過一百頁顧問報告

第 18 章給領導者的動作清單,每一條都不是技術,是文化。第一條最不舒服也最有效:自己先下場用——親手玩十個小時,對策略的幫助超過一份百頁分析師報告;團隊會看著主管的行為校準自己的風險胃納。再來是把採用變成趣味而非命令:Sourcegraph 執行長做了全公司的 token 消耗排行榜,第一週冠軍居然是財務副總,反而激出工程團隊的好勝心。然後是順序:護欄先於推廣(授權模型清單、成本上限、額外驗收要求),並趁早講一個內部英雄故事——書中那家博弈公司用 AI 原型取代漲價外部服務、直接上線的案例,就是全員大會的最佳教材。最後,AI 出包時開不究責的檢討會,把事故變成教材而不是獵巫。

我在企業內訓現場,對其中一條感受特別深:檯面下的生產力紅利。匿名提問最常出現兩類問題,一類是「AI 寫的東西出事算誰的」,另一類是學員私下承認用 AI 大幅省時、卻不敢讓主管知道——怕被加工作量,或被質疑偷懶。書裡的描述一針見血:沒有公開分享的文化,效率紅利就被個人收割,組織學不到任何東西。所以排行榜、英雄故事這些「軟」動作,其實是治理的硬基礎;影子用法放著不管,遲早變成〈影子 AI 治理〉要處理的資安問題。

給台灣企業的三步落地建議

第一步,先體檢再買票。用 DORA 四指標量一次自己:多久部署一次?變更多久能上線?壞版率多高?修多快?如果答案接近 Adidas 的 ERP 團隊,預算該先花在測試自動化和架構解耦,不是 AI 授權——否則你買到的是放大器,放大的是亂。這也呼應 MIT 報告的教訓:〈95% 的企業 AI 專案失敗〉,死因多半不在模型,在流程與整合。

第二步,小團隊試點,帶著護欄講故事。挑一個架構相對乾淨的團隊、一個拖了兩季沒人想碰的題目,配齊規範(AI commit 配測試、小批量、明確的人類負責人)後放手做,做成了就全員開講。一個內部英雄故事的推廣力,大於十封政策信。

第三步,把規矩寫成文件,而且寫給 AI 看。開發規範、驗收標準、不可碰的紅線,整理成 AGENTS.md 之類機器可讀的文件——同一份文件同時是新人手冊、AI 的工作守則與稽核依據。

流程總覽

flowchart TD A["想導入 AI 開發工具"] --> B{"DORA 四指標體檢及格?"} B -->|否| C["先補基本功:自動測試、小批量、解耦"] C --> B B -->|是| D["立護欄:測試配 commit、人類負責人"] D --> E["小團隊試點,挑積壓已久的題目"] E --> F{"成果可驗證?"} F -->|"否,開不究責檢討會"| D F -->|是| G["講英雄故事,擴大推廣"] G --> H["規範寫進 AGENTS.md,持續量測四指標"]

常見問題

問:DORA 數據代表企業現在不該導入 AI 嗎?
答:不是,它代表「只發工具不改流程」會倒虧。基本功到位的組織拿到了兩到三成的實質提升。問題從來不是要不要導,是順序。

問:公司規模小,這套還適用嗎?
答:適用,而且更簡單。四指標可以土法量測:這個月改了幾版、出了幾次包、多久修好。護欄縮成三條:AI 產出要有人驗收、改動要小、出事要能指到人。放大器原理不分規模。

問:怎麼說服高層「先補流程再買工具」?
答:用他們的語言:體質差的組織導入 GenAI 後穩定性下降 7%,等於把預算花在製造事故。再給一條近路——挑體質好的小團隊先試點,用內部成功案例說話,比簡報有效。

問:資安和合規部門的角色是什麼?
答:從審查者變成護欄設計者:界定哪些程式碼能進哪些模型、金鑰與個資紅線、AI 變更的稽核軌跡。越早拉進試點,越不會在推廣期被一票否決。

重點:AI 不會把一家公司變好或變壞,它只會把這家公司原本的樣子,用十倍速演給你看。

如果你正在規劃企業的 AI 導入、想先做一次流程體質健檢或內訓,歡迎透過企業合作洽詢聊聊現況——從體檢開始,而不是從買工具開始。

這篇文章的原始書摘整理在:/note-vibe-coding-kim-yegge/