上週三下午,一家做金屬加工的客戶在電話那頭語氣有點緊張:「老師,Claude Code 剛剛跑到一半斷了,我們的報價自動化整個卡住。」我當下看了一下,其實是他們公司網路的 DNS 短暫抽風,跟 Claude 沒什麼關係。但那個當下的恐慌是真的——因為他們已經把一個禮拜的報價流程壓在上面跑了。
這大概是我最近半年最常被問的問題。企業 AI 導入做到一半,老闆第二個問題永遠是:「萬一它出事怎麼辦?」
我承認一開始我也低估了這個問題。Claude Code 本身穩定度很夠,但實際跑在中小企業的場景裡,會出錯的往往不是 AI 本身。是網路、是 API Key 額度、是檔案權限、是某個同事手滑改了 .env、是某天 Anthropic 發佈新版本 CLI 突然改了指令。真正讓事情當機的,八成是這些。
先分清楚「出錯」到底是哪一種
我會陪客戶先把「出錯」拆成四類,因為每一類的備援方式完全不一樣。
第一類是網路或服務層的暫時性中斷。像 Anthropic 偶爾的 429 限流、公司防火牆擋住、或家裡的 WiFi 在下雨天抽風。這種其實不用備援,重試就好,但要在腳本裡寫好 retry 邏輯,指數退避,別讓它一次失敗就全部噴掉。我看過太多客戶的自動化腳本,一次 timeout 就把整批資料扔了,然後隔天來問我怎麼辦。
第二類是指令層或 prompt 的錯誤。這種最麻煩,因為它會「看起來成功」。Claude Code 跑完了、檔案也生出來了,但內容是錯的。這時候備援不是換工具,是加驗證關卡——每一個關鍵輸出後面接一個檢查步驟。做報價就去驗金額合不合理,做 SQL 就先 dry run,做文件生成就留一個人工複核的卡點。
第三類是帳號額度或金流斷掉。API Key 沒錢了、訂閱過期、公司財務那邊卡了張發票沒處理。這個我現在都會請客戶設兩組 Key——一組主用、一組備用,備用那組月初儲值一點點預算放著,純粹是斷頭救援用。
第四類才是真正意義上的工具本身當機。說實話,這種我碰過的次數一隻手數得完。但客戶問備援方案的時候,想的都是這一類。
備援不是「換一個 AI」,是「人還能不能接手」
這是我這兩年陪跑下來最大的體會。
很多企業主一問備援,直覺是「那我再裝一個 GPT,或是接一個 Gemini,Claude 掛了我就切過去」。聽起來合理,實務上通常做不到。因為每個模型對指令的理解不一樣、輸出格式不一樣、你寫好的 prompt 搬過去就是不一樣的結果。你以為有備胎,真出事那天才發現備胎從來沒打過氣。
真正的備援,是當 AI 不能用的時候,人要有辦法在 30 分鐘內把事情接回來。
這句話聽起來很土,但它是骨頭。意思是:你 AI 化的每一個流程,都要留一份「給人看的 SOP」。Claude Code 在跑的那個 workflow,背後的邏輯要寫成人類能執行的步驟。不是為了不用 AI,是為了確保當 AI 出事那天,公司不會停擺。
我有個做食品貿易的客戶更絕,他要求每一個 AI 自動化的步驟,都要 log 一份純文字的操作軌跡到共享資料夾。這樣出事的時候,新來的工讀生拿著那份 log 都能手動跑一次。我一開始覺得他有點偏執,後來我發現,他公司是我陪過最不怕 AI 出事的一家。
講點易經的
這件事其實是《易經》裡很老的一個觀念——「君子終日乾乾,夕惕若厲,無咎」。乾卦九三爻辭。白話講就是:一天到晚往前衝的人,到了晚上要像面對危險一樣警惕,這樣才不會出事。
我不是要神化易經,但這個提醒放在 AI 導入上太剛好。企業 AI 導入、Claude Code 教學走到後期,真正分出高下的,從來不是誰的 prompt 寫得比較炫,而是誰有在「夕惕若厲」——誰在每天晚上想一遍,如果明天這套東西不能用了,我的生意會不會停。
會不會,就是備援成熟度的答案。
易經講「時位」。AI 跑得順的時候是「時」,要衝;AI 出事的那一天是「位」,要守。一個中小企業真正的數位轉型,不是從不會用 AI 到會用 AI,是從「只會用 AI」到「AI 在、AI 不在都能運轉」。
所以回到那位金屬加工客戶的電話。我那天沒有幫他修 DNS,也沒有幫他換平台。我陪他做了一件事:把那個卡住的報價流程,拆成 AI 做的部分跟人做的部分,各自寫一份 checklist。
兩個禮拜後他打來跟我說,他睡得比較好了。
沒別的。備援做到位,就是這個。