如果有,那你其實已經在做 Harness Engineering — 一個 2026 年才被矽谷工程界正式命名、但你早就在做的事
老實說,這個名字聽起來複雜,內容卻是你日常已經接觸的東西。今天想跟你聊聊:這個詞為什麼忽然冒起、它真正在講什麼、為什麼對你這個用 Claude Code 的人特別重要 👇
🔧 Harness 到底由什麼組成
綜合 Martin Fowler 2026 年 4 月分類學加上 Atlan 定義性指南,一個完整 harness 有 4 層:
第二,Sensors(回饋觀察)— 行動後檢查 agent 有沒有做對。Evals、validation loops、output parsers、drift detectors
第三,Data Context Layer — 認證過、有 lineage 的資料供 agent 推理
第四,Orchestration Logic — 任務序列、審查 gate、sub-agent 路由
對你來說,這 4 層 map 返你已經在用的東西:CLAUDE.md 就等於 guides,hooks 就等於 sensors,MCP servers 就等於 data context 加 orchestration,skills 就是組合這幾層的可重用單元 換句話說:你的 ~/.claude/ 目錄就是你的 harness。你只是之前沒人幫這部份命名
💡 為什麼這對 3 種人都重要
對個人用戶來說,這個 frame 最大價值就是「賦予命名」。你之前以為自己只是「在配置工具」,原來你在做的,是一門已經有名字、有分類學、有實戰指南的工程紀律。你寫每條 CLAUDE.md 規則、加每個 hook、裝每個 skill — 全部都是你個人資產的累積,模型升級也不會貶值 對 AI agency 經營者來說,harness 直接變成商業武器。你交付給客戶的,不再是「Claude API 的 wrapper」,而是「設計好的 harness 加上領域知識」。同一套 harness 套用不同 vertical(律師事務所、會計、電商),只需要替換 data context layer — 比每個案逐次寫 prompt 快 5-10 倍。更重要的是,計價邏輯由「人月」可以走向「資產定價」 — 你擺明跟客戶說「這個 harness 包含 X 加 Y 加 Z 組件」,比說「我幫你寫 prompt」有說服力 10 倍
對任何用 AI 的公司來說,harness 就是控制 AI 輸出可預測性的唯一方法。88% 企業 AI agent 項目上不到 production(Atlan 2026 年 4 月數據),27% 失敗源自 data quality — 這些都是 harness 問題,不是模型問題。OpenAI 100 萬行 0 人手程式碼的案例證明,當 harness 設計到位,產出可以線性 scale
🔍 想想看,怎麼 audit 你現在的 harness
說了這麼多,怎麼開始?打開 Claude Code 工作目錄,跟著做這幾步就行:
第一步,列清單。打開 /.claude/CLAUDE.md、專案級 CLAUDE.md、/.claude/skills/、/.claude/hooks/、/.claude/settings.json — 這堆檔案加起來,就是你的 harness。寫下總行數。Addy Osmani 建議 CLAUDE.md 控制在 60 行以內,把它當「機師的 checklist」而不是「風格指南」 第二步,逐條規則問「這條對應哪一次失敗」。Hashimoto 同 Osmani 共同強調的「ratchet 原則」 — 每條 harness 規則都應該能追溯到一個真實發生過的錯誤。如果某條規則從來沒對應失敗,就是 over-engineering,candidate for deletion。HumanLayer 警告:規則太多會 pollute context window,agent 反而表現更差
第三步,把最常重複的錯誤升級成 hook。這個就是核心紀律 — 口頭規則加 AI 自審 = 永遠靠不住。真正解決方法就是寫 hook 在 PreToolUse 或 Stop 階段機械化攔截。例子:我自己用一個 check-publish-content.js 在寫入時 grep 廣東話禁用詞加框架詞,發現即 reject。設定一次,永久執行,不會忘記
第四步,progressive disclosure 漸進部署。不要一次 load 所有 skills、MCP servers、規則。Skills 用 description trigger keyword 按需 load,MCP servers 只連必需的,規則寫進 sub-skill 的 reference 文件,不是 dump 全部進主 SKILL.md 🎯 真正拉開差距的,不是模型,是 harness
說到這裡,你應該明白為什麼這件事重要
每個人用的 LLM 都一樣 — GPT、Claude、Gemini,API 公開任何人都用得到。如果你只用模型,輸出就跟所有人差不多
但如果你有 harness,輸出就是你獨家的 — 累積的規則、設計好的 sensors、編碼進去的領域知識,沒人能 copy
2026 年的 AI 不是比誰用更強模型,是比誰把模型周邊設計成不可能犯同一個錯的系統