Harness Engineering 是什麼？感覺好像很複雜？

Heison Chow

May 11 • IDE

你寫過 CLAUDE.md、裝過 skills、加過 hooks 嗎？

如果有，那你其實已經在做 Harness Engineering — 一個 2026 年才被矽谷工程界正式命名、但你早就在做的事

老實說，這個名字聽起來複雜，內容卻是你日常已經接觸的東西。今天想跟你聊聊：這個詞為什麼忽然冒起、它真正在講什麼、為什麼對你這個用 Claude Code 的人特別重要 👇

🔧 Harness 到底由什麼組成

綜合 Martin Fowler 2026 年 4 月分類學加上 Atlan 定義性指南，一個完整 harness 有 4 層：

第一，Guides（前饋引導）— 行動前告訴 agent 怎樣做。系統 prompt、CLAUDE.md、AGENTS.md 規則檔、架構規約、lint 配置

第二，Sensors（回饋觀察）— 行動後檢查 agent 有沒有做對。Evals、validation loops、output parsers、drift detectors

第三，Data Context Layer — 認證過、有 lineage 的資料供 agent 推理

第四，Orchestration Logic — 任務序列、審查 gate、sub-agent 路由

對你來說，這 4 層 map 返你已經在用的東西：CLAUDE.md 就等於 guides，hooks 就等於 sensors，MCP servers 就等於 data context 加 orchestration，skills 就是組合這幾層的可重用單元

換句話說：你的 ~/.claude/ 目錄就是你的 harness。你只是之前沒人幫這部份命名

💡 為什麼這對 3 種人都重要

對個人用戶來說，這個 frame 最大價值就是「賦予命名」。你之前以為自己只是「在配置工具」，原來你在做的，是一門已經有名字、有分類學、有實戰指南的工程紀律。你寫每條 CLAUDE.md 規則、加每個 hook、裝每個 skill — 全部都是你個人資產的累積，模型升級也不會貶值

對 AI agency 經營者來說，harness 直接變成商業武器。你交付給客戶的，不再是「Claude API 的 wrapper」，而是「設計好的 harness 加上領域知識」。同一套 harness 套用不同 vertical（律師事務所、會計、電商），只需要替換 data context layer — 比每個案逐次寫 prompt 快 5-10 倍。更重要的是，計價邏輯由「人月」可以走向「資產定價」 — 你擺明跟客戶說「這個 harness 包含 X 加 Y 加 Z 組件」，比說「我幫你寫 prompt」有說服力 10 倍

對任何用 AI 的公司來說，harness 就是控制 AI 輸出可預測性的唯一方法。88% 企業 AI agent 項目上不到 production（Atlan 2026 年 4 月數據），27% 失敗源自 data quality — 這些都是 harness 問題，不是模型問題。OpenAI 100 萬行 0 人手程式碼的案例證明，當 harness 設計到位，產出可以線性 scale

🔍 想想看，怎麼 audit 你現在的 harness

說了這麼多，怎麼開始？打開 Claude Code 工作目錄，跟著做這幾步就行：

第一步，列清單。打開 /.claude/CLAUDE.md、專案級 CLAUDE.md、/.claude/skills/、/.claude/hooks/、/.claude/settings.json — 這堆檔案加起來，就是你的 harness。寫下總行數。Addy Osmani 建議 CLAUDE.md 控制在 60 行以內，把它當「機師的 checklist」而不是「風格指南」

第二步，逐條規則問「這條對應哪一次失敗」。Hashimoto 同 Osmani 共同強調的「ratchet 原則」 — 每條 harness 規則都應該能追溯到一個真實發生過的錯誤。如果某條規則從來沒對應失敗，就是 over-engineering，candidate for deletion。HumanLayer 警告：規則太多會 pollute context window，agent 反而表現更差

第三步，把最常重複的錯誤升級成 hook。這個就是核心紀律 — 口頭規則加 AI 自審 = 永遠靠不住。真正解決方法就是寫 hook 在 PreToolUse 或 Stop 階段機械化攔截。例子：我自己用一個 check-publish-content.js 在寫入時 grep 廣東話禁用詞加框架詞，發現即 reject。設定一次，永久執行，不會忘記

第四步，progressive disclosure 漸進部署。不要一次 load 所有 skills、MCP servers、規則。Skills 用 description trigger keyword 按需 load，MCP servers 只連必需的，規則寫進 sub-skill 的 reference 文件，不是 dump 全部進主 SKILL.md

🎯 真正拉開差距的，不是模型，是 harness

說到這裡，你應該明白為什麼這件事重要

每個人用的 LLM 都一樣 — GPT、Claude、Gemini，API 公開任何人都用得到。如果你只用模型，輸出就跟所有人差不多

但如果你有 harness，輸出就是你獨家的 — 累積的規則、設計好的 sensors、編碼進去的領域知識，沒人能 copy

2026 年的 AI 不是比誰用更強模型，是比誰把模型周邊設計成不可能犯同一個錯的系統

0 comments

Harness Engineering 是什麼？感覺好像很複雜？