🚀 你的 Agent Skills 真的有好好工作嗎?
用 Claude Code Skills 的人一定遇過這種情況: 你寫了一個 Skill,開 thinking mode 檢查,發現它根本沒有自動觸發 你只好手動打 /skill-name 或者直接跟它說「用 XX skill」 如果每次都要你手動指定,那寫 Skill 的意義在哪? Anthropic 剛更新了官方的 Skill Creator Plugin,直接解決這個問題 而且背後的信號比功能本身更值得注意 1️⃣ 🔍 先搞懂根本原因:為什麼自動觸發不準? Claude 決定要不要用你的 Skill,不是讀完整份 SKILL.md 它只看 title + 大約 100 字的 description 然後決定要不要啟用 description 太寬 → 亂觸發,叫 A 它跑了 B description 太窄 → 從來不自動觸發,每次都要你手動指定 你確實可以在 thinking mode 裡看到它有沒有觸發 但問題是,你不可能每次用每種問法都手動檢查一遍 Anthropic 拿自己的 6 個官方文件類 Skills 跑了一次 Trigger Tuning 結果:5 個的觸發準確度都還有提升空間 連官方自己寫的都有優化餘地 2️⃣ 📊 Eval — 幫你的 Skill 寫「考試卷」 這是軟體工程裡「自動化測試」的概念 寫程式有 unit test,現在寫 Skills 也有了 你定義一組測試 prompt + 預期結果 Skill Creator 自動跑一輪,告訴你每題 pass 還是 fail 不用再一個一個手動試 最實用的場景:模型更新後,跑一次 Eval 就知道你的 Skill 還能不能用 不用等到出問題才發現 根據 Anthropic 的測試,PDF 填表 Skill 跑完 Eval 優化後 原本填錯位置的問題全部修好了 3️⃣ 🎯 Trigger Tuning — 解決「叫了不來」的問題 如果你有 10 個以上的 Skills,一定遇過觸發打架 想用 Skill A,結果 Claude 跑去用 Skill B Trigger Tuning 會分析你目前的 description 用不同的問法反覆測試,自動調整措辭 用 60/40 的 train/test split,每輪跑 3 次取平均 最多迭代 5 輪,找到最佳平衡 Anthropic 自己測了 6 個官方 Skills 5 個觸發率都有提升 4️⃣ 📈 Benchmark — A/B 對比測試 這個功能超實用: 「有 Skill」vs「沒有 Skill」,同時跑,量化給你看 你會拿到三個關鍵數據: 📌 Pass Rate — 通過率多少 📌 Token Usage — 花了多少 token 📌 Total Time — 跑了多久 甚至可以比較兩個版本的 Skill,看哪個更好 如果「沒有 Skill」反而更好 → 這個 Skill 該退役了 5️⃣ ⚡ 這次更新背後的信號 Anthropic 願意花資源建 Eval 系統 代表他們把 Skills 當作長期核心功能,不是一個實驗性玩具 以前所有 AI 的 prompt、workflow 都是「寫完就上,出事再改」 現在 Anthropic 說:不行,你要先測過 這在 AI 工具圈是第一次 定義輸入 → 定義預期輸出 → 自動跑 → 報告結果 就是軟體工程裡的自動化測試,套用在 AI Skills 上 寫 Skill 的門檻會越來越低,以後人人都會寫 但誰能管好自己的 Skills,誰的 AI 助手才真的可靠 ⭐ 結論:從「手動檢查」升級為「用數據驗證」 以前寫 Skills:寫完 → 開 thinking mode 看一次 →「這次有觸發」→ 上線 現在寫 Skills:寫完 → Eval 測品質 → Benchmark 對比效果 → Trigger Tuning 優化觸發 → 確認沒問題才上線 Skills 的門檻只會越來越低 但品質管理只會越來越重要 以後人人都會寫 Skill,差距在誰會管理 Skill 你的 Claude Code 有幾個 Skills?有沒有遇過觸發不準的問題?歡迎留言分享 👇 想知道具體怎麼安裝、怎麼跑 Eval、怎麼做 Trigger Tuning? 付費群有完整的操作教學,包括兩種 Skill 類型怎麼分別測試 ✅