Google 的研究團隊最近提出一篇論文在講一個超簡單、但對 AI 模型很好用的小技巧:
把同一個提示「原封不動貼兩次」,可以大幅提升很多主流程式(Gemini、GPT、Claude、Deepseek 等)的答題準確率,尤其是在不需要模型一步一步推理、只要它直接給出答案的任務上。
核心概念:提示重複是什麼
- 所謂「提示重複」(Prompt Repetition),就是把原本的 <QUERY> 變成 <QUERY><QUERY>,也就是把同一段提示連續放兩次。
- 這樣做的目的,是讓提示裡的每一個 token,在注意力機制中都能看到更多相關內容,減少因為「文字順序」導致模型理解不完整的問題。
為什麼會有效
- 多數大型語言模型是「因果式」模型,只能從左讀到右,前面的字看不到後面的字,導致提示前半段在計算時資訊比較少。
- 把提示重複一次後,前半段 token 就可以「注意」到後半段的一模一樣內容,等於幫模型再讀一遍指令,內部對齊與參照會更完整。
實驗結果裡的關鍵數字
- 在關掉「推理」要求(不叫模型一步一步想,只要求直接回答)的情況下,提示重複在 70 組「模型 × 測試」組合裡,贏了 47 組,而且沒有任何一組表現變差。
- Gemini 2.0 Flash-Lite 的準確率從 21.33% 直接拉到 97.33%,顯示這種「很吃對齊」的任務特別受惠於提示重複。
什麼情境特別適合用
- 特別適合「不太需要長推理」的工作型提示,例如:分類、資訊抽取、比對、填空、多選題選字母、固定格式輸出等。
- 研究也測了問題在前、選項在前這兩種多選題擺法,發現不管順序如何,提示重複都能穩定帶來正向效果,尤其是「選項在前」這種原本比較吃虧的擺法。
實作方式與注意事項
- 實作方法非常直覺:把你原本要丟給模型的提示,原封不動再貼一次,例如:請只回覆 A/B/C/D:...(題目與選項)... 變成同一句話連續出現兩遍。
- 整體來說,這樣做並不會明顯拉長輸出長度或回應延遲,因為多出來的計算主要發生在可以平行化的 prefill 階段,不過在極長提示或某些模型(像 Anthropic 的長重複變體)上,延遲可能會上升一些。