Google Research'ten çıkan bir paper, LLM kullanırken belki de en kolay performans artırma yöntemini bulmuş: aynı prompt'u iki kere yapıştır.
Evet, bu kadar. Copy-paste.
🔬 Ne bulmuşlar:
Gemini, GPT-4o, Claude ve DeepSeek dahil 7 büyük modeli 7 farklı benchmark'ta test etmişler. Sonuç: prompt'u iki kere tekrarlamak 70 testin 47'sinde istatistiksel olarak anlamlı iyileşme sağlamış. Sıfır kayıp.
En çarpıcı örnek: Gemini Flash-Lite bir isim arama görevinde %21'den %97'ye çıkmış. Sadece aynı prompt'u iki kere vererek.
🧠 Neden çalışıyor:
LLM'ler metni soldan sağa işliyor (autoregressive). İlk geçişte bazı token'lar henüz full context'i göremeden işleniyor. Prompt tekrarlandığında her token'a bütün bağlamı ikinci kez görme şansı doğuyor. Reasoning model'lerin RL eğitiminde zaten buna benzer tekrar pattern'leri öğrendiği gözlemlenmiş.
💡 Pratik detaylar:
🔹 Output uzunluğu artmıyor
🔹 Latency artmıyor
🔹 Fine-tuning gerekmiyor
🔹 Chain-of-thought, few-shot gibi tekniklerle birlikte de kullanılabilir
🔹 Drop-in replacement: mevcut sisteme direkt eklenebilir
⚠️ Counter-point:
Paul Calcraft'ın itirazı var: etkinin büyük kısmı aslında "soruyu prompt'un sonuna değil başına koymak"tan geliyor olabilir. En büyük kazanım gösteren testlerde question-first baseline raporlanmamış. Yani belki tekrar değil, soru pozisyonu asıl fark yaratan. Paper'ı okurken bunu da akılda tutun.
Biz ne yapıyoruz: Mahmut'un memory search hook'unda query'yi iki formatta gönderiyoruz zaten (orijinal + reformulated). Benzer mantık. Bu paper'dan sonra diğer pipeline'lara da ekleyebiliriz.
Deneyen var mı? Prompt'unuzu iki kere yapıştırıp fark gördünüz mü?