OpenAI, GPT modellerinden daha iyi yanıtlar almak için bir rehber olan “prompt Mühendisliği Rehberi“ni yayınladı. Rehber, özellikle en son sürümü olan GPT-4 için örneklerle birlikte altı stratejiyi sıralıyor.
Rehberin altı ana stratejisi şunlardır: açık talimatlar yazmak, referans metin sağlamak, karmaşık görevleri daha basit alt görevlere bölmek, modele “düşünme” zamanı vermek, harici araçlar kullanmak ve değişiklikleri sistemli bir şekilde test etmek. Her strateji, örnek ipuçları ile belirli, uygulanabilir taktiklere ayrılmıştır. Taktiklerin birçoğu, LLM araştırmalarının sonuçlarına dayanmaktadır, örneğin düşünce zinciri prompt‘u veya özyinelemeli özetleme.
OpenAI’nin 2020’de yayınladığı GPT-3 araştırma makalesi, modelin birkaç çekim öğrenme kullanarak çeşitli doğal dil işleme (NLP) görevlerini nasıl gerçekleştirebileceğini gösterdi; esasen, modeli gerçekleştirilecek görevin açıklaması veya örnekleri ile tetikleyerek. 2022’de OpenAI, GPT-3’ün yanıtlarının “güvenilirliğini artırmak için teknikler” içeren bir yemek kitabı makalesi yayınladı. Bunlardan bazıları, açık talimatlar verme ve karmaşık görevleri parçalama gibi, hala yeni rehberde bulunmaktadır. Eski yemek kitabı rehberi, tekniklerini destekleyen bir araştırma makaleleri bibliyografisi içermektedir.
Rehberin birkaç taktiği, Chat API’nin sistem mesajını kullanmaktadır. OpenAI’nin belgelerine göre, bu parametre “yardımcının davranışını belirlemeye yardımcı olur.” Bir taktik, modelin yanıtlarını şekillendirmek için ona bir kişilik vermek için kullanılmasını önerir. Başka biri, modelin uzun bir konuşmanın özetini geçirmek veya birden fazla kullanıcı girişi için tekrarlanacak bir dizi talimat vermek için kullanılmasını önerir.
Harici araçlar kullanma stratejisi, GPT modelini diğer sistemlerle etkileşimde bulunma konusunda ipuçları verir ve OpenAI’nin yemek kitabındaki makalelere işaret eder. Taktiklerden biri, modelden matematik hesaplamalarını kendisi yapmak yerine, hesaplamayı yapmak için Python kodu üretmesini istemeyi önerir; kod daha sonra model yanıtından çıkarılır ve çalıştırılır. Ancak rehber, modelin ürettiği kodun güvenli olmadığını ve yalnızca bir kum havuzunda çalıştırılması gerektiğini belirten bir feragatname içermektedir.
Rehberdeki bir başka strateji olan “sistemli bir şekilde değişiklikleri test etme,” farklı bir ipucunun gerçekten daha iyi veya daha kötü bir çıktıya neden olup olmadığını belirleme sorununu ele alır. Bu strateji, GPT-4’ün piyasaya sürülmesi ile birlikte InfoQ tarafından ele alınan OpenAI Evals çerçevesini kullanmayı önerir. Strateji ayrıca modelin kendi çalışmasını “altın standart cevaplarla referansa göre kontrol etmeyi” via sistem mesajı ile önerir.
Rehberle ilgili Hacker News tartışmasında bir kullanıcı şunları söyledi:
“Son zamanlarda ipuçlarını mükemmelleştirmeyi öğrenmeye çok zaman ayırmaktan çekiniyorum. Her yeni sürüm, bir değişik LLM’ye bahsetmiyorum bile, farklı yanıtlar veriyor gibi görünüyor. Gördüğümüz hızlı ilerlemeyle, iki yıl veya beş yıl içinde sistemler daha akıllı hale geldikçe belki de bu kadar karmaşık ipuçlarına bile ihtiyacımız olmayabilir.”
Birçok diğer LLM sağlayıcısı da ipucu mühendislik ipuçları yayınladı. GPT modellerine erişim sağlayan Microsoft Azure, OpenAI’nin prompt’a benzer bir teknikler listesine sahiptir; rehberleri ayrıca modelin çıktı üretiminin rastgeleliğini kontrol eden sıcaklık ve top_p gibi model parametrelerini ayarlama ipuçları da içerir. Google’ın Gemini API belgeleri, bir dizi prompt tasarımı stratejisi ve top_p ve sıcaklık değerleri için öneriler içermektedir.