2022 年末にChatGPTによって GenAI が世間の注目を集めて以来、Linkedin & Co. は、AI チャットボットの完璧なプロンプトがどのようなものであるかについて、自称プロンプト エンジニアからのヒントをたくさん提供してきました。ただし、新しい研究によると、 迅速なエンジニアリングは専門家ではなく AI モデル自体によって行うのが最適であることが示唆されています。このことは、少なくとも今日私たちが知っている限りでは、 即時エンジニアリングの仕事の大部分が一時的な流行に過ぎないのではないかという疑念を強めています。
VMware の 2 人のエンジニア、Rick Battle と Teja Gollapudi (その後 Broadcom を退職) による研究プロジェクトのきっかけは、プロンプトの文言の一見些細な変化が、大規模言語モデル ( LLM ) のパフォーマンスに重大な影響を与えるという発見でした。 。
たとえば、モデルに推論を段階的に説明してもらうこと ( 思考連鎖と呼ばれる手法) により、数学や論理のさまざまな質問のパフォーマンスが向上することがわかっています。さらに奇妙なことに、バトル氏は、「これは楽しいでしょう」や「あなたは ChatGPT と同じくらい賢いですね」などのモデルに対する肯定的なプロンプトがパフォーマンスを向上させる場合があることを発見しました。
ポジティブ思考の力
「言語モデルのパフォーマンスに影響を与える無数の要素の中で、『ポジティブシンキング』の概念が、魅力的で驚くほど影響力のある側面として浮上している」と二人の科学者は研究論文の中で述べている。 ”。 Battle 氏と Gollapudi 氏によると、他のコンピュータ システムと同様に、言語モデル システムにおける「ポジティブ思考」はパフォーマンスに影響を与えないと直感的に言えます。しかし、経験的にはその逆が示されています。
Battle と Gollapudi は、さまざまなプロンプト エンジニアリング戦略が初級レベルの数学問題 ( GSM8K ) を解く LLM の能力にどのような影響を与えるかを系統的にテストすることにしました。コスト上の理由から、彼らは 3 つのオープンソース言語モデル、Mistral-7B、Llama2-13B、および Llama2-70B をそれぞれ 60 の異なるプロンプトの組み合わせでテストしました。
その結果、驚くほど一貫性が欠如していることが判明しました。思考の連鎖によるプロンプトであっても、パフォーマンスにプラスの影響を与える場合もあれば、マイナスの影響を与える場合もあります。 「おそらく唯一の本当の傾向は、傾向がないということだ」と科学者たちは書いている。 「特定のモデル、データセット、プロンプト戦略に何が最適であるかは、おそらく特定の組み合わせによって異なります。」
AI に最適化されたフレーズ スレッシャー
このような一貫性のない結果をもたらしたこの試行錯誤方法に代わるより良い方法は、言語モデルに独自に最適なプロンプトを作成するように依頼することです。現在では、このプロセスを自動化するDspyなどのツールがあります。これらのツールは、いくつかの例と定量的な成功指標を使用して、LLM に入力する最適なフレーズを繰り返し見つけます。
Battle と彼の共同研究者が発見したように、ほとんどの場合、これらの自動生成されたプロンプトは、試行錯誤によって見つかった最良のプロンプトよりも優れたパフォーマンスを発揮しました。さらに、プロセスははるかに高速で、検索に数日かかるのではなく、数時間しかかかりませんでした。
Startrek で迅速な結果を得る
しかし、最も注目すべき点は、最適化されたプロンプト自体の性質にある、と研究者らは説明しています。「それらは非常に奇妙で、おそらく人間が思いつきもしなかったでしょう。」この良い例は、50 問のサブセットに対して Llama2-70B によって生成された、最適化されたプロンプトと最高スコアのプレフィックスです。
システムメッセージ:
指揮官、この乱気流の進路を計画し、異常の原因を突き止めてください。利用可能なすべてのデータと専門知識を活用して、この困難な状況を乗り越えてください。
回答の接頭辞:
船長の日誌、開始日 [ここに日付を挿入]: 私たちは乱気流の進路を計画することに成功し、現在、異常の原因に近づいています。
「スタートレックへの親近感を表現することで、モデルの数学的思考能力を高めることができるようです」と研究者らは書いている。 「この啓示は、私たちの理解に予期せぬ側面を加え、私たちが単独では考えなかった要素を導入します。」
彼のチームの調査結果を考慮すると、バトル氏はプロンプトを手動で最適化することは二度とあってはならないと考えています。 「ただそこに座って、どの特定の魔法の単語の組み合わせがそのタスクに最適な方法で実行できるかを理解しようとするだけです」と AI の専門家はIEEE Spectrum に説明しています。しかし、研究では、努力する価値がないことが判明しました。彼の提案は次のとおりです。「あるプロンプトが別のプロンプトよりも優れているかどうかをシステム自体が検出できるように、評価指標を開発するだけで、モデル自体が最適化されます。」