方向性刺激プロンプティング

Li et al.、(2023) (opens in a new tab)は、望ましい要約を生成するためにLLMをより適切に誘導するための新しいプロンプティング技術を提案しています。

調整可能なポリシーLMは、刺激/ヒントを生成するためにトレーニングされます。RLの使用がLLMの最適化により多く見られるようになっています。

以下の図は、方向性刺激プロンプティング（Directional Stimulus Prompting）が標準的なプロンプティングと比較した場合の様子を示しています。ポリシーLMは小さく、ブラックボックスの凍結LLMを誘導するヒントを生成するために最適化されます。