Path: blob/main/transformers_doc/ja/pytorch/prompting.ipynb
4542 views
LLM prompting guide
Falcon、LLaMA などの大規模言語モデルは、事前にトレーニングされたトランスフォーマー モデルであり、最初は予測するようにトレーニングされています。 入力テキストが与えられた場合の次のトークン。通常、数十億のパラメータがあり、何兆ものパラメータでトレーニングされています。 長期間のトークン。その結果、これらのモデルは非常に強力で多用途になり、次のようなことが可能になります。 自然言語プロンプトでモデルに指示することで、すぐに複数の NLP タスクを解決できます。
最適な出力を保証するためにこのようなプロンプトを設計することは、多くの場合「プロンプト エンジニアリング」と呼ばれます。プロンプトエンジニアリングとは、 かなりの量の実験を必要とする反復プロセス。自然言語ははるかに柔軟で表現力豊かです ただし、プログラミング言語よりもあいまいさが生じる可能性があります。同時に、自然言語によるプロンプト 変化にはかなり敏感です。プロンプトにわずかな変更を加えただけでも、出力が大幅に異なる場合があります。
すべてのケースに適合するプロンプトを作成するための正確なレシピはありませんが、研究者はいくつかの最良のレシピを考案しました。 最適な結果をより一貫して達成するのに役立つ実践。
このガイドでは、より優れた LLM プロンプトを作成し、さまざまな NLP タスクを解決するのに役立つプロンプト エンジニアリングのベスト プラクティスについて説明します。 次のことを学びます:
迅速なエンジニアリングは、LLM 出力最適化プロセスの一部にすぎません。もう 1 つの重要な要素は、 最適なテキスト生成戦略。 LLM が生成時に後続の各トークンを選択する方法をカスタマイズできます。 トレーニング可能なパラメータを一切変更せずにテキストを作成します。テキスト生成パラメータを微調整することで、 生成されたテキストに繰り返しが含まれているため、より一貫性があり人間らしい響きになります。 テキスト生成戦略とパラメーターはこのガイドの範囲外ですが、これらのトピックについて詳しくは、次のトピックを参照してください。 次のガイド:
Basics of prompting
Types of models
最新の LLM の大部分は、デコーダ専用のトランスフォーマーです。例としては、LLaMA、 Llama2、Falcon、GPT2。ただし、遭遇する可能性があります エンコーダ デコーダ トランスフォーマ LLM も同様です。たとえば、Flan-T5 や BART です。
エンコーダ デコーダ スタイルのモデルは通常、出力が入力に大きく依存する生成タスクで使用されます。 たとえば、翻訳と要約です。デコーダ専用モデルは、他のすべてのタイプの生成タスクに使用されます。
パイプラインを使用して LLM でテキストを生成する場合、使用している LLM のタイプを知ることが重要です。 異なるパイプラインを使用します。
text-generation
パイプラインを使用してデコーダのみのモデルで推論を実行します。
エンコーダー/デコーダーを使用して推論を実行するには、text2text-generation
パイプラインを使用します。
Base vs instruct/chat models
🤗 Hub で利用できる最近の LLM チェックポイントのほとんどには、base と instruct (または chat) の 2 つのバージョンがあります。例えば、 tiiuae/falcon-7b
および tiiuae/falcon-7b-instruct
-指示する)。
基本モデルは、最初のプロンプトが与えられたときにテキストを完成させるのには優れていますが、NLP タスクには理想的ではありません。 指示に従う必要がある場合、または会話で使用する場合に使用します。ここで、指示 (チャット) バージョンが登場します。 これらのチェックポイントは、命令と会話データに基づいて事前トレーニングされたベース バージョンをさらに微調整した結果です。 この追加の微調整により、多くの NLP タスクにとってより適切な選択肢になります。
tiiuae/falcon-7b-instruct
で使用できるいくつかの簡単なプロンプトを示してみましょう。 いくつかの一般的な NLP タスクを解決します。
NLP tasks
まず、環境をセットアップしましょう。
次に、適切なパイプライン (text_generation
) を使用してモデルをロードしましょう。
Falcon モデルは bfloat16
データ型を使用してトレーニングされたため、同じものを使用することをお勧めします。これには、最近の CUDA のバージョンに準拠しており、最新のカードで最適に動作します。
パイプライン経由でモデルをロードしたので、プロンプトを使用して NLP タスクを解決する方法を見てみましょう。
Text classification
テキスト分類の最も一般的な形式の 1 つはセンチメント分析であり、「ポジティブ」、「ネガティブ」、「ネガティブ」などのラベルを割り当てます。 または、一連のテキストに対して「中立」です。与えられたテキスト (映画レビュー) を分類するようにモデルに指示するプロンプトを作成してみましょう。 まず指示を与え、次に分類するテキストを指定します。そのままにしておくのではなく、 応答の先頭にも追加します - "Sentiment: "
:
その結果、出力には、手順で提供したリストの分類ラベルが含まれており、それは正しいラベルです。
プロンプトに加えて、max_new_tokens
パラメータを渡していることに気づくかもしれません。トークンの数を制御します。 モデルが生成します。これは、学習できる多くのテキスト生成パラメーターの 1 つです。 テキスト生成戦略 ガイドを参照してください。
Named Entity Recognition
固有表現認識 (NER) は、テキスト内の人物、場所、組織などの固有表現を検索するタスクです。 プロンプトの指示を変更して、LLM にこのタスクを実行させましょう。ここではreturn_full_text = False
も設定しましょう 出力にプロンプトが含まれないようにします。
ご覧のとおり、モデルは指定されたテキストから 2 つの名前付きエンティティを正しく識別しました。
Translation
LLM が実行できるもう 1 つのタスクは翻訳です。このタスクにはエンコーダー/デコーダー モデルを使用することを選択できますが、ここでは 例を簡単にするために、きちんとした仕事をする Falcon-7b-instruct を使い続けます。もう一度、方法は次のとおりです テキストの一部を英語からイタリア語に翻訳するようにモデルに指示する基本的なプロンプトを作成できます。
ここでは、出力生成時にモデルがもう少し柔軟になるように do_sample=True
と top_k=10
を追加しました。
Text summarization
翻訳と同様に、テキストの要約も、出力が入力に大きく依存する生成タスクです。 エンコーダ/デコーダ モデルの方が良い選択になる可能性があります。ただし、デコーダ スタイルのモデルもこのタスクに使用できます。 以前は、プロンプトの先頭に指示を配置していました。ただし、プロンプトの最後で、 指示を与えるのに適した場所でもあります。通常、命令はどちらかの端に配置することをお勧めします。
Question answering
質問応答タスクの場合、プロンプトを次の論理コンポーネントに構造化できます: 指示、コンテキスト、質問、 先頭の単語またはフレーズ ("Answer:"
) を使用して、モデルを操作して答えの生成を開始します。
Reasoning
LLM にとって推論は最も困難なタスクの 1 つであり、良い結果を達成するには、多くの場合、次のような高度なプロンプト テクニックを適用する必要があります。 Chain-of-thought。
基本的なプロンプトを使用して、単純な算術タスクに関するモデル推論を作成できるかどうか試してみましょう。
正しい!もう少し複雑さを増やして、基本的なプロンプトで問題を解決できるかどうかを確認してみましょう。
これは間違った答えです。12 である必要があります。この場合、プロンプトが基本的すぎるか、選択内容が原因である可能性があります。 結局のところ、Falcon の最小バージョンを選択しました。あらゆるサイズのモデルでは推論が困難ですが、より大きなモデルでは モデルのパフォーマンスが向上する可能性があります。
Best practices of LLM prompting
ガイドのこのセクションでは、プロンプトの結果を改善する傾向にあるベスト プラクティスのリストをまとめました。
使用するモデルを選択する場合は、最新かつ最も機能的なモデルの方がパフォーマンスが向上する可能性があります。
シンプルで短いプロンプトから始めて、そこから繰り返します。
指示はプロンプトの最初または最後に入力してください。大規模なコンテキストを扱う場合、モデルはさまざまな最適化を適用して、アテンションの複雑さが二次的に拡大するのを防ぎます。これにより、モデルはプロンプトの途中よりも最初または最後に注意を払うようになります。
指示と、それが適用されるテキストを明確に区別してください。これについては、次のセクションで詳しく説明します。
タスクと望ましい結果 (その形式、長さ、スタイル、言語など) について具体的かつ説明的にします。
曖昧な説明や指示は避けてください。 *「何をしてはいけないか」という指示ではなく、「何をすべきか」という指示を優先します。
最初の単語を書いて (またはモデルの最初の文を始めて)、出力を正しい方向に「導き」ます。
Few-shot prompting や Chain-of-thought などの高度なテクニックを使用します。
さまざまなモデルでプロンプトをテストして、その堅牢性を評価します。
プロンプトのバージョンを確認し、パフォーマンスを追跡します。
Advanced prompting techniques
Few-shot prompting
上記のセクションの基本的なプロンプトは、「ゼロショット」プロンプトの例です。つまり、モデルにはすでに与えられています。 指示とコンテキストはありますが、解決策を含む例はありません。通常、命令データセットに基づいて微調整された LLM このような「ゼロショット」タスクでも優れたパフォーマンスを発揮します。ただし、タスクがより複雑であったり微妙な点があったりする場合があります。 出力には、命令だけではモデルが理解できないいくつかの要件があります。この場合、次のことができます。 少数ショット プロンプトと呼ばれるテクニックを試してください。
少数ショット プロンプトでは、モデルにパフォーマンスを向上させるためのより多くのコンテキストを提供するプロンプト内の例が提供されます。 例では、例のパターンに従って出力を生成するようにモデルを条件付けします。
以下に例を示します。
上記のコード スニペットでは、モデルへの目的の出力を示すために 1 つの例を使用しました。したがって、これは、 「ワンショット」プロンプト。ただし、タスクの複雑さに応じて、複数の例を使用する必要がある場合があります。
数回のプロンプト手法の制限:
LLM は例のパターンを理解できますが、これらの手法は複雑な推論タスクではうまく機能しません。
少数ショットのプロンプトでは、長いプロンプトを作成する必要があります。大量のトークンを含むプロンプトでは、計算量と待ち時間が増加する可能性があります。プロンプトの長さにも制限があります。
多くの例を与えると、モデルが学習するつもりのなかったパターンを学習することがあります。 3番目の映画レビューはいつも否定的だということ。
Chain-of-thought
思考連鎖 (CoT) プロンプトは、モデルを微調整して中間推論ステップを生成し、改善する手法です。 複雑な推論タスクの結果。
モデルを操作して推論ステップを生成するには、2 つの方法があります。
質問に対する詳細な回答を含む例を示し、問題に対処する方法をモデルに示すことで、数回のプロンプトを表示します。
「ステップごとに考えてみましょう」または「深呼吸して、問題をステップごとに解決してください」などのフレーズを追加してモデルに推論を指示します。
推論セクション のマフィンの例に CoT テクニックを適用し、より大きなモデルを使用すると、 HuggingChatで遊べる(tiiuae/falcon-180B-chat
)など、 推論結果は大幅に改善されます。
Prompting vs fine-tuning
プロンプトを最適化することで優れた結果を達成できますが、モデルを微調整するかどうかについてはまだ思案するかもしれません。 あなたの場合にはもっとうまくいくでしょう。より小規模なモデルを微調整することが好ましいオプションである場合のいくつかのシナリオを次に示します。
ドメインが LLM が事前にトレーニングされたものと大きく異なっており、広範なプロンプト最適化では十分な結果が得られませんでした。
モデルが低リソース言語で適切に動作する必要があります。
厳格な規制の下にある機密データでモデルをトレーニングする必要があります。
コスト、プライバシー、インフラストラクチャ、またはその他の制限により、小規模なモデルを使用する必要があります。
上記のすべての例で、十分な大きさのファイルをすでに持っているか、簡単に入手できるかを確認する必要があります。 ドメイン固有のデータセットを合理的なコストでモデルを微調整できます。十分な時間とリソースも必要になります モデルを微調整します。
上記の例が当てはまらない場合は、プロンプトを最適化する方が有益であることがわかります。