DPOの理解

直接選好最適化（DPO）

直接選好最適化（DPO）は、言語モデルを人間の好みに合わせるための簡素化されたアプローチを提供します。従来のRLHF（人間のフィードバックを用いた強化学習）メソッドとは異なり、DPOは別個の報酬モデルや複雑な強化学習アルゴリズムを必要とせず、選好データを使用してモデルを直接最適化します。

DPOは、選好の整合を人間の選好データに基づく分類問題として再定義します。従来のRLHFアプローチでは、別個の報酬モデルをトレーニングし、PPO（近接ポリシー最適化）などの複雑なアルゴリズムを使用してモデルの出力を整合させる必要があります。DPOは、好ましい出力と好ましくない出力に基づいてモデルのポリシーを直接最適化する損失関数を定義することで、このプロセスを簡素化します。

このアプローチは実際に非常に効果的であり、Llamaなどのモデルのトレーニングに使用されています。別個の報酬モデルや強化学習のステージを必要としないため、DPOは選好の整合をよりアクセスしやすく、安定したものにします。

DPOの仕組み

DPOのプロセスには、ターゲットドメインにモデルを適応させるための教師あり微調整（SFT）が必要です。これにより、標準的な指示追従データセットでトレーニングすることで、選好学習の基盤が形成されます。モデルは基本的なタスクを完了しながら、一般的な能力を維持することを学びます。

次に、選好学習が行われ、モデルは好ましい出力と好ましくない出力のペアでトレーニングされます。選好ペアは、モデルがどの応答が人間の価値観や期待に最も一致するかを理解するのに役立ちます。

DPOの中心的な革新は、その直接最適化アプローチにあります。別個の報酬モデルをトレーニングする代わりに、DPOはバイナリクロスエントロピー損失を使用して、選好データに基づいてモデルの重みを直接更新します。この簡素化されたプロセスにより、トレーニングがより安定し、効率的になり、従来のRLHFメソッドと同等またはそれ以上の結果が得られます。

DPOのデータセット

DPOのデータセットは、通常、選好または非選好として注釈された応答ペアを含むように作成されます。これは手動で行うか、自動フィルタリング技術を使用して行うことができます。以下は、単一ターンのDPO選好データセットの構造の例です：

プロンプト	選好	非選好
…	…	…
…	…	…
…	…	…

Prompt列には、選好および非選好の応答を生成するために使用されたプロンプトが含まれています。選好および非選好列には、それぞれ好ましい応答と好ましくない応答が含まれています。この構造にはバリエーションがあり、例えば、system_promptやInput列に参照資料を含めることができます。選好および非選好の値は、単一ターンの会話の場合は文字列として、または会話リストとして表現されることがあります。

Hugging FaceでDPOデータセットのコレクションをこちらで見つけることができます。

TRLを使用した実装

Transformers Reinforcement Learning（TRL）ライブラリは、DPOの実装を容易にします。DPOConfigおよびDPOTrainerクラスは、transformersスタイルのAPIに従います。

以下は、DPOトレーニングを設定する基本的な例です：

from trl import DPOConfig, DPOTrainer

<CopyLLMTxtMenu containerStyle="float: right; margin-left: 10px; display: inline-flex; position: relative; z-index: 10;"></CopyLLMTxtMenu>

# 引数を定義
training_args = DPOConfig(
    ...
)

# トレーナーを初期化
trainer = DPOTrainer(
    model,
    train_dataset=dataset,
    tokenizer=tokenizer,
    ...
)

# モデルをトレーニング
trainer.train()

DPOConfigおよびDPOTrainerクラスの使用方法の詳細については、DPOチュートリアルを試してみてください。この実践ガイドでは、データの準備からトレーニングおよび評価まで、選好整合の実装方法を説明します。

⏭️ チュートリアルを完了した後、別の選好整合技術について学ぶためにORPOページを探索してください。

Update on GitHub