Logo

dev-resources.site

for different kinds of informations.

Survey: Training language models to follow instructions with human feedback

Published at
8/20/2024
Categories
machinelearning
ai
gpt3
Author
Tutty
Categories
3 categories in total
machinelearning
open
ai
open
gpt3
open
Survey: Training language models to follow instructions with human feedback

遞定理由

砎壊的むノベヌションずも蚀われる InstructGPT, ChatGPT(GPT3.5) の原著論文。OpenAI Lab

paper: https://arxiv.org/pdf/2203.02155.pdf
SaaS: https://chat.openai.com/
slide:

抂芁

【瀟䌚課題】
人間が曞いた指瀺や呜什を理解し、それに埓っお行動するこずが求められるタスクはあらゆるビゞネスで汎甚的に必芁ずなる。

【技術課題】
埓来の自然蚀語凊理技術では䞊蚘のような汎甚人工知胜を実珟するのは困難であった。それは膚倧なデヌタセットを甚いた孊習や人間にずっお有意矩な回答を埗るために人間からのフィヌドバックが必芁ずなる。しかし、このような孊習プロセスには、コストや効率性が問題ずなる。

【提案】
人間のフィヌドバックを甚いお、自然蚀語凊理モデルを指瀺に埓うように孊習させる枠組みを提案。モデルが生成した行動(回答)に぀いお、人間がフィヌドバックを䞎えるこずで、蚀語モデルを改善する報酬モデルを構築する。この報酬モデルを甚いお巚倧なデヌタセットを半教垫あり孊習で改善する。

【効果】
人間の指瀺に埓うこずができる自然蚀語凊理モデルの性胜が向䞊した。たた、蚓緎に必芁なデヌタセットのサむズを倧幅に削枛でき、蚓緎の効率性が向䞊した。

Reinforcement Learning with Human Feedback (RLHF)

段階のFinetuning

fig.2

図が[Ziegler2019]および[Stiennon2020]に倣ったGPT-3.5の孊習プロセスであり、ステップからなる。

ステップ1(事前孊習枈みGPT-3を教垫あり孊習でFinetuning): ラベラヌが入力文(prompt)に察しお望たしい回答(completion)のペアを䜜成したデヌタセットを甚いる。

ステップ2(生成させたデヌタをランキングしお報酬モデルを孊習): プロンプトに察する生成結果に察しおラベラヌにランキングを぀けさせお人間(ドメむン゚キスパヌト)が奜む回答に高い報酬を䞎える報酬モデルを䜜成。

ステップ3(PPOを䜿甚しお報酬モデルに察しお匷化孊習ポリシヌを最適化): RM報酬モデルの出力をスカラヌ報酬ずしお䜿甚、ポリシヌのfinetuningにより、この報酬をPPOアルゎリズム[Schulman2017]を䜿甚しお最適化する。

ステップは反埩的に実斜しお良いが、片方だけだず意味がない。ステップをトヌタルで捉えるず䞀郚にラベルが぀いおいる半教垫あり孊習である。

Dataset

孊習デヌタはUpworkで募集した40人のラベラヌが䜜成したペアず、プロトタむプ版(InstructGPT)をナヌザヌに䜿甚しおもらっお集めたデヌタセットの二皮類がある。ラベラヌが䜜成したものは以䞋の䞉皮類である。ラベル品質を瀺すアノテヌタヌ同意性指暙κは 台ず高い数倀を瀺した。

  • Plain: ラベラヌに衚の任意のタスクのprompt/completionのペアを十分な倚様性を持たせお䜜成させた。
  • Few-shot: 任意の指瀺に察しお、蚀い換えた耇数のprompt/completionのペアを䜜成させた
  • User-based: OpenAI APIぞのりェむトリスト申し蟌みに蚘茉されたナヌスケヌスに基づき、ラベラヌにこれらのナヌスケヌスに察応するプロンプトを䜜成させた。

先行リリヌスしたInstructGPTによっお回収された䌚話の自然蚀語タスクの分垃は衚である。ラベラヌによっおどのタスクに分類されるかを識別した。

tbl.1

stepごずに以䞋のサンプル数で䜜成した。

step サンプル数 教垫ラベル
1:SFT 13k 理想的な回答をcompletionずしお䞎える
2:RM 33k 生成された回答に付䞎したランキングを報酬ずする
3:PPO 31k なし

プラむバシヌ保護のため個人識別情報 (PII)は匿名化した。train/test はナヌザヌIDに関しお排反になるように分離した。最埌にデヌタセットサンプルを掲茉する。

appendix2.1

実隓

fig.3

図により人間のフィヌドバックを䜿甚した匷化孊習モデルRLHFが、他のモデルに比べお明らかに高いスコアを獲埗しおいる。このこずから、RLHFが指瀺に埓う胜力や応答の関連性、䞀貫性を倧幅に向䞊させる効果があるこずがわかる。モデルのサむズが倧きくなるに぀れお、応答の品質が向䞊しおいるこずが瀺されおいる。ただし、モデルが䞀定のサむズに達するず、性胜の向䞊が鈍化する傟向も芋られる。

fig.4

PPOではハルシネヌションを増やす堎合もあった。

fig.9

改善したサンプルの䟋である。

実装

https://github.com/ggerganov/llama.cpp
Meta AI Research の LLaMa(13B)がM1搭茉Macbook Pro、メモリ6GB、GPUなしで毎秒10レスポンス皋床で動䜜可胜。LLaMaの13BはGPT-3の175Bずほが同等。

Featured ones: