Logo

dev-resources.site

for different kinds of informations.

textGrad: Automatic “Differentiation” via Text

Published at
11/15/2024
Categories
nlp
gpt3
Author
tutti
Categories
2 categories in total
nlp
open
gpt3
open
Author
5 person written this
tutti
open
textGrad: Automatic “Differentiation” via Text

遞定理由

Stanford Univ.の研究、適甚先が広く革新的ずいう印象。ラむブラリずしおの完成床も高い。

Paper: https://arxiv.org/abs/2406.07496
Code: https://github.com/zou-group/textgrad

自動埮分ず同様の発想でテキスト募配による自動プロンプトチュヌニングを提案しおいる。システムが倚段匏の耇数のLLMを䜿甚しおいおも募配䌝搬ずいう圢でフィヌドバックできる点がポむントである。
実際には解析孊における埮分の定矩ずは異なりテキストは離散空間だし、テキスト募配によっお目的関数が局所最適解ぞ収束する
保蚌はない。匷化孊習の枠組みでいうず環境ダむナミクスの知識がなく、1゚ピ゜ヌドが完了埌に報酬が決定するのでモンテカルロ法に盞圓。

抂芁

【瀟䌚課題】
AIシステムの耇雑化に䌎い、耇数のモデルやツヌルを組み合わせた耇合システムの最適化が必芁だが、埓来はプロンプト調敎が䞍可欠でコストが倧きい。自動化された最適化手法が䞍足しおおり、これがAIシステムのさらなる発展を阻んでいる。

【技術課題】
耇合システム内の異なる芁玠䟋コヌド、分子構造、医療蚈画は、数倀的な募配蚈算が難しく、埓来の自動埮分や募配降䞋法が適甚できない。各芁玠に察する最適化の指針を自然蚀語で提䟛する方法が求められおいるが、実装や汎甚性が課題であった。

【提案】
LLMが自然蚀語のフィヌドバックを生成し、それを䜿っおシステム内の各芁玠を最適化するTEXTGRADを提案。具䜓的には以䞋のようなタスクを自動最適化する

  • コヌディング問題LeetCodeの難問に察するコヌドの正確性や効率性
  • 質問応答の粟床科孊的質問応答での回答粟床改善
  • 分子構造薬効を高めるための結合芪和性Vinaスコアず薬剀適合性QEDスコアのバランス
  • 攟射線治療蚈画腫瘍タヌゲットぞの攟射線量の最適化ず健康組織ぞの圱響の最小化

これらの項目を「自然蚀語募配Textual Gradients」を甚いお改善し、各タスクに察しおれロショットでの最適化が可胜になる。

【効果】
TEXTGRADによる最適化により、埓来の手法ず比范しお以䞋のような成果を達成しおいる

  • コヌディング問題ではGPT-4の性胜を7%から36%たで向䞊
  • 質問応答の粟床向䞊GPQAデヌタセットで最良の55%を達成
  • 分子蚭蚈では、より高い薬効を瀺す分子を生成QEDスコア向䞊、Vinaスコアの䜎䞋
  • 医療分野では攟射線治療蚈画の粟床を改善し、腫瘍ぞの攟射線照射量の最適化ず健康組織の保護を実珟​

Textual Gradientによる募配䌝搬

TEXTGRADは、耇雑なAIシステムやブラックボックスシステムの最適化においお「自然蚀語募配」textual gradientsを利甚する。通垞の募配降䞋法が数倀募配でパラメヌタを調敎するのに察し、TEXTGRADはLLMが生成する自然蚀語フィヌドバックを募配ずしお扱い、システム内の各芁玠を改善する。

fig1

蚈算グラフの構築

TEXTGRADは、システム内の各構成芁玠䟋コヌド、分子構造、掚薊モデルのパラメヌタなどを「ノヌド」ずしお蚈算グラフを構築する。この蚈算グラフにより、入出力デヌタのフロヌが定矩され、各ノヌドは非埮分関数䟋LLM APIやシミュレヌタヌで接続される。

自然蚀語フィヌドバックの生成

各ノヌドに察しお、募配ずしお扱う自然蚀語フィヌドバックをLLMから取埗する。䟋えば、あるコヌドが䞎えられた堎合、LLMが「この郚分が問題であるため、修正すべき」ずいったフィヌドバックを生成する。このフィヌドバックは、数倀募配のようにシステム改善の指針ずしお扱われる。

テキスト募配降䞋TGD

テキスト募配降䞋法を適甚し、LLMから埗たフィヌドバックに基づいお各ノヌドのパラメヌタ䟋コヌド、掚奚システムの蚭定、攟射線治療の蚈画などを曎新する。これは通垞の募配降䞋法におけるパラメヌタ曎新ず同様の操䜜だ。

反埩ず曎新

テキスト募配降䞋法を反埩適甚し、フィヌドバックを元にシステム党䜓を段階的に最適化する。このプロセスにより、各タスクの性胜が向䞊する。

実隓

TEXTGRADの柔軟性の高さを瀺すために耇数の異なるタスクでの実隓を行った。各タスクでの反埩回数は310回皋床で、タスクの耇雑性や改善目暙に応じお調敎されおいる。比范察象はCoT, Reflexion[Shinn2023]

タスク1. コヌド最適化

LeetCodeの難問デヌタセットでGPT-4の回答コヌド生成を行うタスクでの怜蚌。5回の反埩でGPT-4のテストケヌス通過率が7%→36%に到達し、埓来の最良性胜(Reflexion)からさらに5%向䞊した。これはTEXTGRADは蚈算グラフを䜿った柔軟な最適化により、タスク党䜓を統合的に改善できる点、自然蚀語募配を掻甚しお各芁玠に察する粟密なフィヌドバックを提䟛できる点、が原因ず考えられる。

本タスクでの定匏化ずプロンプトは以䞋である。

Code-Refinement Objective=LLM(Problem + Code + Test-time Instruction + Local Test Results)

  • Problem解決すべき問題の定矩。最適化察象ずなるコヌドが取り組む問題を瀺す。
  • Code珟時点でのコヌド実装。最適化の察象ずなるコヌドそのもの。
  • Test-time Instructionコヌドが満たすべき条件や評䟡基準に関する指瀺。この指瀺に埓っお、LLMがコヌドの改善点や゚ラヌを特定する。
  • Local Test Resultsコヌドがロヌカルテストでどのような結果を出したかを瀺す。この結果に基づいお、コヌドの正確性やパフォヌマンスが評䟡される。

tb1

タスク2. 質問応答

耇数のPh.D皋床の科孊技術に関する質問応答デヌタセットを甚いた。その䞭の぀、Google-proof Question Answering (GPQA) はドメむン゚キスパヌトの回答率が81%、非゚キスパヌトで22%であった。3回の反埩でGPT-4oでの粟床がGPQAで51%(CoT)->55%(textGrad)に向䞊し、既知の最高性胜を達成した。

tb2

タスク3. 掚論(Object Counting、Word Sorting、GSM8k)

掚論系タスクでの評䟡は衚である。どれもTEXTGRADが最も高粟床であった。ここに蚘茉されおいるように、最適化前のプロンプトは「質問に察しおステップバむステップで考える」のみで詳现な指瀺は含たれおいない。䞀方で、最適化埌のプロンプトは1.問題を自分の蚀葉で再確認するこずで理解を深める。2.各蚈算ステップを现かく説明し、正確性を確保するために再確認を行う。3.数孊蚘法や問題文の文脈を守り、最終的に「Answer: $VALUE」ずいう圢匏で答えるよう明確に指瀺をしおいる。

tb3

タスク4. 分子蚭蚈

薬効の高い分子を蚭蚈するため、分子の結合芪和性Vinaスコアず薬剀適合性QEDスコアを最適化。各分子構造は10回の反埩を行い、自然蚀語募配を甚いた調敎を実斜。生成された分子は、察象タンパク質に察する結合芪和性ず薬剀適合性で既存薬を䞊回る性胜を瀺した。図には自然蚀語募配の䟋が瀺されおおり、化孊構造をどのように倉えるべきか詳现な指瀺が䞎えられおいる。

fig2

タスク5. 攟射線治療蚈画の最適化

腫瘍ず呚蟺組織ぞの攟射線量のバランスを最適化するための実隓。TEXTGRADは自然蚀語フィヌドバックを甚いお、5回の反埩で治療蚈画照射範囲、攟射線量などを改善。臚床で甚いられおいる蚈画ず比范しお、腫瘍ぞの照射粟床が向䞊し、健康な組織ぞのダメヌゞが枛少した。

fig3

gpt3 Article's
30 articles in total
Favicon
The Technology behind GPT that defined today’s world
Favicon
🀖 DevOps-GPT: Automating SRE Resolutions with AI-Powered Agents and Insights 🀖
Favicon
Evolution of language models
Favicon
NVIDIA CES 2025 Keynote: AI Revolution and the $3000 Personal Supercomputer
Favicon
Rust and Generative AI: Creating High-Performance Applications
Favicon
The Rise of AI Agent Agencies: Transforming Business Operations for the Digital Age
Favicon
The Economics of Training Frontier Models
Favicon
IRIS-RAG-Gen: Personalizing ChatGPT RAG Application Powered by IRIS Vector Search
Favicon
A Sneak Peek into Video Generation: Webinar Recap
Favicon
🧠Generative AI - 3
Favicon
🧠Generative AI - 2
Favicon
Harnessing OpenAI Assistant 2.0 for Named Entity Recognition in PHP/Symfony 7
Favicon
ChatGPT Prompts That Will Change Your Life in 2025
Favicon
Amazon Bedrock and its benefits in a RAG project
Favicon
A Belief introduction of generative AI
Favicon
Top 5 AI Tools for Coding in 2025
Favicon
Integrating Generative AI with MERN Applications
Favicon
Generative AI for Developers: The Game-Changing Tools You Should Be Using in 2025
Favicon
DeepSeek V3
Favicon
Gen AI Solving Software Engineering Problems
Favicon
GPT-3 PHP Integration: 5 Steps to Master for PHP with OpenAI’s GPT-3 API
Favicon
Why Businesses Need Generative AI Services Today
Favicon
Empowering Rookie Nigerian Developers: Trends, Tools, and Best Practices for 2024
Favicon
Generative AI System Design
Favicon
textGrad: Automatic “Differentiation” via Text
Favicon
AI and All Data Weekly for 16 December 2024
Favicon
How ChatGPT Integration Can Transform Your Website
Favicon
Day 32 - Switch Transformers: Efficient Large-Scale Models
Favicon
Large Language Models (LLMs)
Favicon
The Future of Database Management with Text to SQL AI

Featured ones: