ReAct — AIはなぜ「行動」し始めたのか?
ChatGPTは賢く見える。だが実際には、ただ文章を生成しているだけではないのか。研究者たちはこう考えた。AIは答えられるが、行動できない。その限界を打ち破ったのがReActだった。
ChatGPT以前と以後
2022年11月。
ChatGPTが公開されると、多くの人は人工知能が突然賢くなったように感じた。
質問に答える。
文章を書く。
プログラムを作る。
要約する。
翻訳する。
議論する。
まるで人間と会話しているかのようだった。
しかし研究者たちが注目していたのは、別の問題だった。
ChatGPTは非常に賢く見える。
だが実際には、ただ文章を生成しているだけではないのか。
この疑問は現在でも完全には解決していない。
しかし2022年前後の研究者たちは、より実践的な課題に直面していた。
AIは答えられる。
だが行動できない。
これが当時の大きな限界だった。
言語モデルは「世界」を見ていない
例えば、「フランスの首都は?」と聞けば、モデルは「パリ」と答えられる。これは訓練データに存在しているからだ。
しかし、「今日のドル円レートは?」と聞くとどうだろう。訓練後の情報は知らない。世界で何が起きているか観察できない。
つまり、LLMは膨大な知識を持っていても、現実世界とは切り離されていた。
人間は違う。知らなければ調べる。確認する。検索する。実験する。観察する。そして結果をもとに考える。
知能とは、思考だけではない。
世界との相互作用でもある。
2022年当時、多くの研究者はこうした問題意識を共有し始めていた。
大規模言語モデルは驚くほど賢くなった。
だが、その知能はどこか閉じている。
本の内容をすべて暗記した天才のようなものだった。
膨大な知識を持っている。複雑な推論もできる。しかし本の外で何が起きているのかを知る手段がない。自分で調べることもできない。確認することもできない。
人間の知能との決定的な違いはそこにあった。
Chain-of-Thought革命
ReActが登場する直前、AI研究では大きなブレークスルーが起きていた。
Chain-of-Thought である。
2022年、Googleの研究者たちは驚くべき発見を報告した。
モデルに途中経過を書かせるだけで、推論能力が大幅に向上したのである。
例えば、
Q: Rogerは5個のリンゴを持っている。さらに3個買って2個食べた。残りは?
通常回答: 6
Chain-of-Thought: Rogerは5個持っている。 3個買ったので8個になる。 2個食べたので6個残る。 答えは6。
非常に単純だ。しかし効果は大きかった。
数学。論理問題。常識推論。複雑な質問。様々なベンチマークで性能が向上した。
研究者たちは興奮した。AIは本当に考え始めたのではないか。そう感じさせる結果だった。
実際、Chain-of-Thoughtは現在でもほぼすべての推論系モデルの基礎になっている。OpenAIのoシリーズ。ClaudeのExtended Thinking。GeminiのThinking Mode。名称は違う。しかし本質的には、「途中経過を生成させる」というChain-of-Thoughtの発展形である。
その影響は非常に大きかった。
考えるだけでは限界がある
しかし、Chain-of-Thoughtには根本的な制約があった。
それは、考えることしかできない ということである。
例えば、「現在のApple CEOは誰か?」なら答えられる。訓練データに存在しているからだ。
しかし、「昨日Appleが発表した新製品は?」となると難しい。どれだけ長く考えても、知らない情報は出てこない。
さらに、推論は間違える。幻覚も起こす。計算ミスもする。思考だけでは検証できない。
人間ならどうするだろう。
検索する。電卓を使う。資料を確認する。誰かに聞く。
つまり、思考と行動を組み合わせる。だからこそ正確性が向上する。
当時のLLMには、この「行動」が欠けていた。
ReActの誕生
2022年、Princeton UniversityとGoogle Researchの研究者たちは、非常にシンプルな発想を提案した。
人間は考えるだけではない。行動する。
ならば、AIにも行動させればよい。
こうして誕生したのが ReAct である。
正式名称は ReAct: Synergizing Reasoning and Acting in Language Models 。
Reasoning(推論)と Acting(行動)を組み合わせた名前だ。
論文の核心は単純だった。
従来のLLMは、Question → Reason → Answer という流れで動いていた。
ReActはそこに新しいステップを追加した。
Question
↓
Thought
↓
Action
↓
Observation
↓
Thought
↓
Action
↓
Observation
↓
Answer
考える。行動する。観察する。再び考える。
これは人間が問題解決を行う流れと非常によく似ている。
Thought・Action・Observation
ReActの最も重要な発明は、巨大な新モデルではない。新しい学習アルゴリズムでもない。
プロンプト構造 だった。
モデルは次の形式で考える。
Thought:
まず何をするべきか考える
Action:
実際の行動
Observation:
結果
そして、観察結果を見て再び考える。
例えば、「クリストファー・ノーランが生まれた国の首都は?」という問題なら、
Thought:
まずノーランについて調べよう
Action:
Search[Christopher Nolan]
↓
Observation:
Christopher Nolan was born in the United Kingdom.
↓
Thought:
次に英国の首都を調べよう
Action:
Search[United Kingdom]
↓
Observation:
Capital: London
↓
Answer:
London
現在では当たり前に見える。しかし当時としては革命的だった。AIが初めて、推論しながら外部世界と相互作用したからである。
Agentという概念の原型
今日、私たちは「AI Agent」という言葉を頻繁に目にする。
Claude Code。Cursor。OpenAI Agents。OpenHands。CrewAI。LangGraph。AutoGPT。
名前も実装も異なる。しかし内部を見ると、ほぼすべてが同じループを持っている。
Goal
↓
Think
↓
Act
↓
Observe
↓
Think
↓
Act
↓
Observe
↓
Goal Complete
この構造こそ、ReActが示したものである。
現代のAgentは複雑に見える。複数エージェント。長期記憶。ツール利用。コード実行。計画生成。サブタスク管理。
しかし中心には今でも、Thought → Action → Observation のループが存在する。
ReActは単なる論文ではなかった。Agentという研究分野の原型を作った論文だったのである。
なぜReActは重要だったのか
この論文が重要なのは、性能向上だけではない。
知能の捉え方そのものを変えたからである。
それまでの研究は、「より賢く考える方法」を探していた。
より大きなモデル。より多くのデータ。より優れた推論。
しかしReActは別の方向を示した。
知能とは、世界との相互作用である。
考えるだけでは不十分だ。行動し、結果を観察し、その結果を使って次の行動を決める。
この考え方は、その後のAgent研究全体へと繋がっていく。そして現在のAgentブームの出発点の一つとなった。
ReActは本当に効果があったのか
ReActのアイデアは非常にシンプルだった。考える。行動する。観察する。再び考える。
しかし研究として重要なのは、「面白いアイデア」で終わらないことである。
本当に性能が向上するのか。従来手法より優れているのか。
研究者たちは複数のベンチマークを用いて検証を行った。その結果は予想以上に興味深いものだった。
HotpotQA — 複数の知識をつなぐ
最初の代表例が HotpotQA である。
これは単純な知識問題ではない。複数の情報を組み合わせなければ答えられない。
例えば、「ある映画監督が生まれた国の首都はどこか」という質問なら、
まず監督を調べる。次に出身国を調べる。最後に首都を調べる。
という複数段階の推論が必要になる。
従来のLLMは、訓練時の記憶だけで答えようとする。そのため途中の推論を間違えたり、存在しない事実を作り出したりすることがあった。
しかしReActは違う。必要な情報をその都度検索し、観察結果を使って次の行動を決める。
これは人間の問題解決に近い。分からないことを推測するのではなく、調べるのである。
研究結果は明確だった。ReActはChain-of-Thought単独より高い正答率を示した。理由は単純である。知らないことを推測しなくなったからだ。
FEVER — 幻覚との戦い
もう一つ重要だったのが FEVER である。
Fact Extraction and VERification。つまり、事実確認タスクである。
例えば、「エッフェル塔はベルリンにある」という文章が与えられる。モデルは、真か偽かを判定しなければならない。
人間には簡単だ。しかしLLMは意外なほど間違える。知識を持っていても、それを正しく参照できないからだ。
ReActはまず証拠を探す。Wikipediaを検索する。関連文書を読む。必要な情報を集める。そして結論を出す。
これは重要な変化だった。単なる生成モデルから、検証を行うモデルへの変化である。
現在のRAGや検索統合型AIにも通じる発想だった。
ALFWorld — AIは仮想世界で働けるか
ReAct論文で特に興味深いのは、知識問題だけでは終わらなかったことだ。
研究者たちは、AIに仮想環境で実際に行動させた。その一つが ALFWorld である。
ALFWorldは家庭環境シミュレーターだ。キッチン。冷蔵庫。電子レンジ。棚。引き出し。様々なオブジェクトが存在する。
例えば、「リンゴを冷蔵庫に入れてください」という指示が与えられる。人間なら簡単だ。しかしAIには複数ステップが必要になる。
リンゴを探す。→ 手に取る。→ 冷蔵庫を探す。→ 開ける。→ 中へ入れる。
行動の途中で失敗することもある。間違った部屋へ行くこともある。別の物を持つこともある。
ここでReActが機能した。観察結果を利用して、次の行動を修正するのである。
これは現在のロボティクス研究にも近い。環境を観察しながら目標達成を目指す。Agent研究の重要な方向性がすでに現れていた。
WebShop — オンラインショッピングをさせてみる
さらに面白い実験がある。WebShop である。名前の通り、オンラインショッピング環境だ。
例えば、ユーザーがこう依頼する。「防水で青色のハイキング用バックパックを探してください」
AIは商品一覧を見る。検索する。レビューを読む。候補を比較する。条件に合う商品を探す。
これは現代のAgentに非常に近い。実際、今日のブラウザ操作型Agentがやっていることと本質的には同じである。
WebShopでReActは従来手法を大きく上回った。理由は単純だった。思考だけで答えを作るのではなく、実際に商品を調べたからである。
ReActが示した新しい知能観
ここで重要なのは、性能向上そのものではない。もっと大きな意味がある。
ReAct以前、知能とは推論能力だと考えられていた。より大きなモデル。より多くのデータ。より高度な推論。
しかしReActは別の考え方を示した。
知能とは、環境との相互作用である。
考えるだけでは不十分だ。行動する。結果を見る。修正する。再挑戦する。
この考え方はAI研究に大きな影響を与えた。
AutoGPTへの影響
2023年になると、Agentブームが始まる。その代表例が AutoGPT だった。
目標を与える。→ 計画を立てる。→ ツールを使う。→ 結果を確認する。→ 再計画する。
構造を見れば分かる。ReActそのものである。
AutoGPTは大きな話題になった。しかし実際には、突然現れたわけではない。ReActが作った基礎の上に構築されていた。
Claude CodeやCursorとの関係
2025年以降、Agentはさらに進化した。Claude Code。Cursor。OpenAI Agents。OpenHands。
これらは非常に高度に見える。コードを書く。実行する。エラーを読む。修正する。再実行する。
だが本質は変わらない。
Thought → Action → Observation → Thought
ReActのループである。
Claude Codeがログを読み、エラー原因を分析し、修正コードを書く流れも、本質的にはReActそのものだ。
現在のAgent技術の多くは、巨大化したReActと言っても過言ではない。
ReActの限界
しかしReActには大きな弱点もあった。
学習できない。
これが最大の問題だった。
例えば、あるタスクで失敗したとする。人間なら、次回は改善する。経験が残るからだ。
しかしReActは違う。タスクが終われば、経験も消える。
同じ失敗を繰り返す。同じ探索を繰り返す。同じ試行錯誤を繰り返す。
行動はできる。観察もできる。しかし成長できない。
ここに次の研究課題が現れた。
Agentはどうすれば経験から学べるのか。
この問いが、後のAgent研究を大きく動かしていく。
ReActが残したもの
ReActはTransformerほど有名ではない。ChatGPTほど社会現象にもなっていない。
しかし現在のAgent研究を理解するうえで、最も重要な論文の一つである。
なぜなら、AIが単なる文章生成システムから、行動主体へ変わった瞬間だったからだ。
考える。行動する。観察する。再び考える。
現在のAgentフレームワークの多くは、今もなおこのループの上に立っている。
そして研究者たちは次の課題へ向かった。
行動できるだけでは足りない。成長できなければならない。
その答えの一つとして登場したのが、Minecraftの世界で自律的に学習し続けたAIエージェント、Voyager だった。
論文情報
Yao, S., Zhao, J., Yu, D., Du, N., Shafran, I., Narasimhan, K., & Cao, Y. (2022). ReAct: Synergizing Reasoning and Acting in Language Models. https://arxiv.org/abs/2210.03629
次回予告
ReActがAIへ「行動する能力」を与えた論文だとすれば、次に登場する Voyager は、その行動から「成長する能力」を与えた論文である。
Minecraftの世界で、自律的にスキルを獲得し続けるAIエージェント。
なぜVoyagerは、同じタスクを繰り返しても飽きず、新しい目標へ向かい続けるのだろうか。