2026-06-02 · Ankina Lab

ReAct — AIはなぜ「行動」し始めたのか?

ChatGPTは賢く見える。だが実際には、ただ文章を生成しているだけではないのか。研究者たちはこう考えた。AIは答えられるが、行動できない。その限界を打ち破ったのがReActだった。

ChatGPT以前と以後

2022年11月。

ChatGPTが公開されると、多くの人は人工知能が突然賢くなったように感じた。

質問に答える。

文章を書く。

プログラムを作る。

要約する。

翻訳する。

議論する。

まるで人間と会話しているかのようだった。

しかし研究者たちが注目していたのは、別の問題だった。

ChatGPTは非常に賢く見える。

だが実際には、ただ文章を生成しているだけではないのか。

この疑問は現在でも完全には解決していない。

しかし2022年前後の研究者たちは、より実践的な課題に直面していた。


AIは答えられる。

だが行動できない。


これが当時の大きな限界だった。


言語モデルは「世界」を見ていない

例えば、「フランスの首都は?」と聞けば、モデルは「パリ」と答えられる。これは訓練データに存在しているからだ。

しかし、「今日のドル円レートは?」と聞くとどうだろう。訓練後の情報は知らない。世界で何が起きているか観察できない。

つまり、LLMは膨大な知識を持っていても、現実世界とは切り離されていた。

人間は違う。知らなければ調べる。確認する。検索する。実験する。観察する。そして結果をもとに考える。

知能とは、思考だけではない。

世界との相互作用でもある。


2022年当時、多くの研究者はこうした問題意識を共有し始めていた。

大規模言語モデルは驚くほど賢くなった。

だが、その知能はどこか閉じている。

本の内容をすべて暗記した天才のようなものだった。

膨大な知識を持っている。複雑な推論もできる。しかし本の外で何が起きているのかを知る手段がない。自分で調べることもできない。確認することもできない。

人間の知能との決定的な違いはそこにあった。


Chain-of-Thought革命

ReActが登場する直前、AI研究では大きなブレークスルーが起きていた。

Chain-of-Thought である。

2022年、Googleの研究者たちは驚くべき発見を報告した。

モデルに途中経過を書かせるだけで、推論能力が大幅に向上したのである。

例えば、

Q: Rogerは5個のリンゴを持っている。さらに3個買って2個食べた。残りは?

通常回答: 6

Chain-of-Thought: Rogerは5個持っている。 3個買ったので8個になる。 2個食べたので6個残る。 答えは6。

非常に単純だ。しかし効果は大きかった。

数学。論理問題。常識推論。複雑な質問。様々なベンチマークで性能が向上した。

研究者たちは興奮した。AIは本当に考え始めたのではないか。そう感じさせる結果だった。

実際、Chain-of-Thoughtは現在でもほぼすべての推論系モデルの基礎になっている。OpenAIのoシリーズ。ClaudeのExtended Thinking。GeminiのThinking Mode。名称は違う。しかし本質的には、「途中経過を生成させる」というChain-of-Thoughtの発展形である。

その影響は非常に大きかった。


考えるだけでは限界がある

しかし、Chain-of-Thoughtには根本的な制約があった。

それは、考えることしかできない ということである。

例えば、「現在のApple CEOは誰か?」なら答えられる。訓練データに存在しているからだ。

しかし、「昨日Appleが発表した新製品は?」となると難しい。どれだけ長く考えても、知らない情報は出てこない。

さらに、推論は間違える。幻覚も起こす。計算ミスもする。思考だけでは検証できない。

人間ならどうするだろう。

検索する。電卓を使う。資料を確認する。誰かに聞く。

つまり、思考と行動を組み合わせる。だからこそ正確性が向上する。

当時のLLMには、この「行動」が欠けていた。


ReActの誕生

2022年、Princeton UniversityとGoogle Researchの研究者たちは、非常にシンプルな発想を提案した。

人間は考えるだけではない。行動する。

ならば、AIにも行動させればよい。

こうして誕生したのが ReAct である。

正式名称は ReAct: Synergizing Reasoning and Acting in Language Models

Reasoning(推論)と Acting(行動)を組み合わせた名前だ。

論文の核心は単純だった。

従来のLLMは、Question → Reason → Answer という流れで動いていた。

ReActはそこに新しいステップを追加した。

Question
↓
Thought
↓
Action
↓
Observation
↓
Thought
↓
Action
↓
Observation
↓
Answer

考える。行動する。観察する。再び考える。

これは人間が問題解決を行う流れと非常によく似ている。


Thought・Action・Observation

ReActの最も重要な発明は、巨大な新モデルではない。新しい学習アルゴリズムでもない。

プロンプト構造 だった。

モデルは次の形式で考える。

Thought:
まず何をするべきか考える

Action:
実際の行動

Observation:
結果

そして、観察結果を見て再び考える。

例えば、「クリストファー・ノーランが生まれた国の首都は?」という問題なら、

Thought:
まずノーランについて調べよう

Action:
Search[Christopher Nolan]

Observation:
Christopher Nolan was born in the United Kingdom.

Thought:
次に英国の首都を調べよう

Action:
Search[United Kingdom]

Observation:
Capital: London

Answer:
London

現在では当たり前に見える。しかし当時としては革命的だった。AIが初めて、推論しながら外部世界と相互作用したからである。


Agentという概念の原型

今日、私たちは「AI Agent」という言葉を頻繁に目にする。

Claude Code。Cursor。OpenAI Agents。OpenHands。CrewAI。LangGraph。AutoGPT。

名前も実装も異なる。しかし内部を見ると、ほぼすべてが同じループを持っている。

Goal
↓
Think
↓
Act
↓
Observe
↓
Think
↓
Act
↓
Observe
↓
Goal Complete

この構造こそ、ReActが示したものである。

現代のAgentは複雑に見える。複数エージェント。長期記憶。ツール利用。コード実行。計画生成。サブタスク管理。

しかし中心には今でも、Thought → Action → Observation のループが存在する。

ReActは単なる論文ではなかった。Agentという研究分野の原型を作った論文だったのである。


なぜReActは重要だったのか

この論文が重要なのは、性能向上だけではない。

知能の捉え方そのものを変えたからである。

それまでの研究は、「より賢く考える方法」を探していた。

より大きなモデル。より多くのデータ。より優れた推論。

しかしReActは別の方向を示した。

知能とは、世界との相互作用である。

考えるだけでは不十分だ。行動し、結果を観察し、その結果を使って次の行動を決める。

この考え方は、その後のAgent研究全体へと繋がっていく。そして現在のAgentブームの出発点の一つとなった。


ReActは本当に効果があったのか

ReActのアイデアは非常にシンプルだった。考える。行動する。観察する。再び考える。

しかし研究として重要なのは、「面白いアイデア」で終わらないことである。

本当に性能が向上するのか。従来手法より優れているのか。

研究者たちは複数のベンチマークを用いて検証を行った。その結果は予想以上に興味深いものだった。


HotpotQA — 複数の知識をつなぐ

最初の代表例が HotpotQA である。

これは単純な知識問題ではない。複数の情報を組み合わせなければ答えられない。

例えば、「ある映画監督が生まれた国の首都はどこか」という質問なら、

まず監督を調べる。次に出身国を調べる。最後に首都を調べる。

という複数段階の推論が必要になる。

従来のLLMは、訓練時の記憶だけで答えようとする。そのため途中の推論を間違えたり、存在しない事実を作り出したりすることがあった。

しかしReActは違う。必要な情報をその都度検索し、観察結果を使って次の行動を決める。

これは人間の問題解決に近い。分からないことを推測するのではなく、調べるのである。

研究結果は明確だった。ReActはChain-of-Thought単独より高い正答率を示した。理由は単純である。知らないことを推測しなくなったからだ。


FEVER — 幻覚との戦い

もう一つ重要だったのが FEVER である。

Fact Extraction and VERification。つまり、事実確認タスクである。

例えば、「エッフェル塔はベルリンにある」という文章が与えられる。モデルは、真か偽かを判定しなければならない。

人間には簡単だ。しかしLLMは意外なほど間違える。知識を持っていても、それを正しく参照できないからだ。

ReActはまず証拠を探す。Wikipediaを検索する。関連文書を読む。必要な情報を集める。そして結論を出す。

これは重要な変化だった。単なる生成モデルから、検証を行うモデルへの変化である。

現在のRAGや検索統合型AIにも通じる発想だった。


ALFWorld — AIは仮想世界で働けるか

ReAct論文で特に興味深いのは、知識問題だけでは終わらなかったことだ。

研究者たちは、AIに仮想環境で実際に行動させた。その一つが ALFWorld である。

ALFWorldは家庭環境シミュレーターだ。キッチン。冷蔵庫。電子レンジ。棚。引き出し。様々なオブジェクトが存在する。

例えば、「リンゴを冷蔵庫に入れてください」という指示が与えられる。人間なら簡単だ。しかしAIには複数ステップが必要になる。

リンゴを探す。→ 手に取る。→ 冷蔵庫を探す。→ 開ける。→ 中へ入れる。

行動の途中で失敗することもある。間違った部屋へ行くこともある。別の物を持つこともある。

ここでReActが機能した。観察結果を利用して、次の行動を修正するのである。

これは現在のロボティクス研究にも近い。環境を観察しながら目標達成を目指す。Agent研究の重要な方向性がすでに現れていた。


WebShop — オンラインショッピングをさせてみる

さらに面白い実験がある。WebShop である。名前の通り、オンラインショッピング環境だ。

例えば、ユーザーがこう依頼する。「防水で青色のハイキング用バックパックを探してください」

AIは商品一覧を見る。検索する。レビューを読む。候補を比較する。条件に合う商品を探す。

これは現代のAgentに非常に近い。実際、今日のブラウザ操作型Agentがやっていることと本質的には同じである。

WebShopでReActは従来手法を大きく上回った。理由は単純だった。思考だけで答えを作るのではなく、実際に商品を調べたからである。


ReActが示した新しい知能観

ここで重要なのは、性能向上そのものではない。もっと大きな意味がある。

ReAct以前、知能とは推論能力だと考えられていた。より大きなモデル。より多くのデータ。より高度な推論。

しかしReActは別の考え方を示した。

知能とは、環境との相互作用である。

考えるだけでは不十分だ。行動する。結果を見る。修正する。再挑戦する。

この考え方はAI研究に大きな影響を与えた。


AutoGPTへの影響

2023年になると、Agentブームが始まる。その代表例が AutoGPT だった。

目標を与える。→ 計画を立てる。→ ツールを使う。→ 結果を確認する。→ 再計画する。

構造を見れば分かる。ReActそのものである。

AutoGPTは大きな話題になった。しかし実際には、突然現れたわけではない。ReActが作った基礎の上に構築されていた。


Claude CodeやCursorとの関係

2025年以降、Agentはさらに進化した。Claude Code。Cursor。OpenAI Agents。OpenHands。

これらは非常に高度に見える。コードを書く。実行する。エラーを読む。修正する。再実行する。

だが本質は変わらない。

Thought → Action → Observation → Thought

ReActのループである。

Claude Codeがログを読み、エラー原因を分析し、修正コードを書く流れも、本質的にはReActそのものだ。

現在のAgent技術の多くは、巨大化したReActと言っても過言ではない。


ReActの限界

しかしReActには大きな弱点もあった。

学習できない。

これが最大の問題だった。

例えば、あるタスクで失敗したとする。人間なら、次回は改善する。経験が残るからだ。

しかしReActは違う。タスクが終われば、経験も消える。

同じ失敗を繰り返す。同じ探索を繰り返す。同じ試行錯誤を繰り返す。

行動はできる。観察もできる。しかし成長できない。

ここに次の研究課題が現れた。

Agentはどうすれば経験から学べるのか。

この問いが、後のAgent研究を大きく動かしていく。


ReActが残したもの

ReActはTransformerほど有名ではない。ChatGPTほど社会現象にもなっていない。

しかし現在のAgent研究を理解するうえで、最も重要な論文の一つである。

なぜなら、AIが単なる文章生成システムから、行動主体へ変わった瞬間だったからだ。

考える。行動する。観察する。再び考える。

現在のAgentフレームワークの多くは、今もなおこのループの上に立っている。

そして研究者たちは次の課題へ向かった。

行動できるだけでは足りない。成長できなければならない。

その答えの一つとして登場したのが、Minecraftの世界で自律的に学習し続けたAIエージェント、Voyager だった。


論文情報

Yao, S., Zhao, J., Yu, D., Du, N., Shafran, I., Narasimhan, K., & Cao, Y. (2022). ReAct: Synergizing Reasoning and Acting in Language Models. https://arxiv.org/abs/2210.03629


次回予告

ReActがAIへ「行動する能力」を与えた論文だとすれば、次に登場する Voyager は、その行動から「成長する能力」を与えた論文である。

Minecraftの世界で、自律的にスキルを獲得し続けるAIエージェント。

なぜVoyagerは、同じタスクを繰り返しても飽きず、新しい目標へ向かい続けるのだろうか。

ブログに戻る