2026-06-03 · Ankina Lab

Voyager — AIはなぜ「成長」し始めたのか？

ChatGPTは経験から学ばない。今日の会話の知識は、明日には消える。しかし2023年、NVIDIAの研究者たちはMinecraftの世界でそれを変えた。AIが自ら探索し、スキルを獲得し、成長し始めた。

ChatGPTは学習しない

2022年末にChatGPTが登場したとき、多くの人は驚いた。

AIが会話する。文章を書く。プログラムを書く。まるで知性を獲得したかのように見えた。

しかし実際には、ChatGPTには大きな制約があった。

それは、経験から成長しないこと である。

今日の会話で何かを学んでも、その知識は次の会話には引き継がれない。木を切る方法を覚えても、翌日には忘れている。何千回成功しても、何千回失敗しても、その経験は蓄積されない。

もちろん、モデルそのものは膨大な知識を持っている。しかしそれは学習済みの知識であり、運用中に新たな経験を積み重ねて成長しているわけではない。

この問題は、AIエージェント研究において非常に重要だった。

もしAIが本当に人間のように行動するなら、経験から学ぶ、スキルを獲得する、過去を活かす、徐々に能力を拡張する——はずである。

そこで研究者たちは考えた。

AIに「経験の蓄積」を与えられないだろうか？

その問いから生まれた研究の一つが、Voyager である。

2023年、NVIDIAの研究者たちは、AIをMinecraftの世界へ送り込んだ。そして驚くべきことに、そのAIは自ら探索し、自ら目標を設定し、自らスキルを獲得し始めたのである。

Minecraftという実験場

なぜMinecraftだったのだろうか。

Minecraftは単なるゲームではない。研究者たちにとっては、極めて優れた人工世界 である。

プレイヤーは何も持たない状態から始まる。まず木を切る。木材を集める。作業台を作る。ツルハシを作る。石を掘る。鉄を集める。装備を整える。遠くを探索する。新しい資源を見つける。そしてさらに高度な道具を作る。

この過程は、単純な行動の積み重ねではない。後の行動を実現するために、前段階のスキルが必要になる。つまりMinecraftには、長期的なスキルの連鎖 が存在する。

これは現実世界に近い。料理を作るには包丁を使える必要がある。プログラムを書くには言語を学ぶ必要がある。会社を経営するには会計や組織運営を理解する必要がある。能力は階層的に積み上がる。

だからこそMinecraftは、AIが成長できるかを試す理想的な環境だった。

Voyagerの目標

研究者たちは単純なゲームクリアを目指していたわけではない。むしろ逆だった。

通常のAI研究では、明確なゴールが与えられる。例えば、チェスで勝つ、囲碁で勝つ、ゲームをクリアするなどである。

しかし現実世界には明確なゴールが存在しない。人間は人生の途中で新しい目標を作る。新しい興味を持つ。新しい挑戦を始める。

Voyagerが目指したのは、そうした Open-Ended Exploration（終わりのない探索） だった。

AI自身が次の目標を決め、新しい能力を獲得し続ける。これは従来のエージェント研究とは大きく異なる発想だった。

従来のエージェントの限界

Voyager以前にもエージェント研究は存在していた。例えばReAct。

ReActは、Reasoning（考える）と Acting（行動する）を組み合わせた。AIは考えながら行動できるようになった。

しかし問題が残っていた。経験が蓄積されない。

例えば、ある洞窟で鉄鉱石を見つけたとする。次のタスクで同じ状況になっても、その経験は再利用されない。毎回ゼロから考え直す。

これは非常に非効率だった。

人間ならどうだろう。一度自転車に乗れるようになれば、翌日も乗れる。一度プログラミングを覚えれば、次も活用できる。

学習とは、過去の経験を再利用する仕組みである。Voyagerはここに挑戦した。

Voyagerの革新①：スキルライブラリ

Voyager最大の特徴は、Skill Library（スキルライブラリ） だった。

従来のエージェントは、成功した経験を保存しない。Voyagerは違う。成功した行動を、再利用可能なスキルとして保存する。

例えば、「木を切る」という行動が成功したとする。Voyagerはその行動手順を保存する。次に木材が必要になったとき、再びゼロから考える必要はない。保存済みのスキルを呼び出せばよい。

ここが非常に重要だった。AIは経験を蓄積できるようになったのである。

なぜコードだったのか

ここで興味深い選択が行われた。Voyagerはスキルを文章で保存しなかった。コードとして保存したのである。

例えば、「鉄を掘る方法」を自然言語で保存すると、曖昧さが残る。しかしコードなら違う。手順が明確であり、そのまま再実行できる。

研究者たちは、知識ではなく、実行可能な能力 を保存したかった。だからスキルはコードになった。

これは後のAgent研究にも大きな影響を与える。

コード保存のメリット

コードには大きな利点があった。

第一に再利用できる。第二に組み合わせられる。第三に圧縮できる。

例えば、木を切るスキル、石を掘るスキル、鉄を集めるスキル。これらを組み合わせれば、より高度なタスクを実行できる。

人間も同じである。足し算を覚える。掛け算を覚える。代数を学ぶ。微積分を学ぶ。新しい能力は、過去の能力の組み合わせから生まれる。

Voyagerはその考え方をAIへ持ち込んだ。

Voyagerの革新②：自動カリキュラム生成

しかしスキル保存だけでは不十分だった。どのスキルを学ぶべきかを決めなければならない。

ここで登場するのが、Automatic Curriculum である。

通常の教育では、教師がカリキュラムを作る。小学算数。中学数学。高校数学。大学数学。順番が決められている。

しかしVoyagerには教師がいない。そこでAI自身が、次に学ぶべき課題を決める。

例えば、木材を入手した。次は石を掘ろう。石を掘った。次は鉄を探そう。鉄を手に入れた。次は装備を作ろう。

こうして探索が連続していく。これは単なるタスク実行ではない。AI自身が成長計画を立てているのである。

AIは目標を作れるのか

この研究が注目された理由の一つはここにある。

従来のAIは、与えられた目標を達成する。しかしVoyagerは、次の目標を提案する。

もちろん完全な自由意思ではない。それでも、行動の方向性を自ら選び始めたことは大きかった。

後の長期エージェント研究において、この考え方は非常に重要になる。AIは命令を実行するだけでなく、自ら探索し始めるのである。

失敗からどう学ぶのか

スキルライブラリを持つだけでは十分ではない。本当に重要なのは、失敗したときにどう振る舞うか である。

人間も最初から成功するわけではない。料理を作れば焦がす。プログラムを書けばエラーが出る。自転車に乗れば転ぶ。しかし、その失敗から学ぶことで能力を獲得していく。

Voyagerも同じ問題に直面していた。生成されたコードが常に正しいとは限らない。木を切ろうとして失敗することもある。道具を作ろうとして材料不足になることもある。洞窟探索で危険な状況に陥ることもある。

もし失敗のたびに終了していたら、エージェントは成長できない。

そこでVoyagerは、実行結果を観察し、失敗理由を分析し、再びコードを生成するという仕組みを導入した。

自己改善ループ

Voyagerの中心には、非常にシンプルなループが存在する。

目標を決定する
コードを生成する
Minecraftで実行する
結果を観察する
失敗原因を分析する
コードを修正する
再実行する

これを繰り返す。

文章で書くと単純に見える。しかし実際には、このループがAIへ「学習しているような振る舞い」を与えていた。

モデル自体は変化していない。重みも更新されていない。それでも、外部に保存されたスキルと試行錯誤によって、能力が向上していく。

これは従来の機械学習とは異なる発想だった。

学習しているのか？

ここで興味深い問いが生まれる。Voyagerは本当に学習しているのだろうか。

厳密には違う。ニューラルネットワークの重みは更新されない。ファインチューニングも行われない。

しかし外から見ると、能力は明らかに向上している。昨日できなかったことが、今日はできるようになる。

これは人間がノートを使う状況に少し似ている。脳そのものは変わらなくても、知識を記録し、再利用することで能力は向上する。

Voyagerは、LLM本体の外側に学習機構を構築した研究とも言える。

Voyagerのアーキテクチャ

システム全体は大きく三つの要素から構成されている。

Curriculum Agent — 次に何を学ぶかを決める。現在の状態を確認し、まだ獲得していない能力を推定し、次の目標を生成する。例えば、木材はある、石材もある、鉄はまだないなら、鉄を探すことを提案する。これは探索の方向性を決定する役割を持つ。

Action Agent — 実際の行動を担当する。目標を受け取り、必要なコードを生成する。Minecraft APIを利用しながら、エージェントを動かす。従来のAgent研究でいう「実行層」である。

Skill Library — 過去の成功経験を保存する。これがVoyager最大の特徴だった。単なる会話履歴ではない。実際に成功したコードが保存される。新しい課題に直面したとき、関連スキルを検索し、再利用できる。

なぜ大きな話題になったのか

Voyagerが注目された理由は、Minecraftを遊んだからではない。

それまでのAgent研究が抱えていた問題を、比較的シンプルな方法で突破したからである。

従来のエージェントは、毎回ゼロから考えていた。Voyagerは違った。経験を資産に変えた。

これは非常に大きな違いだった。

人間社会も同じである。文明は毎回ゼロから始まらない。知識を記録し、継承し、再利用する。だから進歩できる。

Voyagerは、その仕組みをAIエージェントへ持ち込んだ。

実験結果

研究チームは、Voyagerを長時間Minecraft内で動作させた。結果は非常に興味深かった。

エージェントは継続的に新しいスキルを獲得し、探索範囲を拡大し続けた。論文では、従来手法と比較して、より多くのアイテムを発見し、より多くの技術ツリーを解放し、より広い世界を探索できたことが報告されている。

重要なのは、これが事前に細かく設計された手順ではなく、エージェント自身の探索によって実現されたことである。

Agentブームへの影響

2023年以降、AIエージェントという言葉が急速に広まった。

AutoGPT、BabyAGI、CrewAI、OpenAI Agents、LangGraph——そして数多くの研究プロジェクト。

その流れの中で、Voyagerは重要な位置を占めている。

なぜなら、AIは単に推論するだけでは足りないことを示したからである。

長期間活動するには、記憶が必要だった。経験が必要だった。スキルの再利用が必要だった。

Voyagerは、その方向性を明確に示した研究だった。

しかし限界もあった

もちろんVoyagerは万能ではない。いくつかの重要な課題を抱えていた。

スキル増殖問題 — スキルが増え続ける。これは一見良いことに見える。しかし実際には、スキル数が増えるほど管理が難しくなる。検索コストが上がる。重複が増える。品質管理も難しくなる。後の研究では、この問題が繰り返し議論されることになる。

抽象化が弱い — Voyagerはスキルを保存する。しかし、その多くは具体的な手順である。人間は経験を抽象化する。「鉄を掘った」だけではなく、「資源を効率的に収集する方法」として理解する。Voyagerはまだそこまで到達していなかった。

人格や価値観を持たない — Voyagerは行動できる。学習もできる。しかし、何を大切にするかは持たない。効率を重視するのか。安全を重視するのか。協力を重視するのか。そうした価値判断は存在しない。後の長期エージェント研究では、この問題も重要になる。

現在から見るVoyager

2026年の視点から見ると、Voyagerは興味深い位置にある。

今日のエージェントシステムは、必ずしもVoyagerのようにコードを大量保存しない。むしろ、必要なときに生成する設計も増えている。

しかし、「経験を蓄積する」 という考え方そのものは消えていない。むしろ、長期記憶、RAG、スキル管理、コンテキスト管理などの形で発展し続けている。

Voyagerは完成形ではなかった。だが、AIが成長するという概念を具体的に示した点で、非常に重要な研究だった。

Voyagerが残したもの

ReActは、AIへ行動能力を与えた。

Reflexionは、AIへ反省能力を与えた。

Generative Agentsは、記憶から社会行動が生まれることを示した。

MemGPTは、長期記憶管理の仕組みを提案した。

そしてVoyagerは、経験を積み重ねながら成長するAIを示した。

これは後のエージェント研究に大きな影響を与える。AIは単なるチャットボットではなく、長期間活動しながら能力を拡張する存在へ近づき始めていたのである。

まとめ

Voyagerは、Minecraftの世界で動作するAIエージェントだった。

しかし本質はゲームではない。

重要だったのは、経験を蓄積し、スキルを再利用し、自ら次の目標を設定しながら成長するという考え方だった。

それは、従来の「一回限りの推論」から、「継続的に能力を拡張する知能」への転換点だった。

今日のAgent研究を理解する上で、Voyagerは欠かすことのできない一歩だったのである。

論文情報

Wang, G., Xie, C., Wang, Z., et al. (2023). Voyager: An Open-Ended Embodied Agent with Large Language Models. NVIDIA Research. arXiv:2305.16291. https://arxiv.org/abs/2305.16291

次回予告

VoyagerはAIに「経験を通じてスキルを蓄積する能力」を与えた。

しかし、まだ問題が残っていた。

たとえ新しい能力を獲得できたとしても、次に何をすべきかは誰が決めるのだろうか。複雑な目標を小さなタスクへ分解し、優先順位を付け、実行計画を管理することはできるのだろうか。

2023年、ある小さなオープンソースプロジェクトが、その問いに驚くほどシンプルな答えを提示した。

その名は BabyAGI。

なぜこのコンパクトな実験が、後のAIエージェント研究へ大きな影響を与えたのだろうか。

次回は、AIによる自律的なタスク管理の原点とも言える BabyAGI について見ていこう。

← ブログに戻る