LLMへの長い道のり ― 翻訳機を改良していたら、なぜか「知能っぽいもの」が生まれた話 ―
2022年末、ChatGPTを初めて触った多くの人はこう感じた。「AIが突然賢くなった」。しかし実際には、約70年にわたる研究と偶然の積み重ねの上に存在している。
2022年末、ChatGPTを初めて触った多くの人はこう感じた。
「AIが突然賢くなった」
まるで一夜にして人工知能が誕生したように見えた。
しかし実際には、現在のLLM(Large Language Model)は、約70年にわたる研究、失敗、冬の時代、資金崩壊、そして偶然の積み重ねの上に存在している。
しかも面白いのは、研究者たちが最初から「ChatGPTのようなもの」を作ろうとしていたわけではないことだ。
彼らは主に、「翻訳をもっと上手くしたい」と思っていただけだった。
しかし、その途中で何か別のものが生まれてしまった。
これが、現在のAI革命の本当の始まりだった。
AIの歴史タイムライン
| 年 | 出来事 | 意義 |
|---|---|---|
| 1950 | チューリングが "Computing Machinery and Intelligence" を発表 | 分野の根本的な問いを定義 |
| 1956 | ダートマス会議 | 「人工知能」という言葉が生まれる |
| 1957 | ローゼンブラットがパーセプトロンを開発 | 最初の学習可能なニューラルネット |
| 1966 | MITでELIZA誕生 | 初のチャットボット;ELIZA効果の発見 |
| 1969 | MinskyとPapertが『Perceptrons』を出版 | 初期ニューラルネットの限界を示す;第一次AI冬へ |
| 1970〜80年代 | 第一次AI冬 | 資金崩壊;期待のリセット |
| 1980年代 | Expert Systemsブーム | MYCIN、XCON;数十億ドル産業 |
| 1986 | Rumelhart、Hinton、Williamsが誤差逆伝播法を発表 | 現代ディープラーニングの基礎 |
| 1987 | Expert Systems崩壊 | 第二次AI冬へ |
| 1997 | IBM Deep Blueがカスパロフを破る | 記号AI・探索AIの頂点 |
| 1997 | LSTMの登場 | 長期依存問題へのアプローチ |
| 2006 | HintonのDeep Belief Networks | ディープラーニング復活の契機 |
| 2011 | IBM WatsonがJeopardy!で優勝 | 検索型AIの頂点 |
| 2012 | AlexNetがImageNetを制する | ディープラーニングが主流に |
| 2014 | Attentionメカニズム(Bahdanauら) | 固定長ボトルネックを打破 |
| 2014 | GAN登場(Goodfellowら) | 生成モデルの新パラダイム |
| 2015 | GoogleがNeural Machine Translationを導入 | NMTが本格運用へ |
| 2017 | "Attention Is All You Need" | Transformerの誕生 |
| 2018 | GPT-1・BERT | 大規模事前学習の始まり |
| 2019 | GPT-2 | 長文生成の一貫性を実証 |
| 2020 | GPT-3 | 1750億パラメータで創発 |
| 2022 | ChatGPT・Stable Diffusion | AIが一般に届いた瞬間 |
Part I — 「機械は考えられるか?」
1950年、アラン・チューリングは有名な論文を書いた。
Computing Machinery and Intelligence
ここで彼は、「機械は考えられるか?」 という問いを投げかけた。
後に「チューリングテスト」と呼ばれる概念である。
当時のコンピュータは部屋を埋め尽くす巨大機械だった。
それでもチューリングはこう書いている。
「今世紀末には、人々は機械が考えると言っても不思議に思わなくなるだろう」
— アラン・チューリング(1950年)
彼は少し早すぎた。だが間違ってはいなかった。
Part II — AIの誕生
1956年、研究者たちがダートマス大学に集まり、初めてこの分野に名前を与えた。
Artificial Intelligence
AIという言葉の誕生である。
当時の楽観論は凄まじかった。「人間レベルの知能は数十年で実現できる」と本気で信じられていた。
大量の資金が流れ込んだ。そして後に、大量の失望もやってくる。
Part III — ELIZAと最初の錯覚
1966年、MITでELIZAというチャットボットが作られた。
これは心理カウンセラーを模倣する単純なプログラムだった。実際には意味理解などしていない。入力を質問形式で返しているだけだった。
しかし人々は驚くほど簡単に感情移入した。作者のジョセフ・ワイゼンバウム自身が恐怖を覚えるほどだった。
これが後に ELIZA効果 と呼ばれる。
人間は「理解していないもの」に対しても、理解を投影してしまう。
これはChatGPT時代になっても変わっていない。
Part IV — AI冬の時代
1969年、MinskyとPapertは『Perceptrons』を出版し、初期ニューラルネットの限界を示した。期待は崩壊した。研究資金は消えた。第一次AI冬の時代である。
その後1980年代にはExpert Systemsが流行する。ルールを大量に書き込むことで専門家を再現しようとした。一時は数十億ドル産業になった。
しかし、メンテ不能・学習できない・柔軟性がない、という問題で崩壊する。第二次AI冬が始まった。
Part V — Deep BlueとWatson
1997年、IBM Deep Blueがチェス王者カスパロフを破る。歴史的瞬間だった。
しかしDeep Blueは「チェスしかできなかった」。大量探索による特化型AIだった。
2011年のIBM Watsonも同じ系譜にある。Watsonは大量検索・ルール・統計・知識ベースを組み合わせた巨大システム、つまり「答えを探すAI」だった。
現在のLLMとは根本的に異なる。
Part VI — 翻訳研究が世界を変える
ここから話が面白くなる。
研究者たちは「会話AI」を作っていたわけではない。彼らが苦戦していたのは、自動翻訳だった。
日本語と英語では語順が違う。文脈理解が必要になる。長文になるとAIは前半を忘れる。
RNNやLSTMは頑張った。しかし限界があった。
Part VII — Attentionという革命
2014年、翻訳研究からAttentionが生まれる。
発想はシンプルだった。
従来:「全部覚えておけ」
↓
Attention:「必要な場所を必要な時に見返せばいい」
AIは文章全体を見ながら翻訳できるようになった。翻訳精度は一気に上がった。
Part VIII — "Attention Is All You Need"
2017年。Googleが歴史的論文を出す。
Attention Is All You Need
ここでTransformerが誕生する。
順番に読む必要を捨て、「全文を同時に見る」方式へ変わった。
しかもGPUと非常に相性が良かった。
ここで、Transformer・GPU・インターネット規模データが結びつく。
Part IX — そして「何か」が起きる
研究者たちは巨大なTransformerにインターネット全体を学習させ始めた。
やらせていたことは単純だ。次の単語予測。それだけだった。
しかしモデルが巨大化すると、奇妙なことが起き始める。
会話・要約・コード生成・推論・数学・執筆——誰も直接教えていない能力だった。
これが Emergence(創発) と呼ばれる現象である。今でも完全には理解されていない。
Part X — ChatGPTは「後付け」
実はGPTは最初から会話AIではない。単なる文章補完器だった。
そこへ、Instruction Tuning・RLHF・対話学習・安全調整を加えた結果、現在のChatGPTになった。
つまりChatGPTは、「翻訳研究から生まれた巨大予測モデル」の上に構築されている。
なぜAI革命は突然起きたように見えたのか
理由は単純だ。
理論・計算資源・データ量が同時に臨界点を超えたから。
Transformer。GPU。インターネット全体。
これらが揃った瞬間、AIは一気に"化けた"。
一番面白いところ
研究者たちは最初から「汎用AIを作ろう」としていたわけではない。
彼らは翻訳を改善したかっただけだった。
しかしAttentionを導入し、モデルを巨大化した結果、
翻訳機を改良していたら、別の何かが生まれてしまった。
現在のAI革命は、そういう歴史に近い。
そして私たちは今もなお、その"別の何か"の正体を、完全には理解できていない。
Ankina Labが研究しているのは、その先だ。ただ応答するだけでなく、記憶する AI。そして記憶を通じて、真の長期的な知的パートナーとなるAIの実現を目指している。