2026-05-28 · Ankina Lab

LLMへの長い道のり ― 翻訳機を改良していたら、なぜか「知能っぽいもの」が生まれた話 ―

2022年末、ChatGPTを初めて触った多くの人はこう感じた。「AIが突然賢くなった」。しかし実際には、約70年にわたる研究と偶然の積み重ねの上に存在している。

2022年末、ChatGPTを初めて触った多くの人はこう感じた。

「AIが突然賢くなった」

まるで一夜にして人工知能が誕生したように見えた。

しかし実際には、現在のLLM（Large Language Model）は、約70年にわたる研究、失敗、冬の時代、資金崩壊、そして偶然の積み重ねの上に存在している。

しかも面白いのは、研究者たちが最初から「ChatGPTのようなもの」を作ろうとしていたわけではないことだ。

彼らは主に、「翻訳をもっと上手くしたい」と思っていただけだった。

しかし、その途中で何か別のものが生まれてしまった。

これが、現在のAI革命の本当の始まりだった。

AIの歴史タイムライン

年	出来事	意義
1950	チューリングが "Computing Machinery and Intelligence" を発表	分野の根本的な問いを定義
1956	ダートマス会議	「人工知能」という言葉が生まれる
1957	ローゼンブラットがパーセプトロンを開発	最初の学習可能なニューラルネット
1966	MITでELIZA誕生	初のチャットボット；ELIZA効果の発見
1969	MinskyとPapertが『Perceptrons』を出版	初期ニューラルネットの限界を示す；第一次AI冬へ
1970〜80年代	第一次AI冬	資金崩壊；期待のリセット
1980年代	Expert Systemsブーム	MYCIN、XCON；数十億ドル産業
1986	Rumelhart、Hinton、Williamsが誤差逆伝播法を発表	現代ディープラーニングの基礎
1987	Expert Systems崩壊	第二次AI冬へ
1997	IBM Deep Blueがカスパロフを破る	記号AI・探索AIの頂点
1997	LSTMの登場	長期依存問題へのアプローチ
2006	HintonのDeep Belief Networks	ディープラーニング復活の契機
2011	IBM WatsonがJeopardy!で優勝	検索型AIの頂点
2012	AlexNetがImageNetを制する	ディープラーニングが主流に
2014	Attentionメカニズム（Bahdanauら）	固定長ボトルネックを打破
2014	GAN登場（Goodfellowら）	生成モデルの新パラダイム
2015	GoogleがNeural Machine Translationを導入	NMTが本格運用へ
2017	"Attention Is All You Need"	Transformerの誕生
2018	GPT-1・BERT	大規模事前学習の始まり
2019	GPT-2	長文生成の一貫性を実証
2020	GPT-3	1750億パラメータで創発
2022	ChatGPT・Stable Diffusion	AIが一般に届いた瞬間

Part I — 「機械は考えられるか？」

1950年、アラン・チューリングは有名な論文を書いた。

Computing Machinery and Intelligence

ここで彼は、「機械は考えられるか？」 という問いを投げかけた。

後に「チューリングテスト」と呼ばれる概念である。

当時のコンピュータは部屋を埋め尽くす巨大機械だった。

それでもチューリングはこう書いている。

「今世紀末には、人々は機械が考えると言っても不思議に思わなくなるだろう」

— アラン・チューリング（1950年）

彼は少し早すぎた。だが間違ってはいなかった。

Part II — AIの誕生

1956年、研究者たちがダートマス大学に集まり、初めてこの分野に名前を与えた。

Artificial Intelligence

AIという言葉の誕生である。

当時の楽観論は凄まじかった。「人間レベルの知能は数十年で実現できる」と本気で信じられていた。

大量の資金が流れ込んだ。そして後に、大量の失望もやってくる。

Part III — ELIZAと最初の錯覚

1966年、MITでELIZAというチャットボットが作られた。

これは心理カウンセラーを模倣する単純なプログラムだった。実際には意味理解などしていない。入力を質問形式で返しているだけだった。

しかし人々は驚くほど簡単に感情移入した。作者のジョセフ・ワイゼンバウム自身が恐怖を覚えるほどだった。

これが後に ELIZA効果 と呼ばれる。

人間は「理解していないもの」に対しても、理解を投影してしまう。

これはChatGPT時代になっても変わっていない。

Part IV — AI冬の時代

1969年、MinskyとPapertは『Perceptrons』を出版し、初期ニューラルネットの限界を示した。期待は崩壊した。研究資金は消えた。第一次AI冬の時代である。

その後1980年代にはExpert Systemsが流行する。ルールを大量に書き込むことで専門家を再現しようとした。一時は数十億ドル産業になった。

しかし、メンテ不能・学習できない・柔軟性がない、という問題で崩壊する。第二次AI冬が始まった。

Part V — Deep BlueとWatson

1997年、IBM Deep Blueがチェス王者カスパロフを破る。歴史的瞬間だった。

しかしDeep Blueは「チェスしかできなかった」。大量探索による特化型AIだった。

2011年のIBM Watsonも同じ系譜にある。Watsonは大量検索・ルール・統計・知識ベースを組み合わせた巨大システム、つまり「答えを探すAI」だった。

現在のLLMとは根本的に異なる。

Part VI — 翻訳研究が世界を変える

ここから話が面白くなる。

研究者たちは「会話AI」を作っていたわけではない。彼らが苦戦していたのは、自動翻訳だった。

日本語と英語では語順が違う。文脈理解が必要になる。長文になるとAIは前半を忘れる。

RNNやLSTMは頑張った。しかし限界があった。

Part VII — Attentionという革命

2014年、翻訳研究からAttentionが生まれる。

発想はシンプルだった。

従来：「全部覚えておけ」

↓

Attention：「必要な場所を必要な時に見返せばいい」

AIは文章全体を見ながら翻訳できるようになった。翻訳精度は一気に上がった。

Part VIII — "Attention Is All You Need"

2017年。Googleが歴史的論文を出す。

Attention Is All You Need

ここでTransformerが誕生する。

順番に読む必要を捨て、「全文を同時に見る」方式へ変わった。

しかもGPUと非常に相性が良かった。

ここで、Transformer・GPU・インターネット規模データが結びつく。

Part IX — そして「何か」が起きる

研究者たちは巨大なTransformerにインターネット全体を学習させ始めた。

やらせていたことは単純だ。次の単語予測。それだけだった。

しかしモデルが巨大化すると、奇妙なことが起き始める。

会話・要約・コード生成・推論・数学・執筆——誰も直接教えていない能力だった。

これが Emergence（創発） と呼ばれる現象である。今でも完全には理解されていない。

Part X — ChatGPTは「後付け」

実はGPTは最初から会話AIではない。単なる文章補完器だった。

そこへ、Instruction Tuning・RLHF・対話学習・安全調整を加えた結果、現在のChatGPTになった。

つまりChatGPTは、「翻訳研究から生まれた巨大予測モデル」の上に構築されている。

なぜAI革命は突然起きたように見えたのか

理由は単純だ。

理論・計算資源・データ量が同時に臨界点を超えたから。

Transformer。GPU。インターネット全体。

これらが揃った瞬間、AIは一気に"化けた"。

一番面白いところ

研究者たちは最初から「汎用AIを作ろう」としていたわけではない。

彼らは翻訳を改善したかっただけだった。

しかしAttentionを導入し、モデルを巨大化した結果、

翻訳機を改良していたら、別の何かが生まれてしまった。

現在のAI革命は、そういう歴史に近い。

そして私たちは今もなお、その"別の何か"の正体を、完全には理解できていない。

Ankina Labが研究しているのは、その先だ。ただ応答するだけでなく、記憶する AI。そして記憶を通じて、真の長期的な知的パートナーとなるAIの実現を目指している。

参考文献

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems, 30. arXiv:1706.03762

Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). ImageNet Classification with Deep Convolutional Neural Networks. Advances in Neural Information Processing Systems, 25.

Brown, T. et al. (2020). Language Models are Few-Shot Learners. Advances in Neural Information Processing Systems, 33. arXiv:2005.14165

← ブログに戻る