Attention Is All You Need — なぜAIは突然賢くなったのか?
2017年、Googleの研究者たちは言った。「必要なのはAttentionだけだ」。その挑発的な論文が、ChatGPT、Claude、Geminiへと繋がるすべての始まりだった。
ChatGPTは突然現れたわけではない
2022年11月。
ChatGPTが公開されると、世界は驚いた。
「AIが会話している」 「文章を書いている」 「プログラムまで書ける」
多くの人にとって、それは突然の出来事だった。
しかし実際には、ChatGPTはある論文の上に立っていた。
2017年にGoogleの研究者たちが発表した論文。
そのタイトルは少し変わっている。
Attention Is All You Need
(必要なのはAttentionだけだ)
当時、このタイトルはかなり挑発的だった。
なぜなら当時のAI研究者たちは、
- 記憶が必要だ
- 再帰構造が必要だ
- 複雑なネットワークが必要だ
と考えていたからだ。
しかし彼らは言った。
「もっと単純な方法がある」
そのアイデアが、現在のChatGPT、Claude、Gemini、Llamaへと繋がっていく。
Transformer以前のAI
当時の自然言語AIの主流はRNNだった。
RNN(Recurrent Neural Network)は、文章を順番に読む。
例えば、
I → love → artificial → intelligence
のように、単語を一つ読み、次を読み、さらに次を読む。
人間が本を読む感覚に近い。
一見すると自然だ。
しかし大きな問題があった。
AIは忘れる
例えば次の文章を見てほしい。
The animal didn't cross the street because it was too tired.
この "it" は何を指しているだろうか?
人間ならすぐに分かる。
animal(動物)だ。
しかし昔のAIは苦手だった。
なぜなら文章が長くなると、
- 最初の情報を忘れる
- 文脈が薄れる
- 関係性を見失う
からだ。
長い会議の終盤で、
「最初に何を話していたっけ?」
となるのと似ている。
AIは遅かった
もう一つの問題がある。
RNNは順番に処理する。
つまり、
- 単語1を読む
- 終わるまで待つ
- 単語2を読む
- また待つ
という流れだ。
これはGPU時代には不利だった。
GPUは何千もの計算を同時に行うのが得意だ。
しかしRNNは、
「一列に並んで順番待ちしてください」
と言っているようなものだった。
賢くなる前に、まず遅かった。
発想の転換
2017年。
Googleの研究者たちは考えた。
本当に順番に読む必要があるのか?
よく考えれば、人間も文章を読むとき、 完全に一方向ではない。
"it" という言葉が出てきた瞬間、 無意識に文章を見渡して 「これは何のことだろう?」と探している。
重要な単語を見つけると、自然とそこへ注意が向く。
前後に目が泳ぎ、文脈を拾い、意味を確定させる。
ならばAIも同じことをすればいい。
順番に読むのをやめて、 文章全体を一度に見渡す仕組みを作ればいい。
Attentionとは何か
Attentionを一言で表すなら、
「今理解したいものに対して、 どこを見るべきかを決める仕組み」
である。
例えば、
The cat sat on the mat because it was soft.
という文章。
"it" が出てきたとき、AIは文章全体を見渡す。
そして、
- cat
- mat
- soft
との関係を調べる。
その結果、「softなのはmatだろう」と推測する。
つまりAttentionとは、文章の中で重要な情報を探し出すための仕組みなのだ。
Google検索に似ている
論文では突然、
- Query
- Key
- Value
という概念が出てくる。
初見では非常に分かりにくい。
しかしGoogle検索で考えると理解しやすい。
Query → 検索キーワード
Key → 検索対象の特徴
Value → 実際の情報
例えば、
Query「東京の天気」
↓
Key「天気」「東京」「気象情報」
↓
Value 実際の天気予報
Attentionは、「今必要な情報」を検索して集める仕組みとも言える。
Self-Attention
さらに面白いことが起きる。
文章の各単語が、他の全ての単語を「同時に」見るようになった。
これをSelf-Attentionという。
冒頭の例に戻ろう。
The animal didn't cross the street because it was too tired.
昔のAIは、"it" にたどり着いた時点で "animal" をほぼ忘れていた。
しかしSelf-Attentionでは、"it" が出てきた瞬間に 文章全体を見渡し、"animal" との強い関係を計算する。
だから「it = animal」と正しく判断できる。
文章の最初と最後が、距離に関係なく直接繋がれるようになった。
これが大きな革命だった。
なぜ世界が変わったのか
Attentionの凄さは精度だけではない。
速かった。
そして大規模化できた。
ここが重要だった。
GPUを大量に使えるようになり、モデルを巨大化できるようになった。
すると研究者たちは気づく。
モデルを大きくすると、性能も上がり続ける。
翻訳ができる。要約ができる。会話ができる。 コードも書ける。推論までできる。
こうしてLLM時代が始まった。
GPTのTはTransformer
実はChatGPTの名前にもその痕跡が残っている。
GPTとは、
Generative Pre-trained Transformer
の略だ。
最後のTがTransformer。
つまりChatGPTの心臓部は、 この2017年の論文に由来している。
しかし問題は終わっていない
Attentionは革命だった。
だが万能ではなかった。
現在のLLMは新しい壁に直面している。
例えば、
- 長期記憶を持てない
- 会話を忘れる
- 長時間の議論で迷子になる
- 過去との整合性が崩れる
- 文脈汚染が起きる
多くの人が使っていて感じる、
「さっきまで理解していたのに急に変なことを言い始める」
という現象もその一つである。
Attentionが解いたのは「どこを見るか」という問題だった。
次の問いは、「どこまで覚えていられるか」だ。
この問いに答えようとする研究が、今も世界中で続いている。
次回:なぜAIは「長い会話」が苦手なのか — コンテキストウィンドウと記憶の限界
参考文献
本記事は、Transformerアーキテクチャを世界に紹介した以下の論文をもとにしている。
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems, 30. arXiv:1706.03762