Pre-Training GPT-4.5
12万 回視聴 · 21 時間前
https://www.youtube.com/watch?v=6nJZopACRuQ&feature=youtu.be
アルトマンらによる「GPT-4.5の開発を通じて得られた知見」と「今後さらなるスケーリング(モデルの巨大化)において乗り越えるべき壁」についての技術的・概念的なはなし
詳細↓
これまでは「とにかく規模を大きくすれば性能も上がる」だったけどそれがいよいよ限界にきてる。ハードウェアが増えすぎて最早トラブルを無視できなくなっている。
GPT-4 までは計算資源不足がボトルネックだったが、GPT-4.5 以降は「データの種類・質の不足」がネック。つまり「どれだけ高性能なGPUを積むか」が勝負だったとのろから今は「どう学ばせるか」が重要になってる。
GPT-4.5 は GPT-4 の10倍の賢さを達成できたけど、ギリギリギリだった。
同じデータからより多く学ぶにはデータ効率の高いアルゴリズムが必要。モデルの損失(エラー率)をわずかに下げるだけで、驚くほど知的な能力が生まれる。GPT-4.5 ではごく小さな改良で大きなブレイクスルーが起きていて、人間のような直感的理解の片鱗も見えてきた。
(つづく)