【初めてのChatGPTその4】ChatGPTがこの世に生まれた理由は「Scaling Law」の法則が発見され、大規模投資が行われたからとのこと

2023年7月27日

2022年11月に一般公開されたChatGPTが、なぜ非常に高性能なAIになるのとができたのか、理由が、「ChatGPTプロンプト逆引き！API活用ガイド」と、「大規模言語モデルは新たな知能か　ＣｈａｔＧＰＴが変えた世界」に記載されていました。

（1）機械学習モデルTransformerの発見（2017年）

（2）Transformerの性能は「（コンピューターの）計算リソース、学習データ量、パラメーター数」に従うという法則「Scaling Law（スケーリングロー）」の発見（2020年）

（3）（2）の法則を根拠に、大量の資金をGPT3.5に投入して学習させた

どうやらこれらが理由のようです。

Contents

（1）機械学習モデルTransformerの発見（2017年）

2010年代、文章生成関連の機械学習モデルとして、RNNや、LSTMというモデルが主に用いられていましたが、2017年に、Transformerというモデルが発表されました[https://arxiv.org/abs/1706.03762]。

これをもとに、OpenAI社は、文章生成AIであるGPT-1（2018年）、GPT-2、GPT-3（2020年）などのAIを開発していきました。

GPT-1、GPT-2、GPT-3などの言語モデルAIを開発していくうちに、OpenAIの研究者たちは、2020年に

訓練データを増やせば増やすほど、モデルサイズを大きくすればするほど、学習時の投入計算量を増やすほど、言語モデルの性能は改善される

という法則「Scaling Law（スケーリングロー）」を発見しました[https://arxiv.org/abs/2001.08361]。

このことにより、

とにかく莫大な資金をかけて、大規模モデルに大量のデータを学習させれば、お金をかけただけさらに優秀なAIを作ることができる

ということが知られるようになり、資金調達が可能となりました。

「（コンピューターの）計算リソース、学習データ量、パラメーター数」を増やせば増やすほどGPTの性能が上がることが予想できたため、GPT-3の開発のために、OpenAI社は460万ドル（約5億円）の資金を投入することができ、

パラメーター数3550億の、GPT-3.5

パラメーター数100兆（推定）の、GPT-4

の開発にも何億円もの資金が投入され、さらに高性能なAIが出来上がったとのことです。

なお、モデルサイズを大きくしていく中で、それまで全く解けなかった問題が、ある時点から急に解けるようになる現象が見つかり、これを、「創発（Emergence）」と呼ぶようになったとのことです。

まだ、コメントがありません