06.ChatGPTの仕組みTransformer

見出し

https://tech-blog.abeja.asia/entry/chat-gpt-first-half-202307
ChatGPT の仕組みを理解する（前編）

https://zenn.dev/zenkigen/articles/2023-01-shimizu
30分で完全理解するTransformerの世界
2023/02/14に公開
→専門的で訳分かりませんが、引用文献もしっかり記載されている

https://xtech.nikkei.com/atcl/nxt/mag/rob/18/00007/00035/?P=2
機械学習の新べき乗則、大きなモデルを使うと汎化しサンプル効率も改善する
PFN岡野原氏によるAI解説：第68回
岡野原大輔 Preferred Networks 代表取締役最高執行責任者
2021.02.10

https://tech-blog.abeja.asia/entry/chat-gpt-first-half-202307
ChatGPT の仕組みを理解する（前編）
20230727

https://tech-blog.abeja.asia/entry/chat-gpt-second-half-202307
ChatGPT の仕組みを理解する（後編）
20230727

https://gigazine.net/news/20230604-large-language-model-paper/
2023年06月04日 19時10分ソフトウェア
ChatGPTなどの大規模言語モデルはどんな理論で成立したのか？重要論文24個まとめ

https://gigazine.net/news/20230807-llama2-uncensored/
023年08月07日 10時55分ソフトウェア
大規模言語モデルの「検閲」を解除した無修正モデルが作成されている、その利点とは？

https://ainow.ai/2023/08/08/274257/
2023.08.08
明らかになったGPT-4の秘密

2023/6/20、自動運転スタートアップComma.aiの創設者ジョージ・ホッツ（George Hotz）は、GPT-4は（GPT-3やGPT-3.5のような）単一のモノリシックな高密度モデルではなく、8×2,200億パラメータの混合モデルであるとリークした。