[まとめ]LLMへ至る道~24本分のブログをまとめるとこうなります~[25日目]

[まとめ]LLMへ至る道~24本分のブログをまとめるとこうなります~[25日目]

Clock Icon2023.12.25

みなさんこんにちは!クルトンです。

前日のブログでは、GPT-4についてどう凄いのかを確認してきました。モデルの中身がどうなっているか公開されたら是非とも知りたいですね!

本日の内容はまとめブログです。本日までのブログで、どういうふうに使えば良いのかなどまとめてみます。

本アドベントカレンダーは以下の3つに分類できると考えています。

  • LLMについて知る上で最低限知っておこう!
  • LLMを知る上でベースとなるTransformerモデル前までの内容
  • TransformerモデルとTransformerベースの様々なLLMについて

上記内容の分類に分けた方法は、実はブログタイトルに初級編や中級編と書かれているものに従っています。

LLMを知る上で最低限知っておこう!

1~5日目までのブログです。機械学習モデルを動かす上ではデータによってモデルを使い分けたりするのですが、本アドベントカレンダーではブログの本数の制限もあるので、最低限知っておくと良いと思われる内容に絞ってご説明してきました。

[初級編]LLMへ至る道 ~そもそも機械学習ってなんなの?本企画の説明を添えて~[1日目]

機械学習がなぜ必要なのか簡単に説明しました。

[初級編]LLMへ至る道~損失関数ってなにをしているの?~[2日目]

損失関数でよく使われているものをご紹介しました。

[初級編]LLMへ至る道~活性化関数ってなにをしているの?~[3日目]

活性化関数でよく使われているものをご紹介しました。

[初級編]LLMへ至る道~ニューラルネットワークってなんだ?~[4日目]

そもそも機械学習モデルってどう学習しているの?という部分です。

[初級編]LLMへ至る道~評価指標ってなに?~[5日目]

機械学習モデルの学習結果の良し悪しをどう判断するのかご紹介しました。

上記ブログの中では、特に損失関数と活性化関数について知っておくと良いかと思います。機械学習モデルがどういう方向性で作られているのかを知る上で有用なものだからです。

LLMを知る上でベースとなるTransformerモデル前までの内容

6~14日目までの内容です。Transformerモデルが出る前までの自然言語処理における機械学習モデルがどのような事をやっていたかです。機械学習モデルをどのような課題からどのように進歩させてきたかの歴史部分になるので、知っておくとTransformerモデルを知る上でためになる内容かと思います。

[中級編]LLMへ至る道~自然言語処理ってなに?~[6日目]

耳慣れないかもな自然言語処理について説明しました。機械翻訳も自然言語処理の一種です。

[中級編]LLMへ至る道~トークナイザーってなんだ?~[7日目]

機械学習モデルで自然言語処理する上で必要な、トークンという単位で文を分割する内容についてご説明しました。

[中級編]LLMへ至る道~単語を埋め込むってどういうこと?~[8日目]

自然言語処理において、機械学習モデルがそもそも人間が使う「言葉」をどう取り扱うのかWord2Vecモデルについて説明しました。

[中級編]LLMへ至る道~RNNってやつがいるらしい~[9日目]

機械学習モデルに、以前の処理結果を覚えさせる工夫についてご説明しました。

[中級編]LLMへ至る道~LSTMってやつがいるらしい~[10日目]

機械学習モデルとは、改善の歴史です。RNNからの改善についてご説明しました。

[中級編]LLMへ至る道~文脈を考慮して単語を埋め込んでみるって?~[11日目]

人間的に、文脈によって意味が異なる単語をどう処理するのかをご説明しました。

[中級編]LLMへ至る道~文章で類似度ってどういうこと?~[12日目]

応用例として類似度についてご説明しました。ここでのコサイン類似度の考え方が重要です。

[中級編]LLMへ至る道~要約処理って何しているの?~[13日目]

応用例として要約処理についてご説明しました。要約にも種類があります。

[中級編]LLMへ至る道~Seq2Seqってやつがいるらしい~[14日目]

本アドベントカレンダー初となる、Encoder-Decoderを使ったモデルについてご説明しました。

Transformerモデルを知っておくと良いと思うのが、Seq2Se2モデルについてです。EncoderとDecoderを使ったモデルになりますので、考え方が参考になるかと思います。関連してLSTMやRNNについても知っておくと良いかと思います。 それから、文章の類似度に関するブログで、コサイン類似度についても知っておくと良いかと思います。

TransformerモデルとTransformerベースの様々なLLMについて

15~24日目は本アドベントカレンダーのタイトルにもなっているLLMについてです。

[上級編]LLMへ至る道~Transformerは何をするのか~[15日目]

Transformerモデルの概要です。

[上級編]LLMへ至る道~画期的な機構!Attentionさん~[16日目]

Transformerモデルの中で重要な機構です。

[上級編]LLMへ至る道~TransoformerのEncoderって何をエンコードするの?~[17日目]

LLMを理解する上で押さえておきたい内容です。

[上級編]LLMへ至る道~TransformerのDecoderってことはデコードするものが必要~[18日目]

LLMを理解する上で押さえておきたい内容です。特にGPT系のモデルではベースとなるので、知っておくと良いです。

[上級編]LLMへ至る道~BERTはよく聞くけど実は~[19日目]

Transformer Encoderモデルを使ったLLMの1つです。

[上級編]LLMへ至る道~GPTの話~[20日目]

Transformer Decoderモデルを使ったLLMの1つです。

[上級編]LLMへ至る道~GPT-2の話~[21日目]

GPTから発展したモデルです。データが多いと精度が上がりそうという内容でした。

[上級編]LLMへ至る道~GPT-3の話~[22日目]

GPT-2から発展したモデルです。さらに大量にデータを集めるとfine-tuningせずに色々な事が出来るようになりました。

[上級編]LLMへ至る道~ChatGPTって結局なんなんだろう?~[23日目]

ChatGPTの裏側(使われいてるモデル)について迫ったブログです。

[上級編]LLMへ至る道~まだまだ進化する!GPT-4の話~[24日目]

ChatGPTの中でも使われているモデルです。GPT-4を理解する上でもRLHFについては知っておくと良いかもです。

上記ブログの内容では、ChatGPTの中で使われているモデルについて知りたいという方は、AttentionについてのブログとDecoderについてのブログを知っておくと良いかと思います。

書けなかったこと

書けていない事についてです。

LLMを知る上で絶対に必要か判断に迷ったものや、盛り込もうとして25日からはみ出てしまうので以下の内容は含められませんでした。(力不足でした……。)

  • 特徴量エンジニアリング
  • 学習に関係する単語の説明
    • エポック
    • 勾配消失
    • 次元の呪い
    • 最適化関数
  • 生成型要約(Abstractive Summarization)
  • アライメント
  • マルチステップ推論(LLMが苦手な領域と言われているもの)
    • chain-of-thought推論
    • zero-shot-chain-of-thought推論
  • BERT派生のモデル
    • BERTSUMExt
    • BART
    • RoBERTa
  • Transformer派生のモデル
    • T5
    • マルチモーダルTransformerモデル(画像とテキスト、音声とテキスト)
  • Google関係のLLM
    • Bardの裏側で使われているLaMDA などです。

上記内容については、「機械学習モデルをどう上手く学習させるのか」や「あのLLMとこのLLMの関係性は?」という本アドベントカレンダーからは発展的な内容になります。 本アドベントカレンダーの内容を知っておくと理解が進むところもあるかと思います。

需要がありそうなら、いつかブログにまとめたいところですね……。

いつもの終わりに代えて本アドベントカレンダーの締めくくり

今回は「LLMへ至る道」というタイトルで、LLMを理解する上で必要な知識をピックアップしながら説明していきました。

色々な内容を書いてきましたが、ここまで読んでくださった方、一部でも読んでくださった方に感謝申し上げます。 少しでも本アドベントカレンダーはお役に立てたでしょうか?皆様のお手伝いが出来ていれば嬉しいです。

本アドベントカレンダーはここまで。

それでは2023年のアドベントカレンダーを締めくくります! 皆様良いお年をお迎えくださいませ〜!

Share this article

facebook logohatena logotwitter logo

© Classmethod, Inc. All rights reserved.