小学2年生でも理解できるChatGPTの原理？ニューラルネットワークを大解剖

AIbase基地

公開日AIニュース · 1 分で読めます · Nov 25, 2024

191

ChatGPTや文心一言といった高度なAIをご存知ですか？それらの基盤技術は「大規模言語モデル」（LLM）です。複雑で理解しにくいと感じますか？ご心配なく、小学2年生レベルの算数力でも、この記事を読めばLLMの動作原理を簡単に理解できます！

ニューラルネットワーク：数字の魔法

まず、ニューラルネットワークは超強力な計算機のようなもので、数字しか処理できないことを理解しましょう。入力も出力も、数字でなければなりません。では、どのようにして文字を理解させるのでしょうか？

秘訣は、文字を数字に変換することです！例えば、各文字を数字で表すことができます。a=1、b=2、といった具合です。こうすることで、ニューラルネットワークは文字を「理解」できるようになります。

モデルの訓練：ネットワークに言語を「学習」させる

文字を数値化したら、次はモデルを訓練して、ニューラルネットワークに言語のパターンを「学習」させます。

訓練のプロセスは、なぞなぞゲームのようなものです。ネットワークに「Humpty Dumpty」といった文章を見せ、次の文字を予測させます。正しく予測できれば報酬を与え、間違えればペナルティを与えます。この試行錯誤と調整を繰り返すことで、ネットワークは次の文字をますます正確に予測できるようになり、最終的に「Humpty Dumpty sat on a wall」といった完全な文章を生成できるようになります。

高度なテクニック：モデルをより「賢く」する

モデルをより「賢く」するために、研究者たちは多くの高度なテクニックを開発しました。例えば：

単語埋め込み：単純な数字で文字を表すのではなく、各単語を数字の集合（ベクトル）で表すことで、単語の意味をより包括的に記述できます。

サブワードトカナイザ：単語をより小さな単位（サブワード）に分割します。「cats」を「cat」と「s」に分割するなど、これにより語彙数を減らし、効率を向上させることができます。

自己注意機構：モデルは次の単語を予測する際に、文脈内のすべての単語に基づいて予測の重みを調整します。まるで私たちが読書をする際に文脈から単語の意味を理解するようなものです。

残差接続：ネットワークの層数が多すぎると訓練が困難になるため、残差接続を用いてネットワークの学習を容易にします。

マルチヘッド注意機構：複数の注意機構を並列で実行することで、モデルは様々な角度から文脈を理解し、予測の精度を向上させることができます。

位置エンコーディング：モデルに単語の順序を理解させるために、単語埋め込みに位置情報を追加します。まるで私たちが読書をする際に単語の順序に注意を払うようなものです。

GPTアーキテクチャ：大規模言語モデルの「設計図」

GPTアーキテクチャは現在最も普及している大規模言語モデルのアーキテクチャの1つであり、「設計図」のようにモデルの設計と訓練を導きます。GPTアーキテクチャは上記の様々な高度なテクニックを巧みに組み合わせることで、モデルが効率的に言語を学習し生成することを可能にしています。

Transformerアーキテクチャ：言語モデルの「革命」

Transformerアーキテクチャは近年、言語モデル分野における大きなブレークスルーであり、予測精度を向上させるだけでなく、訓練の難易度も低下させ、大規模言語モデルの発展の基礎を築きました。GPTアーキテクチャもTransformerアーキテクチャを基に発展したものです。

参考文献：https://towardsdatascience.com/understanding-llms-from-scratch-using-middle-school-math-e602d27ec876

AIデイリーニュース: ボタンスペースのテストがオープン化; Tencentがビデオ生成ツール「混元カスタム」をオープンソース; Alibabaが大規模言語モデル検索エンジン「ZeroSearch」をオープンソース

【AIデイリーニュース】へようこそ！ここでは、あなたが毎日 artificial intelligence の世界を探索するためのガイドです。当サービスでは、AI分野で起こっているホットなトピックを毎日お届けします。開発者の視点から技術トレンドや革新的なAI製品の応用についてお伝えします。新しいAI製品の詳細はこちら: https://top.aibase.com/1. インビテーションコード不要！ボタンスペースがテストをオープン化しました。ボタンスペース（Coze Space）はテスト期間に入り、ユーザーは招待コードを受け取ることなく利用できるようになりました。このプラットフォームは強力なAI協力機能を示しています。

バイトダンス、Top Seedプログラムを開始 2026年卒業予定の博士課程学生向けAI人材募集

バイトダンスは先日、2026年卒業予定の学生を対象とした「Top Seed」大規模言語モデル分野のトップ人材採用プログラムを正式に開始すると発表しました。約30名の優秀な博士課程学生を採用する予定です。このプログラムは、大規模言語モデル、機械学習アルゴリズムとシステム、マルチモーダル生成と理解、音声処理など、最先端の人工知能分野に焦点を当てています。バイトダンスは、この取り組みを通じて、大規模言語モデル研究分野で非常に高い潜在能力と情熱を持つ若き才能を惹きつけたいと考えています。これまでの採用計画とは異なり、今回の「Top Seed」では「専攻分野不問」を強調しています。

AI時代における広告業界の適応：GoogleからChatGPTへの変遷

インターネット発展の歴史において、Googleの台頭はほぼ伝説的です。1999年の設立以来、Googleはシンプルで広告のない検索体験で多くのユーザーを獲得し、創設者のラリー・ペイジとセルゲイ・ブリンは初期において広告を強く避け、広告が検索の質に影響を与える可能性があると信じていました。しかし、2000年になると、Googleは収益化のためAdWordsを発表し、広告収入に依存する巨大企業へと急速に変貌を遂げ、広告は検索結果ページの重要な構成要素となりました。しかし

智譜と生数科技が戦略的提携を締結、大規模言語モデルの共同イノベーションに注力

4月27日、清華大学傘下の2つのAI企業である智譜（Z.ai）と生数科技(shengshu.com)は、戦略的提携を発表しました。この提携は、両社の大規模言語モデルとマルチモーダル生成モデルにおける技術蓄積と強みを活かし、国産大規模言語モデルの技術革新と産業応用を推進することを目的としています。

餓了麼AIアシスタント「小餓」登場：呼びかけるだけで受注などの操作が可能に

餓了麼は、国内初のAI大規模言語モデル技術に基づく配達員向けインテリジェントアシスタント「小餓」の正式提供を発表しました。AI技術によって配達員の業務環境を再構築し、業務効率と安全性の向上を両立します。この機能は、無錫、瀋陽、佛山、蘇州の4都市で先行して開始され、蜂鳥衆包アプリを利用する配達員を対象としています。

飛書と生数科技が連携、Viduを飛書的多次元表に統合

先日、飛書と生数科技は戦略的パートナーシップを締結し、国産ビデオ大規模言語モデルであるViduを飛書的多次元表機能に正式に統合しました。これにより、飛書ユーザーは、多次元表内のAIフィールドショートカットを通じて、Viduビデオ大規模言語モデルを簡単に呼び出し、作業効率の向上とデータ処理能力の強化を実現できます。生数科技のViduは、強力な機能を備えたビデオ大規模言語モデルであり、効率的なビデオ生成と処理を実現します。今回の連携は、飛書ユーザーがAI技術をより便利に活用し、視覚的な…