2022 年 11 月のChatGPTのリリース以来、 生成 AI は飛躍的に進歩してきました。このテクノロジーは、ほんの数例を挙げると、タスクの自動化、クリエイティブなタスクのサポート、またはソフトウェアのプログラミングに使用されます。
大規模言語モデル(LLM) は、ChatGPT や Bard などの AI チャットボットの基盤を提供します。これらは自然言語入力を処理し、履歴データに基づいて次の単語を予測します。簡単に言うと、LLM を「テキスト予測マシン」と呼ぶことができます。
現在最も人気のある主要言語モデルには次のものがあります。
-
ハグフェイスのBLOOMとXLM-RoBERTa 、
-
NvidiaのNeMOも
2023 年 2 月の Metas LLaMAのリリース以来、低コストでより適応性の高いモデルを約束するオープンソースLLM が特に注目を集めています。
この記事では、大規模言語モデルとは何か、そしてそれがどのように機能するかを学びます。
大規模言語モデルの定義
大規模言語モデルは、データの入力と出力を使用してトレーニングされる機械学習ニューラル ネットワークです。基礎となるテキストは構造化されていないことが多く、モデルでは自己教師ありまたは半教師ありの学習手法が使用されます。情報またはコンテンツが LLM に入力されます。出力は、アルゴリズムが次の単語になると予測したものです。入力には、企業データ、または ChatGPT の場合のようにネットワークから直接取得されるデータを含めることができます。
大規模な言語モデルをトレーニングするには、スーパーコンピューターと同様に機能する大規模なサーバー ファームが必要です。大規模な言語モデルは、数百万、数十億、さらには数兆のパラメータを介して制御されます。これらは、言語モデルがさまざまな回答オプションを区別するのに役立ちます。
これがLLMの仕組みです
「今日のランチは何でしたか?」という質問を入力として LLM に渡すと仮定します。大規模言語モデルは、「シリアル」、「米」、または「ステーキ」で質問に答えることができます。 100% の正解はありません。 (トレーニング) データに基づいた確率があるだけです。大規模言語モデルは、出力としての既存のデータまたは履歴データに基づいて、最も可能性の高い回答オプションを選択します。
ただし、「ジャンクイン、ジャンクアウト」の原則が適用されます。言い換えれば、大規模な言語モデルに偏った情報、不完全な情報、またはその他の不適切な情報をフィードすると、それに応じて信頼性が低く、奇妙で不快な結果が期待される可能性があります。 LLM の出力が制御不能になると、データ アナリストは「幻覚」についても話します。
AI サービス プロバイダーである Turing の CEO、Jonathan Siddharth 氏は次のように説明しています。ここには事実知識という概念は存在しません。すべては統計的な確率の問題なのです。」
プリンストン大学情報技術政策センターの博士候補者であるサヤシュ・カプール氏は、LLM の文脈ではバイアスが特に危険である可能性があり、次のように強調しています。 -現実世界に特有の偏見。」
一部の大規模言語モデルはインターネット ベースのデータを使用して自らをトレーニングするため、本来の設計目的をはるかに超える可能性があります。たとえば、Microsoft の Bing は現在、Open AI の GPT-3-LLM をベースとして使用していますが、同時に検索エンジンにもクエリを実行します。このプラットフォームは、大規模な言語モデルとインターネット検索を組み合わせて、ユーザーの質問に対する答えを提供します。
「LLM が 1 つのプログラミング言語でトレーニングされ、その後、これまでに見たことのない別のプログラミング言語でコードを自動的に生成していることがわかります」と Siddharth 氏は報告します。 「まるで突発的な行動が起こっているかのようです。これらのニューラルネットワークがどのように機能するのかは正確にはわかっていません。これは恐ろしくもあり、同時に刺激的でもあります。」
一般に、Open AI の GPT-4 などの大規模な言語モデルは、大量のデータを使用して事前トレーニングされます。ただし、LLM は、 プロンプト エンジニアリングの助けを借りて、特定の業界や企業で使用できるようにトレーニングすることもできます。 MIT の機械学習専門家兼助教授であるユン・キム氏は、次のように要約しています。大規模言語モデルは、コンテキストなしで単におしゃべりするだけであり、ある意味ではすでにチャットボットです。」
プロンプトエンジニアリングのテーマに関しては、さまざまなガイドラインや有用な資料集がすでに出版されています。 LLM プロバイダーである Hugging Face の機械学習専門家である Eno Reyes 氏によると、この分野は将来的にビジネスおよび IT 専門家にとって求められるスキルに発展する可能性が高いとのことです。ビジネス – コミットメントを実現します。」
大規模な言語モデルとデータ保護
2023 年の初めに、イタリアはデータ侵害後のデータ保護への懸念を理由に、西側諸国としては初めて ChatGPT へのアクセスをブロックしました(そして後に決定を覆しました)。
サイバーセキュリティ会社 Surfshark のデータ保護責任者、ガブリエレ・カベッカイト氏は「イタリアによる一時禁止を受けて ChatGPT はいくつかの改善を行ったが、まだ改善の余地がある」と警告し、さらに次のように付け加えた。 AI インタラクションにおける倫理的なデータ使用を確保し、信頼を促進し、ユーザーのプライバシーを保護するためです。」
データ保護の専門家は、ChatGPT のデータ収集慣行を分析し、この分野の潜在的な脆弱性のリストを作成しており、彼女が何を言っているのかを理解しています。それに応じて:
-
OpenAI は、言語モデルをトレーニングするために個人データを大規模に違法に収集する可能性があります。
-
同社は、影響を受けるすべてのデータ所有者に、その情報がどのように、何に使用されるかについて通知していませんでした。
-
未成年者の保護を確実にする効果的な年齢確認ツールが不足していました。
データ保護の分野の問題に加えて、大規模な言語モデルに関連するデータ セキュリティの問題も専門家にとって頭の痛い問題です。これにより、 特定の業界での使用のハードルが高くなります。AI 専門家のシッダールス氏は次のように説明しています。「病院や銀行が LLM を使用できるようになる前に、解決する必要がある知的財産、セキュリティ、機密性の問題があります。これらの問題の一部にはすでに優れた技術的解決策があり、残りの問題はまだ解決されていないと思います。それまでは、企業での広範な使用は不可能である可能性があります。企業は、競合他社により良い結果を提供するために独自のデータを使用するような状況で大規模な言語モデルを使用することを望んでいません。」
リスクと不確実性を考慮して、世界中の政府はすでに生成 AI とその将来の規制の問題に取り組んでいます。
-
中国はすでにいくつかの AI ガバナンスへの取り組みを開始しています。
-
アメリカ政府は2022年10月に「 AI権利章典」草案を提示しました。
-
2023年5月、G7諸国は生成型AIソリューションに取り組むための作業部会を設置することで合意した。
-
欧州連合は、AI を規制する法律、つまりAI 法に取り組んでいます。
大規模な言語モデルの「小さな」未来
現在、LLM ベースのチャットボットは、テキストベースの Web チャット インターフェイスとして「すぐに使える」状態で使用されることがほとんどです。これを行うために、これらは Google (Bard) や Bing (ChatGPT) などの検索エンジンに統合され、自動オンライン カスタマー サポートに使用されます。前述したように、企業は独自のデータセットをフィードして、チャットボットを特定のビジネスに合わせて調整できます。ただし、すでに入力されているデータの量によって精度が低下する可能性があります。規模と目的によっては、特定のユースケースに合わせて大規模な言語モデルをトレーニングするのに数百万ドルかかる場合があります。
「より多くのデータで長時間トレーニングされた小さなモデルが、以前は大規模なモデルでできていたことができるようになることがますます増えている」と、Hugging Face の共同創設者兼 CSO である Thomas Wolf 氏は以前の MIT カンファレンスで総括した。今月。 LLM が AI とコンピューティング能力を小規模なデータ セットに集中させた場合、LLM は、大規模で不定形なデータ セットに依存する巨大な言語モデルと同等かそれ以上のパフォーマンスを発揮しました。専門家によると、データセットが小さいほど、ユーザーが探しているコンテンツをより正確に作成できる可能性があり、トレーニング費用もはるかに安くなるという。
より小規模な大規模言語モデルを実装するための 1 つの方法は、 スパース エキスパート モデル(PDF) と呼ばれ、専門家によれば、将来的には LLM のトレーニングとコンピューティングのコストの削減に大きく貢献するとのことです。たとえば、Meta の研究者らは、スパース エキスパート モデルが将来 ChatGPT と同様のパフォーマンスを達成するものの、必要な計算能力は以前の数分の一にとどまると 想定しています(PDF)。
さまざまなプロバイダーが、より小規模な大規模言語モデルをすでに提供しています。例えば:
より機敏で大規模な言語モデルでは、最大 1,000 億個のパラメーターがバランスに投入されます。