テクノロジー業界に関係のない人でも、OpenAI CEO の Sam Altman 氏が最近解雇されたこと ( そしてその後 Microsoft が採用したこと) について聞いたことがあるでしょう。 (生成)人工知能(AI)がついに主流に到達した兆候。

しかし、これまでのところ変わっていないのは、AI がでたらめに対して多大な魅力を発揮し続けているということです。ケンブリッジ大学学際デザイン教授のアラン ブラックウェル氏が、 読む価値のあるブログ投稿で率直に述べているように、これは、AI が大規模で無意味な誇大宣伝であることを意味するのではなく、むしろ AI には実質が欠けているということです。

さまざまな業界の多くの企業がすでに AI による付加価値を実現しています。さらには、巨大な AI 市場のごく一部にすぎないジェネレーティブ AIによっても付加価値を実現しています。それでも、ブラックウェルは次のように書いています。「AI は文字通りでたらめを生み出します。トレーニング データに基づいて、良さそうなものを発明します。」

「その後、無意味な作業を自動化しました」

大規模言語モデル(LLM) の動作にとって、「真実」は重要ではありません。大規模言語モデルは、膨大なデータ セットを使用してコンテンツを認識、要約、翻訳、予測または生成できる深層学習アルゴリズムです。この定義には「事実」や「知識」は入りません。これは、数学や物理の問題に関しては定期的に明らかになります。正解は 1 つだけです。そして、それがChatGPT and Co.によって生成される可能性はかなり低いです。

ジェフリー・ヒントンに続いて、 ブラックウェルは次のように書いています。 AI の最大のリスクの 1 つは、AI が知的ではなくても説得力のあるテキストを生成してしまうことです。」それはステロイドを使ってフェイクニュースを生成するのと同じことだ、と教授は書き、「それではナンセンスを自動化することになる」と付け加えた。

ブラックウェル氏の目には、これはまったく驚くべきことではありません。結局のところ、かつての Twitter、Facebook、Reddit などのプラットフォームが、ChatGPT やその他のGenAI サービスの基礎となる大規模な言語モデルの主なソースであるからです。 「ChatGPT には、これらの膨大なでたらめアーカイブの何が真実で何が真実ではないかを検証するメカニズムがありません。これは、対応する糞便で汚染された生産物につながります。」

検索拡張生成がどのように役立つか

LLM からある程度の有用な知識を抽出するための鍵は、モデルを「絞り込む」ことだとブルックス氏は言います。これを実際に実装するための重要な方法は、検索拡張生成 (RAG)です。 AI プロバイダーである Pinecone の開発者提唱者である Zachary Proser 氏は、 ブログ投稿でこのコンセプトを次のように説明しています。「検索拡張生成は、LLM が認識できる重要なポイントが記載された地図をかざすようなものです。これは、大規模な言語モデルを独自のデータで拡張し、より多くのコンテキストと知識を取り込んで、より良い答えを生成する方法です。」

RAG の基本要素はベクトルであり、さまざまな AI アプリケーションで使用されます。 「ベクトル埋め込み」は、データ オブジェクトの特性を記述する、ベクトル データベースに格納されている数値の長いリストを単純に表します。この情報は、他のオブジェクトとの関係でオブジェクトの意味論的な意味を把握するために使用されます。

類似したオブジェクトはベクトル空間でグループ化され、類似性が強くなるほど互いに近くなります。これにより、同義語やキーワードの一致に依存せずに、類似の特性を持つ関連エンティティを検索できます。 「LLM はベクトル データベースから最も関連性の高い詳細な事実にアクセスできるようになり、正確な回答を提供できるようになりました。 RAG は AI の幻覚の可能性を大幅に減らすことができます」と、完全に無関心ではないが Proser 氏は述べています。

そうは言っても、これはまさに、大規模言語モデルと生成 AI から真の価値を引き出すために必要であるとブラックウェル氏が主張する種類の封じ込めです。それ以外はすべて自動化されたでたらめです。 (FM)

この投稿は、米国の姉妹誌 Infoworld の記事に基づいています。