ChatGPTDALL-E 、または安定した拡散は誰もが知っています。この記事では、Generative AI とは何か、その仕組み、考えられる用途と制限について説明します。また、なぜ「指が多すぎる」ことがAI アートの紛れもない識別特徴になったのかという疑問も明らかにします。

生成 AI の定義

生成 AIまたは生成人工知能は、アルゴリズムを使用してデータ (多くの場合画像またはテキストの形式) を生成、処理、または合成する、あらゆる種類の自動化プロセスを表す総称です。このタイプの人工知能は、履歴データに基づいてこれまでに存在しなかったものを作成するため、生成的と呼ばれます。これは、異なる種類の入力を区別するだけの識別型 AI インスタンスとは大きく異なります。言い換えると:

  • 識別AIは、 「これはウサギの絵ですか、それともライオンの絵ですか?」という質問に答えたいと考えています。答え。

  • 生成 AI は、「ウサギの隣に座っているライオンの絵を描いてください」のような入力に応答します。

生成 AI には、あなたが思っているよりも長い年月がかかっています。この種の最初の例は、1966 年に MIT で開発された、心理療法士との会話をシミュレートすることを目的としたチャットボット「ELIZA」と見なすことができます。 AI 研究では数十年が経過しました。ChatGPT、DALL-E、安定拡散などの現世代の生成 AI システムが公開されたことで、待望の (または恐れられていた) 人工知能の主流への躍進が差し迫っている可能性があります。

ChatGPT などは、情報の (場合によっては非常に大規模な) サブセットに基づいて現実世界の側面をシミュレートまたはモデル化しようとするため、モデルと呼ばれることがよくあります。このタイプのシステムがもたらす結果は驚きを引き起こす可能性がありますが、何よりも疑問が生じます。たとえば、AI システムは意識を発達させることができるのか、将来的には人々から仕事を「奪う」のかなどです。誇大広告が絶え間なく猛威を振るう一方で、システムの表面下で起こっている革命は、多くの人が想定しているよりもはるかに少ないです。生成 AI システムの内部を見てみましょう。

生成 AI の仕組み

生成 AI は、 機械学習を使用して、主にインターネットから収集された画像またはテキスト形式の膨大な量のデータを処理し、予測の基礎として使用します。生成 AI システムのプログラミング作業のほとんどには、「物事を区別できる」アルゴリズムの開発が含まれます。 ChatGPTのようなチャットボットの場合は単語や文章、DALL-Eの場合は視覚的な要素です。

基本的に、生成人工知能は、トレーニングに使用されたデータセットを評価することによって出力を生成します。次に、データによって決定される確率の範囲内にあるプロンプトで応答します。あなたはおそらく、低レベルの生成 AI を長い間毎日使用しているでしょう。たとえば、スマートフォンや Gmail が単語や文章を完成させるときなどです。 ChatGPT や DALL-E などのシステムは、このアイデアを大幅に高いレベルに引き上げます。

ジェネレーティブ AI とは何ですか?

生成 AI モデルをトレーニングする

このデータを処理できるモデルを開発するプロセスは、 トレーニングと呼ばれます。モデルの種類に応じて、さまざまな方法が使用されます。

  • たとえば、ChatGPT はトランスフォーマーと呼ばれるものを使用します。これは、個々の単語や意味構成要素が互いにどのように関連しているかを「理解」するために、長いテキストのシーケンスから意味を導き出します。次に、それらが関連している可能性がどの程度あるかを判断します。トランスフォーマーは、巨大な自然言語コーパス上で教師なしで解き放たれます。このプロセスは事前トレーニングと呼ばれます。彼は、人間がモデルと対話する手動の微調整に直面しています。

  • 生成 AI モデルをトレーニングするためのもう 1 つの手法は、いわゆる敵対的生成ネットワーク( GAN ) です。 2 つのアルゴリズムが互いに競合します。1 つは確率に基づいてテキストまたは画像を生成し、もう 1 つは出力が本物か AI によって生成されたかを「判断」する (手動でトレーニングされた) 識別 AI です。生成型 AI は、対応する AI を「出し抜こう」とします。この競争で生成 AI が一貫して優位に立つと、識別 AI システムが手動で微調整され、プロセスが再び始まります。

特に重要なことは、トレーニング プロセスには手動介入がありますが、学習と適応作業の大部分は自動化されていることです。

生成型 AI の限界

したがって、DALL-E と ChatGPT は「考える」マシンとは程遠いです。むしろ、 IBMの元 NLP リーダーである Chris Phipps 氏が説明するように、これらはよくできた予測マシンです。それどころか、その成果物を消費する人々は通常、その成果物が意味をなすために必要な暗黙の仮定をすべて行っています。」

特定のプロンプトは、フィップスの主張を補強します。たとえば、次のパズルを考えてみましょう。1 ポンドの鉛と 1 ポンドの羽毛では、どちらの方が重いでしょうか。答えはもちろん、どちらも同じ重さ、つまり 1 ポンドです。たとえ私たちの本能が羽の方が軽いと感じたとしてもです。 ChatGPT もこの質問に正しく答えます。ただし、正解を考えるからではありません。トレーニング セットにはパズルを説明する一連のテキストが含まれているため、システムは正解のバージョンを出力できます。

ただし、ChatGPT に 2 ポンドの羽毛は鉛より重いかどうかを尋ねると、同じ重さだと答え続けます。 AI エンティティのエラーを指摘すると、奇妙な結果が生じることがあります。私たちの場合、ChatGPT は謝罪しましたが、その後、2 ポンドの羽毛の重さは 1 ポンドの鉛の 4 倍であると主張しました。

AI アートの注目に値する奇妙さは、生成 AI システム、つまり奇妙な手を持った人々の (非) 機能についてのさらなる洞察を提供します。これは主に、DALL-E および同様のツールが基づいているデータ コーパスによるものです。通常、人物の画像では顔がよく見えます。一方、手は部分的に隠れたり、奇妙な角度で見えたりすることがよくあります。これに加えて、手は構造的に非常に複雑であり、人間のアーティストにとってさえ描くのが難しいことで有名です。

DALL-E は、「手」が物事の一貫したカテゴリーであることを必ずしも知っているわけではありません。できることは、持っている画像に基づいて、類似した画像がどのように見えるかを予測しようとすることだけです。大量のデータがあるにもかかわらず、結果が不十分であることがよくあります。 AI の専門家フィップス氏は、その原因はネガティブな入力が少なすぎるのではないかと考えています。「私の知る限り、システムは主にポジティブな例でトレーニングされています。彼らは彼に7本の指がある手の写真を渡して、「それは悪い手の例だ」とは言いませんでした。そんなことはしないでください。』したがって、システムは不可能な空間ではなく、可能な空間を予測します。本質的に、7本指の手を作るなと指示されたことは一度もありません。」

これに加えて、AI モデルは作成した図面を一貫した全体としてではなく、一連のコンポーネントとして認識するという事実が加わります。これらは、トレーニング データが示すようにまとめられています。だからこそ、DALL-E は手に 5 本の指があることを知りませんが、指がおそらく別の指の隣にあることは知っています。これは「複数の指」の問題につながります(ちなみに、これは歯でも再現できます)。しかし、このプロセスの説明は、フィップスの好みからすると、依然として人間味が強すぎます。「ダルイーが指が何であるかを理解しているとは思えません。おそらく、システムはピクセルの色を予測しており、指の色のピクセルは他の指の色のピクセルの隣にある傾向があると考えられます。」

生成 AI の暗い側面

先ほど挙げた例は、生成 AI の重要な制限を強調しています。誤った出力 – 業界の専門家によって「幻覚」とも呼ばれます。しかし、たとえ生成人工知能がこの欠陥から解放されたとしても、他にもさまざまな潜在的なマイナスの影響がまだ列挙されていません。

  • 安価でシンプルなコンテンツ作成: ChatGPT と Co はクリエイティブな労働者ではありません。ただし、これはすべての場合に必要なわけではありません。公開されている情報を要約することが目的の場合、これは生成 AI にとって完璧なタスクです。残念ながら、 犯罪的なハッカーやスパマーはすでにこのことに気づいており、このツールをフィッシングメールの作成などに使用しています。

  • 知的財産: AI が生成した画像やテキストの所有者は誰ですか?著作権で保護された作品がトレーニング データ セットの一部である場合、AI は、たとえそれを一字一句コピーしなくても、そこから合成データを生成するときにその作品を「盗用」するのでしょうか?これらはデリケートな、そしてほとんどが未解決の法的問題です。

  • バイアス:生成 AI システムが生成するコンテンツは、基礎となるトレーニング データによって完全に決定されます。このデータは人間によって生成されたものであるため、特に人間の指導なしに作業した場合、生成される結果は不正確で偏ったものになる可能性があります。そのため、OpenAI は公開前にモデルにセキュリティ対策を備えていました。 Meta の ChatGPT の競合製品である LLaMA からのリークは、これらが欠落している場合に何が起こるかを示しています。

  • エネルギー消費:哲学的な問題に加えて、生成 AI はいくつかの非常に現実的な問題も引き起こします。まず、生成 AI モデルのトレーニングは非常に多くの計算量を要します。この分野に参入したい企業は、クラウド料金の増加を予想する必要があります。結局のところ、電力消費量の増加、そして最終的には温室効果ガス排出量の増加が、(ブロックチェーンや仮想通貨と同様に)最終結果に見合う価値があるのか​​どうかという疑問が生じます。

生成 AI のユースケース

それにもかかわらず、生成 AI システムに秘められた可能性を過小評価すべきではありません。これは、考えられる使用例 (インテリジェントなチャットボットを除く) を見るとわかります。

  • コード生成:生成 AI でソフトウェアをプログラムできるという考えは、何も新しいものではありません。 ChatGPT と Co. は実際に自然言語だけでなくプログラミング言語も理解しています。そのため、開発者の生産性を向上させるための貴重なツールとなります。

  • 安価で簡単なコンテンツ作成:この点は問題があるだけでなく、チャンスでもあります。スパム メールを作成する同じ AI が、正規のマーケティング メールも作成できるのです。生成 AI システムは、履歴書やカバーレターなど、創造性をあまり必要としない、高度に構造化された形式のテキストの場合に威力を発揮します。

  • 技術設計:ビジュアル アートと自然言語は、一般の人にとって理解しやすいため、生成 AI の分野で多くの注目を集めています。しかし、同様の技術は、マイクロチップから新薬に至るまであらゆるものの開発に使用されており、近い将来、ほぼ確実に IT アーキテクチャの分野に導入されることになります。 (FM)

この投稿は、米国の姉妹誌である Network World の記事に基づいています。