AIを活かす その5

現在のAIの種類は大きく分けて5種類あり、「文章生成」「画像生成」「音楽生成」「音声生成」「映像生成」などに分類されます。そして、それぞれに特化したAIが存在していますので、まずは「自分のしたいこと」が何なのかをきちんと把握した上で、それに最適なAIを使用する必要があります。

例えば、文章生成ではChatGPT(チャットGPT)やClaude(クロード)などが有名ですね。これらはそれぞれ独自LLMを使用していますが、Meta社が開発している「Llama(ラマ)」も注目を集めています。自然な対話、文章生成、要約、分類などを得意としており、オープンソースで提供されていますので日本語に特化したモデルも開発されています。

画像生成では、Stable Diffusion(ステーブル・ディフュージョン)などが有名ですね。画像生成AIでは入力されたテキスト(プロンプト)に基づいて画像が生成されますが、Stable Diffusionは誰でも利用でき、商用利用も基本的には認められています。

このように生成AIは得意としている作業が異なりますが、最近ではGemini(ジェミニ)に代表されるように「マルチモーダルAI」というものも出てきました。マルチモーダルAIでは、テキスト、音声、画像、動画、センサー情報など、2つ以上の異なる要素から情報を収集し、それらを統合して処理します。

テキストに特化した「LLM(大規模言語モデル)」に対して「MLLM(マルチモーダルLLM)」とも呼ばれますが、MLLMは一つのプロンプトから複数のアウトプットを出すことができ、様々なコンテンツを統合的に扱えます。

以前はそれぞれの得意とするAIを組み合わせて使うことが推奨されていましたが、おそらく将来的にはほぼすべてのAIがマルチモーダルAIになっていくのはないかなと思われます。(だって、楽ですからね)

コメントをどうぞ

メールアドレスが公開されることはありません。