Googleが「Gemini Omni」を発表:あらゆる入力からあらゆる出力を生成するAIモデル
Google unveils Gemini Omni 'any-to-any' AI model: what enterprises should know
記事のポイント
Googleが、あらゆる入力(テキスト、画像、音声、動画)からあらゆる出力(テキスト、画像、音声、動画)を生成できる、初の真のネイティブマルチモーダルAIモデル「Gemini Omni」を発表しました。
テキスト・画像・動画・音声生成を単一の基盤モデルに統合し、より一貫性のある編集とクリーンなAPIを実現する「any-to-any」のマルチモーダル能力が技術的ポイントです。
企業は、マーケティング資料や研修コンテンツなど、視覚要素を含むあらゆるコンテンツ制作において、より効率的で高品質なAI活用が可能になるでしょう。
OpenAIのGPT-4oも同様の「オムニ」モデルですが、Gemini Omniは特に会話型動画編集を特徴としています。
現時点では個人ユーザー向けのサブスクリプションプランで提供されており、企業向けのAPI提供は今後予定されています。
概要
Although it was already discovered by intrepid AI power users weeks ahead of the official unveiling today at Google's annual I/O developer conference, the company's new Gemini Omni model marks a significantly new paradigm in the wider AI and tech marketplace.That's because as its "omni" (from the L…
GoogleのGemini Omniは、動画編集を含むマルチモーダルAIの新たな標準を打ち立てそうです。コンテンツ制作の現場では、作業効率が大きく向上するかもしれませんね。