★4 LLM EN VentureBeat AI by Synapse Flow 編集部

Googleが「Gemini Omni」を発表:あらゆる入力からあらゆる出力を生成するAIモデル

Google unveils Gemini Omni 'any-to-any' AI model: what enterprises should know

記事のポイント

📰ニュース

Googleが、あらゆる入力(テキスト、画像、音声、動画)からあらゆる出力(テキスト、画像、音声、動画)を生成できる、初の真のネイティブマルチモーダルAIモデル「Gemini Omni」を発表しました。

🔍注目ポイント

テキスト・画像・動画・音声生成を単一の基盤モデルに統合し、より一貫性のある編集とクリーンなAPIを実現する「any-to-any」のマルチモーダル能力が技術的ポイントです。

🔮これからどうなる

企業は、マーケティング資料や研修コンテンツなど、視覚要素を含むあらゆるコンテンツ制作において、より効率的で高品質なAI活用が可能になるでしょう。

Gemini Omniは、約1年前にリリースされた画像生成・編集モデル「Nano Banana」の進化版です。
OpenAIのGPT-4oも同様の「オムニ」モデルですが、Gemini Omniは特に会話型動画編集を特徴としています。
現時点では個人ユーザー向けのサブスクリプションプランで提供されており、企業向けのAPI提供は今後予定されています。
💡
編集部の視点

GoogleのGemini Omniは、動画編集を含むマルチモーダルAIの新たな標準を打ち立てそうです。コンテンツ制作の現場では、作業効率が大きく向上するかもしれませんね。

概要

Although it was already discovered by intrepid AI power users weeks ahead of the official unveiling today at Google's annual I/O developer conference, the company's new Gemini Omni model marks a significantly new paradigm in the wider AI and tech marketplace.That's because as its "omni" (from the L…

元記事を読む →

関連記事