★4 LLM EN Hugging Face Blog 2024年5月14日 09:00 by Synapse Flow 編集部

PaliGemma – Googleの最先端オープン視覚言語モデル

PaliGemma – Google's Cutting-Edge Open Vision Language Model

記事のポイント

📰ニュース

Googleがオープンな視覚言語モデル「PaliGemma」を公開しました。

🔍注目ポイント

画像とテキストを同時に理解し、様々な視覚タスクに対応できるのが特徴です。

🔮これからどうなる

開発者は無料で高性能なマルチモーダルAIを開発・利用できるようになります。

PaliGemmaは、GoogleのGemmaファミリーの一部であり、画像キャプション、視覚的質問応答、オブジェクト検出など、幅広い視覚言語タスクに対応します。
オープンソースであるため、研究者や開発者が自由にモデルをカスタマイズし、新しいアプリケーションを構築できる点が大きなメリットです。

💡

編集部の視点

Googleがまたすごいモデルを出してきたね！オープンソースだから、色々なアプリで画像認識がもっと手軽に使えるようになるかもね！

元記事を読む →

JavaScriptランタイムBunが、Claude 3.5 Sonnetを活用し、約53万行のZigコードをRustへ移植しました。

Anthropic、OpenAI、SpaceXの3社が、過去25年間の米国VC支援企業売却総額を超える価値を生み出す見込みで…

Metaが新しいAIモデル「Muse Spark 1.1」を発表し、Meta Model APIを通じて開発者向けに提供を開始しまし…

Character.AIが、LLMを活用したインタラクティブなショート動画シリーズ「c.ai Series」を発表しました。