X

Xgen Mm Phi3 Mini Base R V1

Salesforceによって開発
XGen-MMはSalesforce AI Researchが開発した最新のマルチモーダル大規模モデルシリーズで、BLIPの成功設計を基に、基礎的な強化によりより強力で優れたモデルアーキテクチャを実現しました。
ダウンロード数 240
リリース時間 : 5/7/2024

モデル概要

このモデルは大規模で高品質な画像記述データセットとインターリーブ画像テキストデータでトレーニングされ、画像テキストからテキストへのタスクをサポートし、強力な文脈学習能力を持っています。

モデル特徴

強力な事前学習ベースモデル
5Bパラメータ規模で最先端の性能を達成し、強力な文脈学習能力を示しています。
柔軟な命令微調整
命令微調整モデルは5Bパラメータ規模のオープンソース/クローズドソースのビジョン・ランゲージモデルの中で最高のパフォーマンスを示します。
高解像度画像エンコーディング
柔軟な高解像度画像エンコーディングと効率的な視覚トークンサンプリングをサポートします。

モデル能力

画像記述生成
視覚的質問応答
マルチモーダル文脈学習
高解像度画像処理

使用事例

画像理解と記述
画像内容記述
画像内容の詳細な記述を生成
出力例:犬がビーチに座って飼い主に手を振っています。
視覚的質問応答
画像に基づく質問応答
画像内容に関する自然言語の質問に回答
OKVQAやTextVQAなどのベンチマークで優れたパフォーマンスを示しています
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase