I

Infimm Zephyr

Infi-MMによって開発
InfiMMはFlamingoアーキテクチャに触発されたマルチモーダル視覚言語モデルで、最新のLLMモデルを統合し、幅広い視覚言語処理タスクに適しています。
ダウンロード数 23
リリース時間 : 1/4/2024

モデル概要

InfiMMは革新的な視覚言語モデルで、先進的な視覚エンコーダーと大規模言語モデルを組み合わせ、画像とテキストのインタラクティブタスクを処理できます。

モデル特徴

マルチモーダル理解
画像とテキスト入力を同時に処理し、クロスモーダル理解を実現
柔軟なアーキテクチャ
異なる規模とアーキテクチャのLLMs統合をサポートし、より広範な応用可能性を提供
オープンソースアクセス
この分野で初のオープンソースバリアントとして、より良いアクセシビリティと適応性を備えている

モデル能力

画像キャプション生成
視覚的質問応答
マルチモーダル対話
画像内容理解
クロスモーダル推論

使用事例

コンテンツ理解
画像キャプション生成
入力画像に対して詳細なテキスト記述を生成
COCOデータセットでCIDErスコア108.6を達成
視覚的質問応答
VQA v2データセットで59.1%の精度を達成
教育
科学問題解答
画像に基づく科学問題に回答
ScienceQA-Imgデータセットで71.1%の精度を達成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase