L

Llama3 Mova 8b

zongzhuofanによって開発
MoVA-8Bはオープンソースのマルチモーダル大規模言語モデルで、粗から細へのメカニズムを採用し、特定タスクのビジュアルエキスパートモジュールを適応的にルーティングおよび融合し、マルチモーダルモデルとチャットボットの研究に使用できます。
ダウンロード数 835
リリース時間 : 6/28/2024

モデル概要

MoVA-8Bはマルチモーダル大規模言語モデルで、複数のビジュアルエンコーダと強力な基礎言語モデルを組み合わせ、マルチモーダル融合やビジュアル質問応答などのタスクをサポートします。

モデル特徴

マルチモーダル融合
粗から細へのメカニズムを採用し、特定タスクのビジュアルエキスパートモジュールを適応的にルーティングおよび融合します。
豊富なビジュアルエンコーダ
OpenAI-CLIP-336px、DINOv2-giantなどの複数のビジュアルエンコーダを統合しています。
強力な基礎大規模言語モデル
meta-llama/Meta-Llama-3-8B-Instructをベースに、強力な言語理解と生成能力を備えています。

モデル能力

マルチモーダル融合
ビジュアル質問応答
テキスト生成
画像分析
ビジュアル位置決め

使用事例

マルチモーダル研究
マルチモーダルチャットボット
画像とテキストの対話をサポートするチャットボットの構築に使用します。
ビジュアル質問応答
文書理解
文書内容の解析と理解に使用し、DocVQAなどのタスクをサポートします。
DocVQAの正解率83.4
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase