L

Llama3 Mova 8b

Developed by zongzhuofan
MoVA-8Bはオープンソースのマルチモーダル大規模言語モデルで、粗から細へのメカニズムを採用し、特定タスクのビジュアルエキスパートモジュールを適応的にルーティングおよび融合し、マルチモーダルモデルとチャットボットの研究に使用できます。
Downloads 835
Release Time : 6/28/2024

Model Overview

MoVA-8Bはマルチモーダル大規模言語モデルで、複数のビジュアルエンコーダと強力な基礎言語モデルを組み合わせ、マルチモーダル融合やビジュアル質問応答などのタスクをサポートします。

Model Features

マルチモーダル融合
粗から細へのメカニズムを採用し、特定タスクのビジュアルエキスパートモジュールを適応的にルーティングおよび融合します。
豊富なビジュアルエンコーダ
OpenAI-CLIP-336px、DINOv2-giantなどの複数のビジュアルエンコーダを統合しています。
強力な基礎大規模言語モデル
meta-llama/Meta-Llama-3-8B-Instructをベースに、強力な言語理解と生成能力を備えています。

Model Capabilities

マルチモーダル融合
ビジュアル質問応答
テキスト生成
画像分析
ビジュアル位置決め

Use Cases

マルチモーダル研究
マルチモーダルチャットボット
画像とテキストの対話をサポートするチャットボットの構築に使用します。
ビジュアル質問応答
文書理解
文書内容の解析と理解に使用し、DocVQAなどのタスクをサポートします。
DocVQAの正解率83.4
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase