Llama3 Mova 8b
MoVA-8Bはオープンソースのマルチモーダル大規模言語モデルで、粗から細へのメカニズムを採用し、特定タスクのビジュアルエキスパートモジュールを適応的にルーティングおよび融合し、マルチモーダルモデルとチャットボットの研究に使用できます。
ダウンロード数 835
リリース時間 : 6/28/2024
モデル概要
MoVA-8Bはマルチモーダル大規模言語モデルで、複数のビジュアルエンコーダと強力な基礎言語モデルを組み合わせ、マルチモーダル融合やビジュアル質問応答などのタスクをサポートします。
モデル特徴
マルチモーダル融合
粗から細へのメカニズムを採用し、特定タスクのビジュアルエキスパートモジュールを適応的にルーティングおよび融合します。
豊富なビジュアルエンコーダ
OpenAI-CLIP-336px、DINOv2-giantなどの複数のビジュアルエンコーダを統合しています。
強力な基礎大規模言語モデル
meta-llama/Meta-Llama-3-8B-Instructをベースに、強力な言語理解と生成能力を備えています。
モデル能力
マルチモーダル融合
ビジュアル質問応答
テキスト生成
画像分析
ビジュアル位置決め
使用事例
マルチモーダル研究
マルチモーダルチャットボット
画像とテキストの対話をサポートするチャットボットの構築に使用します。
ビジュアル質問応答
文書理解
文書内容の解析と理解に使用し、DocVQAなどのタスクをサポートします。
DocVQAの正解率83.4
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98