LLaVA_MORE - llama_3_1 - 8Bオープンソースモデル - 無料でデプロイして効率的な画像からテキストへの変換を実現

ホーム

Llava MORE Llama 3 1 8B Finetuning

aimagelabによって開発

LLaVA-MOREはLLaVAアーキテクチャを基にした拡張版で、LLaMA 3.1を言語モデルとして統合し、画像からテキストへのタスクに特化しています。

画像生成テキスト

Transformers

オープンソースライセンス:Apache-2.0 #視覚指示チューニング #マルチモーダルインタラクション #LLaMA3拡張

ダウンロード数 215

リリース時間 : 7/30/2024

モデル概要

LLaVA-MOREは、LLaMA 3.1を言語モデルとして統合することで、有名なLLaVAアーキテクチャを強化しました。このモデルは主に画像からテキストへのタスクに使用され、視覚指示チューニングをサポートします。

モデル特徴

強化された視覚指示チューニング

LLaMA 3.1を言語モデルとして統合することで、視覚指示チューニングの能力を向上させました。

2段階トレーニング

第1段階と第2段階のチェックポイントを提供し、さまざまなシナリオでの使用を容易にしました。

モデル能力

画像からテキスト生成

視覚指示理解

使用事例

視覚的質問応答

画像説明生成

入力された画像に基づいて詳細なテキスト説明を生成します。

視覚指示応答

視覚入力と指示に基づいて適切なテキスト応答を生成します。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Llava MORE Llama 3 1 8B Finetuning

モデル概要

モデル特徴

モデル能力

使用事例

🚀 LLaVA_MORE-llama_3_1-8B-finetuningのモデルカード

🚀 クイックスタート

推論

📄 ライセンス

📚 ドキュメント

データセット

ライブラリ

パイプラインタグ

📄 引用