🚀 ViTucano-2b8-v1
ViTucano は、ポルトガル語でネイティブに事前学習されたビジョンアシスタントを作成する最初の試みです。視覚理解と言語能力を統合し、画像キャプション生成や視覚的質問応答などのマルチモーダルタスクに役立つツールを提供します。
🚀 クイックスタート
このセクションでは、ViTucano-2b8-v1 モデルの基本的な情報を紹介します。
✨ 主な機能
- マルチモーダルタスク対応:画像とテキストを組み合わせたマルチモーダルなタスクに対応しています。
- ポルトガル語対応:ポルトガル語でネイティブに事前学習されているため、ポルトガル語の画像テキスト生成に適しています。
📦 インストール
このドキュメントにはインストール手順が記載されていないため、このセクションは省略されます。
💻 使用例
基本的な使用法
⚠️ 重要提示
transformers
ライブラリを使用してViTucanoモデルを使用するには、リモートコードを実行する必要があります (trust_remote_code=True
)。実行されるファイルは configuration.py
と modeling_tinyllava_tucano.py
で、どちらもこのリポジトリにあります。
tinyllava
を使用して推論を実行する
from tinyllava.eval.run_tiny_llava import eval_model
model_path = "TucanoBR/ViTucano-2b8-v1"
prompt = "Quais os principais elementos dessa imagem?"
image_file = "https://raw.githubusercontent.com/Nkluge-correa/TinyLLaVA_Factory/refs/heads/main/assets/sample.jpg"
conv_mode = "llama"
args = type('Args', (), {
"model_path": model_path,
"model": None,
"query": prompt,
"conv_mode": conv_mode,
"image_file": image_file,
"sep": ",",
"temperature": 0,
"top_p": None,
"num_beams": 1,
"max_new_tokens": 512
})()
eval_model(args)
transformers
を使用して推論を実行する
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
model_path = "TucanoBR/ViTucano-2b8-v1"
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model = AutoModelForCausalLM.from_pretrained(
model_path,
trust_remote_code=True)
model.to(device)
tokenizer = AutoTokenizer.from_pretrained(model_path)
prompt = "Quais os principais elementos dessa imagem?"
image_file="https://raw.githubusercontent.com/Nkluge-correa/TinyLLaVA_Factory/refs/heads/main/assets/sample.jpg"
output_text, _ = model.chat(prompt=prompt, image=image_file, tokenizer=tokenizer)
print(output_text)
📚 ドキュメント
モデル概要
ViTucano は、Tucanoシリーズ をベースに、TinyLLaVA Factory を使用して構築されています。
詳細情報
属性 |
详情 |
モデルタイプ |
TinyLlavaForConditionalGeneration |
ビジョンタワー |
google/siglip-so400m-patch14-384 |
パラメータ数 |
2,882,351,680 |
コンテキスト長 |
4096トークン |
データセット |
GigaVerbo、ViTucano-Pretrain、ViTucano-SFT |
言語 |
ポルトガル語 |
使用GPU |
8台のNVIDIA A40 |
学習時間 |
約27時間 |
二酸化炭素排出量 |
25.4 KgCO2 (ドイツ) |
総消費エネルギー |
66 kWh |
このリポジトリには、このモデルを学習するために使用された ソースコード が含まれています。
想定使用方法
ViTucanoモデルの主な使用目的は、ポルトガル語のベースモデルを用いた研究開発の基盤として提供することです。Apache 2.0ライセンスに従う限り、微調整してデプロイすることもできます。
想定外の使用方法
- デプロイ用途ではない:デプロイ用の即時使用可能な製品ではなく、人との対話には使用しないでください。
- ポルトガル語専用:ポルトガル語以外の言語の画像テキスト生成タスクには適していません。
- 特定の下流タスクに微調整されていない:特定の下流タスクに対して微調整されていません。
制限事項
ViTucanoモデルには以下のような制限があります。
- 幻覚:視覚入力の解釈や記述時に誤解を招くまたは完全に誤った情報を生成する可能性があります。
- バイアスと毒性:学習データに含まれる社会的および歴史的なステレオタイプを引き継いでいるため、有害、不快、または誤解を招く記述や分析が含まれる可能性があります。
- 信頼性の低い視覚解釈:画像内のオブジェクト、シーン、またはテキストなどの視覚要素の解釈が不正確になる可能性があります。
- マルチモーダル言語の制限:ポルトガル語用に最適化されているため、多言語の視覚およびテキストコンテキストを処理する際にエラー、誤解、または不十分な応答が生じる可能性があります。
- 繰り返しと関係のない詳細:特定のハイパーパラメータ設定では、繰り返しの応答パターンが見られることがあります。
したがって、これらのモデルは許容的なライセンスで公開されていますが、実世界のアプリケーションで使用する前にリスク分析を行うことを強くお勧めします。
🔧 技術詳細
このドキュメントには技術的な詳細が十分に記載されていないため、このセクションは省略されます。
📄 ライセンス
ViTucanoは、Apache License, Version 2.0の下でライセンスされています。詳細については、LICENSE ファイルを参照してください。
引用方法 🤗
ViTucano
@misc{correa2025vitucano,
author={Corr{\^e}a, Nicholas Kluge and Sen, Aniket and Falk, Sophia and Fatimah, Shiza},
title={{ViTucano: A Portuguese Vision Assitant}},
year=2025,
howpublished={\url{https://huggingface.co/TucanoBR/ViTucano-2b8-v1}},
doi={10.57967/hf/4530},
publisher={{Hugging Face}}
}
Tucano
@misc{correa2024tucanoadvancingneuraltext,
title={{Tucano: Advancing Neural Text Generation for Portuguese}},
author={Corr{\^e}a, Nicholas Kluge and Sen, Aniket and Falk, Sophia and Fatimah, Shiza},
year={2024},
eprint={2411.07854},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2411.07854},
}
TinyLLaVA Factory
@article{jia2024tinyllava,
title={TinyLLaVA Factory: A Modularized Codebase for Small-scale Large Multimodal Models},
author={Jia, Junlong and Hu, Ying and Weng, Xi and Shi, Yiming and Li, Miao and Zhang, Xingjian and Zhou, Baichuan and Liu, Ziyu and Luo, Jie and Huang, Lei and Wu, Ji},
journal={arXiv preprint arXiv:2405.11788},
year={2024}
}
LLaVA
@misc{liu2023llava,
title={Visual Instruction Tuning},
author={Liu, Haotian and Li, Chunyuan and Wu, Qingyang and Lee, Yong Jae},
publisher={NeurIPS},
year={2023},
}
謝辞
University of Bonn が提供する Marvinクラスタ へのアクセス許可と、その高性能コンピューティング&分析ラボによるサポートに感謝します。