ViTucano-2b8-v1オープンソースビジュアルアシスタント - 画像説明、質問応答などのポルトガル語のマルチモーダルタスクをサポート

ホーム

Vitucano 2b8 V1

TucanoBRによって開発

ViTucanoはポルトガル語でネイティブに事前学習された初のビジュアルアシスタントで、視覚理解と言語能力を統合し、画像キャプション生成や視覚的質問応答などのマルチモーダルタスクに適しています。

画像生成テキスト

Transformers

その他オープンソースライセンス:Apache-2.0 #ポルトガル語ビジュアルアシスタント #画像テキスト生成 #マルチモーダルタスク処理

ダウンロード数 86

リリース時間 : 1/13/2025

モデル概要

Tucanoシリーズを基に開発されたポルトガル語視覚言語モデルで、TinyLLaVAファクトリーフレームワークを採用し、画像テキスト生成タスクをサポートします。

モデル特徴

ネイティブポルトガル語サポート

ポルトガル語に特化して事前学習と最適化が行われた視覚言語モデル

マルチモーダル能力

視覚モジュール(SigLIP)と言語モデルを組み合わせ、画像理解とテキスト生成を実現

効率的なアーキテクチャ

TinyLLaVAフレームワークを基に構築され、性能を維持しながら計算効率を最適化

モデル能力

画像キャプション生成

視覚的質問応答

マルチモーダル理解

ポルトガル語テキスト生成

使用事例

コンテンツ生成

自動画像キャプション

ポルトガル語コンテンツプラットフォーム向けに自動的に画像説明を生成

コンテンツのアクセシビリティとSEO最適化の向上

支援技術

視覚支援

視覚障害者向けにポルトガル語で画像説明サービスを提供

デジタルアクセシビリティの強化

🚀 ViTucano-2b8-v1

ViTucano は、ポルトガル語でネイティブに事前学習されたビジョンアシスタントを作成する最初の試みです。視覚理解と言語能力を統合し、画像キャプション生成や視覚的質問応答などのマルチモーダルタスクに役立つツールを提供します。

🚀 クイックスタート

このセクションでは、ViTucano-2b8-v1 モデルの基本的な情報を紹介します。

✨ 主な機能

マルチモーダルタスク対応：画像とテキストを組み合わせたマルチモーダルなタスクに対応しています。
ポルトガル語対応：ポルトガル語でネイティブに事前学習されているため、ポルトガル語の画像テキスト生成に適しています。

📦 インストール

このドキュメントにはインストール手順が記載されていないため、このセクションは省略されます。

💻 使用例

基本的な使用法

⚠️ 重要提示

transformers ライブラリを使用してViTucanoモデルを使用するには、リモートコードを実行する必要があります (trust_remote_code=True)。実行されるファイルは configuration.py と modeling_tinyllava_tucano.py で、どちらもこのリポジトリにあります。

tinyllava を使用して推論を実行する

from tinyllava.eval.run_tiny_llava import eval_model

model_path = "TucanoBR/ViTucano-2b8-v1"
prompt = "Quais os principais elementos dessa imagem?"
image_file = "https://raw.githubusercontent.com/Nkluge-correa/TinyLLaVA_Factory/refs/heads/main/assets/sample.jpg"
conv_mode = "llama"

args = type('Args', (), {
    "model_path": model_path,
    "model": None,
    "query": prompt,
    "conv_mode": conv_mode,
    "image_file": image_file,
    "sep": ",",
    "temperature": 0,
    "top_p": None,
    "num_beams": 1,
    "max_new_tokens": 512
})()

eval_model(args)

transformers を使用して推論を実行する

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

model_path = "TucanoBR/ViTucano-2b8-v1"
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

model = AutoModelForCausalLM.from_pretrained(
  model_path, 
  #torch_dtype=torch.bfloat16, # for optimized inference  🚀
  #attn_implementation="flash_attention_2" # for optimized inference  🚀
  trust_remote_code=True)
model.to(device)

tokenizer = AutoTokenizer.from_pretrained(model_path)
prompt = "Quais os principais elementos dessa imagem?"
image_file="https://raw.githubusercontent.com/Nkluge-correa/TinyLLaVA_Factory/refs/heads/main/assets/sample.jpg"
output_text, _ = model.chat(prompt=prompt, image=image_file, tokenizer=tokenizer)

print(output_text)

📚 ドキュメント

モデル概要

ViTucano は、Tucanoシリーズをベースに、TinyLLaVA Factory を使用して構築されています。

詳細情報

属性	详情
モデルタイプ	`TinyLlavaForConditionalGeneration`
ビジョンタワー	`google/siglip-so400m-patch14-384`
パラメータ数	2,882,351,680
コンテキスト長	4096トークン
データセット	GigaVerbo、ViTucano-Pretrain、ViTucano-SFT
言語	ポルトガル語
使用GPU	8台のNVIDIA A40
学習時間	約27時間
二酸化炭素排出量	25.4 KgCO2 (ドイツ)
総消費エネルギー	66 kWh

このリポジトリには、このモデルを学習するために使用されたソースコードが含まれています。

想定使用方法

ViTucanoモデルの主な使用目的は、ポルトガル語のベースモデルを用いた研究開発の基盤として提供することです。Apache 2.0ライセンスに従う限り、微調整してデプロイすることもできます。

想定外の使用方法

デプロイ用途ではない：デプロイ用の即時使用可能な製品ではなく、人との対話には使用しないでください。
ポルトガル語専用：ポルトガル語以外の言語の画像テキスト生成タスクには適していません。
特定の下流タスクに微調整されていない：特定の下流タスクに対して微調整されていません。

制限事項

ViTucanoモデルには以下のような制限があります。

幻覚：視覚入力の解釈や記述時に誤解を招くまたは完全に誤った情報を生成する可能性があります。
バイアスと毒性：学習データに含まれる社会的および歴史的なステレオタイプを引き継いでいるため、有害、不快、または誤解を招く記述や分析が含まれる可能性があります。
信頼性の低い視覚解釈：画像内のオブジェクト、シーン、またはテキストなどの視覚要素の解釈が不正確になる可能性があります。
マルチモーダル言語の制限：ポルトガル語用に最適化されているため、多言語の視覚およびテキストコンテキストを処理する際にエラー、誤解、または不十分な応答が生じる可能性があります。
繰り返しと関係のない詳細：特定のハイパーパラメータ設定では、繰り返しの応答パターンが見られることがあります。

したがって、これらのモデルは許容的なライセンスで公開されていますが、実世界のアプリケーションで使用する前にリスク分析を行うことを強くお勧めします。

🔧 技術詳細

このドキュメントには技術的な詳細が十分に記載されていないため、このセクションは省略されます。

📄 ライセンス

ViTucanoは、Apache License, Version 2.0の下でライセンスされています。詳細については、LICENSE ファイルを参照してください。

引用方法 🤗

ViTucano

@misc{correa2025vitucano,
    author={Corr{\^e}a, Nicholas Kluge and Sen, Aniket and Falk, Sophia and Fatimah, Shiza},
    title={{ViTucano: A Portuguese Vision Assitant}},
    year=2025,
    howpublished={\url{https://huggingface.co/TucanoBR/ViTucano-2b8-v1}},
    doi={10.57967/hf/4530},
    publisher={{Hugging Face}}
}

Tucano

@misc{correa2024tucanoadvancingneuraltext,
      title={{Tucano: Advancing Neural Text Generation for Portuguese}}, 
      author={Corr{\^e}a, Nicholas Kluge and Sen, Aniket and Falk, Sophia and Fatimah, Shiza},
      year={2024},
      eprint={2411.07854},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2411.07854}, 
}

TinyLLaVA Factory

@article{jia2024tinyllava,
  title={TinyLLaVA Factory: A Modularized Codebase for Small-scale Large Multimodal Models},
  author={Jia, Junlong and Hu, Ying and Weng, Xi and Shi, Yiming and Li, Miao and Zhang, Xingjian and Zhou, Baichuan and Liu, Ziyu and Luo, Jie and Huang, Lei and Wu, Ji},
  journal={arXiv preprint arXiv:2405.11788},
  year={2024}
}

LLaVA

@misc{liu2023llava,
      title={Visual Instruction Tuning}, 
      author={Liu, Haotian and Li, Chunyuan and Wu, Qingyang and Lee, Yong Jae},
      publisher={NeurIPS},
      year={2023},
}