Vitucano 1b5 V1
ViTucano是原生葡萄牙語預訓練的視覺助手,整合了視覺理解與語言能力,適用於多模態任務。
下載量 37
發布時間 : 1/10/2025
模型概述
ViTucano基於Tucano系列構建,採用TinyLLaVA工廠框架,能夠處理圖像描述、視覺問答等多模態任務。
模型特點
原生葡萄牙語支持
專門針對葡萄牙語優化的視覺語言模型,提供更準確的葡萄牙語理解和生成能力。
多模態能力
結合視覺和語言理解,能夠處理圖像描述、視覺問答等複雜任務。
高效架構
基於TinyLLaVA工廠框架,在保持性能的同時優化計算效率。
模型能力
圖像描述
視覺問答
多模態理解
葡萄牙語文本生成
使用案例
教育
視覺輔助學習
幫助學生理解教材中的圖像內容
提供準確的葡萄牙語圖像描述
內容創作
自動圖像標註
為社交媒體內容生成描述性文字
提高內容可訪問性和SEO效果
🚀 ViTucano-1b5-v1
ViTucano 是我們首次嘗試創建的原生以葡萄牙語進行預訓練的視覺助手。它將視覺理解與語言能力相結合,為多模態任務(如圖像描述、視覺問答等)提供了一個強大的工具。
🚀 快速開始
使用 transformers
庫調用 ViTucano 模型需要執行遠程代碼(trust_remote_code=True
)。執行的文件為 configuration.py
和 modeling_tinyllava_tucano.py
,均可在本倉庫中找到。
基礎用法
使用 tinyllava
進行推理
from tinyllava.eval.run_tiny_llava import eval_model
model_path = "TucanoBR/ViTucano-1b5-v1"
prompt = "Quais os principais elementos dessa imagem?"
image_file = "https://raw.githubusercontent.com/Nkluge-correa/TinyLLaVA_Factory/refs/heads/main/assets/sample.jpg"
conv_mode = "llama"
args = type('Args', (), {
"model_path": model_path,
"model": None,
"query": prompt,
"conv_mode": conv_mode,
"image_file": image_file,
"sep": ",",
"temperature": 0,
"top_p": None,
"num_beams": 1,
"max_new_tokens": 512
})()
eval_model(args)
使用 transformers
進行推理
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
model_path = "TucanoBR/ViTucano-1b5-v1"
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model = AutoModelForCausalLM.from_pretrained(
model_path,
#torch_dtype=torch.bfloat16, # for optimized inference 🚀
#attn_implementation="flash_attention_2" # for optimized inference 🚀
trust_remote_code=True)
model.to(device)
tokenizer = AutoTokenizer.from_pretrained(model_path)
prompt = "Quais os principais elementos dessa imagem?"
image_file="https://raw.githubusercontent.com/Nkluge-correa/TinyLLaVA_Factory/refs/heads/main/assets/sample.jpg"
output_text, _ = model.chat(prompt=prompt, image=image_file, tokenizer=tokenizer)
print(output_text)
✨ 主要特性
- 多模態融合:將視覺理解與語言能力相結合,可處理圖像描述、視覺問答等多模態任務。
- 葡萄牙語原生預訓練:專為葡萄牙語設計,在葡萄牙語視覺和文本處理上表現出色。
📚 詳細文檔
模型詳情
屬性 | 詳情 |
---|---|
模型類型 | 基於 TinyLlavaForConditionalGeneration 架構 |
視覺塔 | 使用 google/siglip-so400m-patch14-384 |
參數量 | 1,534,831,680 |
上下文長度 | 2048 個詞元 |
訓練數據 | GigaVerbo、ViTucano-Pretrain、ViTucano-SFT |
語言 | 葡萄牙語 |
GPU | 8 張 NVIDIA A40 |
訓練時間 | 約 14 小時 |
碳排放 | 14.10 KgCO2(德國) |
總能耗 | 37 kWh |
本倉庫包含用於訓練該模型的 源代碼。
預期用途
ViTucano 模型的主要預期用途是作為涉及葡萄牙語原生基礎模型的研究和開發的基礎。如果您的使用遵循 Apache 2.0 許可證,也可以對 ViTucano 模型進行微調並部署。如果您決定將 ViTucano 模型作為微調模型的基礎,請自行進行風險和偏差評估。
非預期用途
- 不適合直接部署:ViTucano 模型並非開箱即用的產品,不適合用於面向人類的交互。
- 僅支持葡萄牙語:不適用於其他語言的圖像到文本生成任務。
- 未針對特定下游任務微調:模型未針對任何特定下游任務進行微調。
侷限性
和幾乎所有在從網絡抓取的大型數據集上訓練的多模態語言模型一樣,ViTucano 模型在許多實際應用中並非開箱即用的解決方案,特別是那些需要事實性、可靠性和無毒文本生成的應用。ViTucano 模型存在以下侷限性:
- 幻覺問題:在解釋或描述視覺輸入時,可能會生成誤導性或完全錯誤的信息,導致產生可能被誤認為是準確觀察或事實陳述的幻覺。
- 偏差和毒性:繼承了訓練數據中的社會和歷史刻板印象,這些偏差可能會在對視覺或文本內容的有害、冒犯性或誤導性描述或分析中體現出來。
- 不可靠的視覺解釋:可能會對視覺元素(包括圖像中的物體、場景或文本)產生不準確的解釋。在沒有人工驗證的情況下,此類輸出不應被視為可靠的。
- 多語言處理限制:雖然針對葡萄牙語進行了優化,但處理多語言視覺和文本上下文時可能會導致錯誤、誤解或不充分的響應,特別是對於非葡萄牙語內容。
- 重複和無關細節:在特定超參數配置下,可能會表現出重複的響應模式,或生成與給定視覺或文本輸入無關的冗長描述。
因此,儘管我們的模型以寬鬆的許可證發佈,但我們敦促用戶在將其用於實際應用之前進行風險分析。
🔧 技術細節
ViTucano 基於 Tucano 系列,使用 TinyLLaVA Factory 構建。其架構為 TinyLlavaForConditionalGeneration
,視覺塔採用 google/siglip-so400m-patch14-384
。
📄 許可證
ViTucano 採用 Apache 許可證 2.0 版。有關更多詳細信息,請參閱 LICENSE 文件。
📖 引用方式
ViTucano
@misc{correa2025vitucano,
author={Corr{\^e}a, Nicholas Kluge and Sen, Aniket and Falk, Sophia and Fatimah, Shiza},
title={{ViTucano: A Portuguese Vision Assitant}},
year=2025,
howpublished={\url{https://huggingface.co/TucanoBR/ViTucano-2b8-v1}},
doi={10.57967/hf/4530},
publisher={{Hugging Face}}
}
Tucano
@misc{correa2024tucanoadvancingneuraltext,
title={{Tucano: Advancing Neural Text Generation for Portuguese}},
author={Corr{\^e}a, Nicholas Kluge and Sen, Aniket and Falk, Sophia and Fatimah, Shiza},
year={2024},
eprint={2411.07854},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2411.07854},
}
TinyLLaVA Factory
@article{jia2024tinyllava,
title={TinyLLaVA Factory: A Modularized Codebase for Small-scale Large Multimodal Models},
author={Jia, Junlong and Hu, Ying and Weng, Xi and Shi, Yiming and Li, Miao and Zhang, Xingjian and Zhou, Baichuan and Liu, Ziyu and Luo, Jie and Huang, Lei and Wu, Ji},
journal={arXiv preprint arXiv:2405.11788},
year={2024}
}
LLaVA
@misc{liu2023llava,
title={Visual Instruction Tuning},
author={Liu, Haotian and Li, Chunyuan and Wu, Qingyang and Lee, Yong Jae},
publisher={NeurIPS},
year={2023},
}
🙏 致謝
Clip Vit Large Patch14
CLIP是由OpenAI開發的視覺-語言模型,通過對比學習將圖像和文本映射到共享的嵌入空間,支持零樣本圖像分類
圖像生成文本
C
openai
44.7M
1,710
Clip Vit Base Patch32
CLIP是由OpenAI開發的多模態模型,能夠理解圖像和文本之間的關係,支持零樣本圖像分類任務。
圖像生成文本
C
openai
14.0M
666
Siglip So400m Patch14 384
Apache-2.0
SigLIP是基於WebLi數據集預訓練的視覺語言模型,採用改進的sigmoid損失函數,優化了圖像-文本匹配任務。
圖像生成文本
Transformers

S
google
6.1M
526
Clip Vit Base Patch16
CLIP是由OpenAI開發的多模態模型,通過對比學習將圖像和文本映射到共享的嵌入空間,實現零樣本圖像分類能力。
圖像生成文本
C
openai
4.6M
119
Blip Image Captioning Base
Bsd-3-clause
BLIP是一個先進的視覺-語言預訓練模型,擅長圖像描述生成任務,支持條件式和非條件式文本生成。
圖像生成文本
Transformers

B
Salesforce
2.8M
688
Blip Image Captioning Large
Bsd-3-clause
BLIP是一個統一的視覺-語言預訓練框架,擅長圖像描述生成任務,支持條件式和無條件式圖像描述生成。
圖像生成文本
Transformers

B
Salesforce
2.5M
1,312
Openvla 7b
MIT
OpenVLA 7B是一個基於Open X-Embodiment數據集訓練的開源視覺-語言-動作模型,能夠根據語言指令和攝像頭圖像生成機器人動作。
圖像生成文本
Transformers 英語

O
openvla
1.7M
108
Llava V1.5 7b
LLaVA 是一款開源多模態聊天機器人,基於 LLaMA/Vicuna 微調,支持圖文交互。
圖像生成文本
Transformers

L
liuhaotian
1.4M
448
Vit Gpt2 Image Captioning
Apache-2.0
這是一個基於ViT和GPT2架構的圖像描述生成模型,能夠為輸入圖像生成自然語言描述。
圖像生成文本
Transformers

V
nlpconnect
939.88k
887
Blip2 Opt 2.7b
MIT
BLIP-2是一個視覺語言模型,結合了圖像編碼器和大型語言模型,用於圖像到文本的生成任務。
圖像生成文本
Transformers 英語

B
Salesforce
867.78k
359
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98