🚀 ViTucano-2b8-v1
ViTucano 是我们首次尝试创建的以葡萄牙语进行原生预训练的视觉助手。它将视觉理解与语言能力相结合,为多模态任务(如图像描述、视觉问答等)提供了强大的工具。

🚀 快速开始
基本使用
⚠️ 通过 transformers
库使用 ViTucano 模型需要执行远程代码(trust_remote_code=True
)。执行的文件是 configuration.py
和 modeling_tinyllava_tucano.py
,这两个文件都可以在本仓库中找到。⚠️
使用 tinyllava
进行推理
from tinyllava.eval.run_tiny_llava import eval_model
model_path = "TucanoBR/ViTucano-2b8-v1"
prompt = "Quais os principais elementos dessa imagem?"
image_file = "https://raw.githubusercontent.com/Nkluge-correa/TinyLLaVA_Factory/refs/heads/main/assets/sample.jpg"
conv_mode = "llama"
args = type('Args', (), {
"model_path": model_path,
"model": None,
"query": prompt,
"conv_mode": conv_mode,
"image_file": image_file,
"sep": ",",
"temperature": 0,
"top_p": None,
"num_beams": 1,
"max_new_tokens": 512
})()
eval_model(args)
使用 transformers
进行推理
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
model_path = "TucanoBR/ViTucano-2b8-v1"
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model = AutoModelForCausalLM.from_pretrained(
model_path,
trust_remote_code=True)
model.to(device)
tokenizer = AutoTokenizer.from_pretrained(model_path)
prompt = "Quais os principais elementos dessa imagem?"
image_file="https://raw.githubusercontent.com/Nkluge-correa/TinyLLaVA_Factory/refs/heads/main/assets/sample.jpg"
output_text, _ = model.chat(prompt=prompt, image=image_file, tokenizer=tokenizer)
print(output_text)
✨ 主要特性
- 多模态融合:将视觉理解与语言能力相结合,适用于多种多模态任务。
- 葡萄牙语原生预训练:专为葡萄牙语设计,在葡萄牙语相关任务上表现出色。
📚 详细文档
模型概述
ViTucano 基于 Tucano 系列,使用 TinyLLaVA Factory 构建。它能够处理图像和文本输入,并生成相应的文本输出。
详细信息
本仓库包含用于训练此模型的 源代码。
预期用途
ViTucano 模型的主要预期用途是作为涉及葡萄牙语基础模型的研究和开发的基础。如果您的使用遵循 Apache 2.0 许可证,也可以对 ViTucano 模型进行微调并部署。如果您决定将 ViTucano 模型作为微调模型的基础,请自行进行风险和偏差评估。
不适用场景
- 不适合部署:ViTucano 模型不是即插即用的产品,不适合用于面向人类的交互。
- 仅支持葡萄牙语:ViTucano 模型仅适用于葡萄牙语,不适用于其他语言的图像到文本生成任务。
- 未针对特定下游任务微调:ViTucano 模型未针对任何特定的下游任务进行微调。
局限性
与几乎所有在从网络上抓取的大型数据集上训练的多模态语言模型一样,ViTucano 模型在许多实际应用中并非现成的解决方案,特别是那些需要事实、可靠和无毒文本生成的应用。ViTucano 模型存在以下问题:
- 幻觉问题:在解释或描述视觉输入时,ViTucano 模型可能会生成误导性或完全错误的信息,导致产生可能被误认为是准确观察或事实陈述的幻觉。
- 偏差和毒性:ViTucano 模型继承了训练数据中的社会和历史刻板印象。这些偏差可能会在对视觉或文本内容的有害、冒犯性或误导性描述或分析中表现出来。
- 不可靠的视觉解释:ViTucano 模型可能会对视觉元素(包括图像中的对象、场景或文本)产生不准确的解释。在没有人工验证的情况下,此类输出不应被视为可靠的。
- 多模态语言限制:虽然 ViTucano 模型针对葡萄牙语进行了优化,但处理多语言视觉和文本上下文可能会导致错误、误解或不充分的响应,特别是对于非葡萄牙语内容。
- 重复和无关细节:在特定超参数配置下,ViTucano 模型可能会表现出重复的响应模式,或者生成与给定视觉或文本输入无关的冗长描述。
因此,尽管我们的模型以宽松的许可证发布,但我们敦促用户在将其用于实际应用之前进行风险分析。
📄 许可证
ViTucano 采用 Apache 许可证 2.0 版。有关更多详细信息,请参阅 LICENSE 文件。
🔖 引用方式
ViTucano
@misc{correa2025vitucano,
author={Corr{\^e}a, Nicholas Kluge and Sen, Aniket and Falk, Sophia and Fatimah, Shiza},
title={{ViTucano: A Portuguese Vision Assitant}},
year=2025,
howpublished={\url{https://huggingface.co/TucanoBR/ViTucano-2b8-v1}},
doi={10.57967/hf/4530},
publisher={{Hugging Face}}
}
Tucano
@misc{correa2024tucanoadvancingneuraltext,
title={{Tucano: Advancing Neural Text Generation for Portuguese}},
author={Corr{\^e}a, Nicholas Kluge and Sen, Aniket and Falk, Sophia and Fatimah, Shiza},
year={2024},
eprint={2411.07854},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2411.07854},
}
TinyLLaVA Factory
@article{jia2024tinyllava,
title={TinyLLaVA Factory: A Modularized Codebase for Small-scale Large Multimodal Models},
author={Jia, Junlong and Hu, Ying and Weng, Xi and Shi, Yiming and Li, Miao and Zhang, Xingjian and Zhou, Baichuan and Liu, Ziyu and Luo, Jie and Huang, Lei and Wu, Ji},
journal={arXiv preprint arXiv:2405.11788},
year={2024}
}
LLaVA
@misc{liu2023llava,
title={Visual Instruction Tuning},
author={Liu, Haotian and Li, Chunyuan and Wu, Qingyang and Lee, Yong Jae},
publisher={NeurIPS},
year={2023},
}
🙏 致谢
我们衷心感谢 波恩大学 提供的 Marvin 集群 的使用权限,以及其高性能计算与分析实验室提供的支持。