Heron NVILA Lite 33B
Heron-NVILA-Lite-33B 是一款基于 NVILA-Lite 架构、专为日语训练的视觉语言模型,支持日语和英语的多模态任务。
下载量 99
发布时间 : 5/12/2025
模型简介
该模型结合了视觉编码器和大语言模型,能够处理图像和文本的交互任务,特别优化了日语环境下的表现。
模型特点
日语优化
专门针对日语环境训练,在日语视觉语言任务中表现优异
多模态能力
能够同时处理图像和文本输入,实现图文交互
高性能架构
结合了先进的视觉编码器和大语言模型,提供强大的推理能力
模型能力
图像描述生成
视觉问答
多轮图文对话
跨语言理解
图像内容分析
使用案例
内容理解
图像描述生成
为输入的图像生成详细的文字描述
在日语视觉问答500测试中得分3.85/5.0
客户服务
多轮图文对话
支持基于图像的多轮对话交互
在日语VLM野外基准测试中得分4.0/5.0
🚀 Heron-NVILA-Lite-33B
Heron-NVILA-Lite-33B 是一个基于 NVILA-Lite 架构、为日语训练的视觉语言模型。它能够处理图像和文本信息,在多模态交互方面具有出色的表现。
🚀 快速开始
安装依赖
# 我已确认 4.46.0 和 4.49.0 版本也可以正常使用。其他版本的 Transformer 可能也适用,但我尚未进行测试。
pip install transformers==4.45.0 accelerate opencv-python torchvision einops pillow
pip install git+https://github.com/bfshi/scaling_on_scales.git
使用示例
from transformers import AutoConfig, AutoModel
model_path = "turing-motors/Heron-NVILA-Lite-33B"
# 你可以使用配置文件
config = AutoConfig.from_pretrained(model_path, trust_remote_code=True)
model = AutoModel.from_config(config, trust_remote_code=True, device_map="auto")
# 或者直接从预训练模型加载
model = AutoModel.from_pretrained(model_path, trust_remote_code=True, device_map="auto")
# 显示聊天模板
print(model.tokenizer.chat_template)
# 仅使用文本生成结果的示例
response = model.generate_content(["こんにちは"])
print(response)
print("---" * 40)
# 使用文本 + 图像生成结果的示例
from PIL import Image
import requests
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw).convert("RGB")
response = model.generate_content([image, "画像を説明してください。"])
print(response)
print("---" * 40)
# 使用生成配置生成结果的示例
from PIL import Image
import requests
from transformers import GenerationConfig
generation_config = {
"max_new_tokens": 512,
"temperature": 0.5,
"do_sample": True,
}
generation_config = GenerationConfig(**generation_config)
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw).convert("RGB")
response = model.generate_content(
[image, "画像を説明してください。"],
generation_config=generation_config
)
print(response)
print("---" * 40)
# 使用文本 + 图像 + 文本 + 图像 + 文本生成结果的示例
from PIL import Image
import requests
url_list = [
"https://images.unsplash.com/photo-1694831404826-3400c48c188d?q=80&w=2070&auto=format&fit=crop&ixlib=rb-4.0.3&ixid=M3wxMjA3fDB8MHxwaG90by1wYWdlfHx8fGVufDB8fHx8fA%3D%3D",
"https://images.unsplash.com/photo-1693240876439-473af88b4ed7?q=80&w=1974&auto=format&fit=crop&ixlib=rb-4.0.3&ixid=M3wxMjA3fDB8MHxwaG90by1wYWdlfHx8fGVufDB8fHx8fA%3D%3D"
]
images = [
Image.open(requests.get(url, stream=True).raw).convert("RGB") for url in url_list
]
response = model.generate_content([
images[0],
"これは日本の画像です",
images[1],
"これはオーストリアの画像です",
"各画像の違いを説明して"])
print(response)
print("---" * 40)
✨ 主要特性
- 多语言支持:支持日语和英语,适用于不同语言环境的用户。
- 多模态处理:能够处理图像和文本信息,实现图像与文本的交互。
- 基于先进架构:基于 NVILA-Lite 架构,具有出色的性能。
📚 详细文档
模型概述
属性 | 详情 |
---|---|
开发者 | Turing Inc. |
视觉编码器 | siglip2-so400m-patch16-512 |
投影器 | mlp_downsample_2x2_fix |
大语言模型 | Qwen2.5-32B-Instruct |
支持语言 | 日语、英语 |
训练总结
阶段 | 训练内容 | 数据源 | 样本数量 |
---|---|---|---|
阶段 1 | 投影器 | Japanese image text pairs、LLaVA-Pretrain | 110 万 |
阶段 2 | 投影器、大语言模型 | 过滤后的 MOMIJI (CC-MAIN-2024-42) Japanese image text pairs (subset)、Japanese interleaved data (subset)、mmc4-core (subset)、coyo-700m (subset)、wikipedia_ja、llava_pretrain_ja、stair_captions |
2000 万 |
阶段 3 | 视觉编码器、投影器、大语言模型 | llava-instruct-v1_5-en-subset-358k、llava-instruct-ja、japanese-photos-conv、ja-vg-vqa、synthdog-ja (subset)、ai2d、synthdog-en、sherlock | 110 万 |
评估
使用 llm-jp-eval-mm 进行评估。除 Heron-NVILA-Lite 和 Sarashina2-Vision-14B 之外的模型得分取自 2025 年 3 月的 llm-jp-eval-mm 排行榜 和 Asagi 网站。Heron-NVILA-Lite 和 Sarashina2-Vision-14B 使用 "gpt-4o-2024-05-13" 作为评估标准进行评估。Sarashina2-Vision-14B 在 官方博客 上使用 "gpt-4o-2024-08-06" 进行评估。请注意,由于评估条件不同,Sarashina2-Vision-14B 的结果仅作参考。
模型 | 大语言模型规模 | Heron-Bench 整体大语言模型得分 (%) | JA-VLM-Bench-In-the-Wild 大语言模型得分 (/5.0) | JA-VG-VQA-500 大语言模型得分 (/5.0) |
---|---|---|---|---|
Heron-NVILA-Lite-1B | 0.5B | 45.9 | 2.92 | 3.16 |
Heron-NVILA-Lite-2B | 1.5B | 52.8 | 3.52 | 3.50 |
Heron-NVILA-Lite-15B | 14B | 59.6 | 4.2 | 3.82 |
Heron-NVILA-Lite-33B | 32B | 61.1 | 4.0 | 3.85 |
LLaVA-CALM2-SigLIP | 7B | 43.3 | 3.15 | 3.21 |
Llama-3-EvoVLM-JP-v2 | 8B | 39.3 | 2.92 | 2.96 |
VILA-jp | 13B | 57.2 | 3.69 | 3.62 |
Asagi-14B | 13B | 55.8 | 3.44 | 3.84 |
Sarashina2-Vision-14B | 13B | 50.9 | 4.1 | 3.43 |
Qwen2-VL 7B Instruct | 7B | 55.5 | 3.61 | 3.6 |
GPT-4o | - | 87.6 | 3.85 | 3.58 |
🔧 技术细节
此模型基于 NVILA-Lite 架构,结合了视觉编码器 siglip2-so400m-patch16-512 和大语言模型 Qwen2.5-32B-Instruct。通过多阶段的训练,使用了多种数据源,以提高模型在多模态任务中的性能。
⚠️ 风险与限制
此模型仍处于实验阶段,尚未针对道德合规性或法律标准进行全面校准。在敏感应用中使用时请谨慎。
📄 许可证
- 模型权重遵循 Apache License 2.0 许可协议。
- 由于包含 GPT-4 生成的合成数据,用户必须遵守 OpenAI 使用条款。
🙏 致谢
此模型基于新能源产业技术综合开发机构(NEDO)资助的项目 JPNP20017 的研究成果。同时,感谢以下开源仓库的贡献:
Clip Vit Large Patch14
CLIP是由OpenAI开发的视觉-语言模型,通过对比学习将图像和文本映射到共享的嵌入空间,支持零样本图像分类
图像生成文本
C
openai
44.7M
1,710
Clip Vit Base Patch32
CLIP是由OpenAI开发的多模态模型,能够理解图像和文本之间的关系,支持零样本图像分类任务。
图像生成文本
C
openai
14.0M
666
Siglip So400m Patch14 384
Apache-2.0
SigLIP是基于WebLi数据集预训练的视觉语言模型,采用改进的sigmoid损失函数,优化了图像-文本匹配任务。
图像生成文本
Transformers

S
google
6.1M
526
Clip Vit Base Patch16
CLIP是由OpenAI开发的多模态模型,通过对比学习将图像和文本映射到共享的嵌入空间,实现零样本图像分类能力。
图像生成文本
C
openai
4.6M
119
Blip Image Captioning Base
Bsd-3-clause
BLIP是一个先进的视觉-语言预训练模型,擅长图像描述生成任务,支持条件式和非条件式文本生成。
图像生成文本
Transformers

B
Salesforce
2.8M
688
Blip Image Captioning Large
Bsd-3-clause
BLIP是一个统一的视觉-语言预训练框架,擅长图像描述生成任务,支持条件式和无条件式图像描述生成。
图像生成文本
Transformers

B
Salesforce
2.5M
1,312
Openvla 7b
MIT
OpenVLA 7B是一个基于Open X-Embodiment数据集训练的开源视觉-语言-动作模型,能够根据语言指令和摄像头图像生成机器人动作。
图像生成文本
Transformers 英语

O
openvla
1.7M
108
Llava V1.5 7b
LLaVA 是一款开源多模态聊天机器人,基于 LLaMA/Vicuna 微调,支持图文交互。
图像生成文本
Transformers

L
liuhaotian
1.4M
448
Vit Gpt2 Image Captioning
Apache-2.0
这是一个基于ViT和GPT2架构的图像描述生成模型,能够为输入图像生成自然语言描述。
图像生成文本
Transformers

V
nlpconnect
939.88k
887
Blip2 Opt 2.7b
MIT
BLIP-2是一个视觉语言模型,结合了图像编码器和大型语言模型,用于图像到文本的生成任务。
图像生成文本
Transformers 英语

B
Salesforce
867.78k
359
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98