Heron-NVILA-Lite-33B开源视觉语言模型 - 支持日英多模态任务轻松应用

Home

Heron NVILA Lite 33B

Developed by turing-motors

Heron-NVILA-Lite-33B 是一款基于 NVILA-Lite 架构、专为日语训练的视觉语言模型，支持日语和英语的多模态任务。

图像生成文本

Safetensors

Supports Multiple LanguagesOpen Source License:Apache-2.0 #日语视觉对话 #多模态大模型 #高精度图文理解

Downloads 99

Release Time : 5/12/2025

Model Overview

该模型结合了视觉编码器和大语言模型，能够处理图像和文本的交互任务，特别优化了日语环境下的表现。

Model Features

日语优化

专门针对日语环境训练，在日语视觉语言任务中表现优异

多模态能力

能够同时处理图像和文本输入，实现图文交互

高性能架构

结合了先进的视觉编码器和大语言模型，提供强大的推理能力

Model Capabilities

图像描述生成

视觉问答

多轮图文对话

跨语言理解

图像内容分析

Use Cases

内容理解

图像描述生成

为输入的图像生成详细的文字描述

在日语视觉问答500测试中得分3.85/5.0

客户服务

多轮图文对话

支持基于图像的多轮对话交互

在日语VLM野外基准测试中得分4.0/5.0

🚀 Heron-NVILA-Lite-33B

Heron-NVILA-Lite-33B 是一个基于 NVILA-Lite 架构、为日语训练的视觉语言模型。它能够处理图像和文本信息，在多模态交互方面具有出色的表现。

🚀 快速开始

安装依赖

# 我已确认 4.46.0 和 4.49.0 版本也可以正常使用。其他版本的 Transformer 可能也适用，但我尚未进行测试。
pip install transformers==4.45.0 accelerate opencv-python torchvision einops pillow
pip install git+https://github.com/bfshi/scaling_on_scales.git

使用示例

from transformers import AutoConfig, AutoModel

model_path = "turing-motors/Heron-NVILA-Lite-33B"

# 你可以使用配置文件
config = AutoConfig.from_pretrained(model_path, trust_remote_code=True)
model = AutoModel.from_config(config, trust_remote_code=True, device_map="auto")

# 或者直接从预训练模型加载
model = AutoModel.from_pretrained(model_path, trust_remote_code=True, device_map="auto")

# 显示聊天模板
print(model.tokenizer.chat_template)

# 仅使用文本生成结果的示例
response = model.generate_content(["こんにちは"])
print(response)
print("---" * 40)

# 使用文本 + 图像生成结果的示例
from PIL import Image
import requests
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw).convert("RGB")
response = model.generate_content([image, "画像を説明してください。"])
print(response)
print("---" * 40)

# 使用生成配置生成结果的示例
from PIL import Image
import requests
from transformers import GenerationConfig
generation_config = {
    "max_new_tokens": 512,
    "temperature": 0.5,
    "do_sample": True,
}
generation_config = GenerationConfig(**generation_config)
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw).convert("RGB")
response = model.generate_content(
    [image, "画像を説明してください。"],
    generation_config=generation_config
)
print(response)
print("---" * 40)

# 使用文本 + 图像 + 文本 + 图像 + 文本生成结果的示例
from PIL import Image
import requests
url_list = [
    "https://images.unsplash.com/photo-1694831404826-3400c48c188d?q=80&w=2070&auto=format&fit=crop&ixlib=rb-4.0.3&ixid=M3wxMjA3fDB8MHxwaG90by1wYWdlfHx8fGVufDB8fHx8fA%3D%3D",
    "https://images.unsplash.com/photo-1693240876439-473af88b4ed7?q=80&w=1974&auto=format&fit=crop&ixlib=rb-4.0.3&ixid=M3wxMjA3fDB8MHxwaG90by1wYWdlfHx8fGVufDB8fHx8fA%3D%3D"
]
images = [
   Image.open(requests.get(url, stream=True).raw).convert("RGB") for url in url_list
]
response = model.generate_content([
    images[0],
    "これは日本の画像です",
    images[1],
    "これはオーストリアの画像です",
    "各画像の違いを説明して"])
print(response)
print("---" * 40)

✨ 主要特性

多语言支持：支持日语和英语，适用于不同语言环境的用户。
多模态处理：能够处理图像和文本信息，实现图像与文本的交互。
基于先进架构：基于 NVILA-Lite 架构，具有出色的性能。

📚 详细文档

模型概述

属性	详情
开发者	Turing Inc.
视觉编码器	siglip2-so400m-patch16-512
投影器	mlp_downsample_2x2_fix
大语言模型	Qwen2.5-32B-Instruct
支持语言	日语、英语

训练总结

阶段	训练内容	数据源	样本数量
阶段 1	投影器	Japanese image text pairs、LLaVA-Pretrain	110 万
阶段 2	投影器、大语言模型	过滤后的 MOMIJI (CC-MAIN-2024-42) Japanese image text pairs (subset)、Japanese interleaved data (subset)、mmc4-core (subset)、coyo-700m (subset)、wikipedia_ja、llava_pretrain_ja、stair_captions	2000 万
阶段 3	视觉编码器、投影器、大语言模型	llava-instruct-v1_5-en-subset-358k、llava-instruct-ja、japanese-photos-conv、ja-vg-vqa、synthdog-ja (subset)、ai2d、synthdog-en、sherlock	110 万

评估

使用 llm-jp-eval-mm 进行评估。除 Heron-NVILA-Lite 和 Sarashina2-Vision-14B 之外的模型得分取自 2025 年 3 月的 llm-jp-eval-mm 排行榜和 Asagi 网站。Heron-NVILA-Lite 和 Sarashina2-Vision-14B 使用 "gpt-4o-2024-05-13" 作为评估标准进行评估。Sarashina2-Vision-14B 在官方博客上使用 "gpt-4o-2024-08-06" 进行评估。请注意，由于评估条件不同，Sarashina2-Vision-14B 的结果仅作参考。

模型	大语言模型规模	Heron-Bench 整体大语言模型得分 (%)	JA-VLM-Bench-In-the-Wild 大语言模型得分 (/5.0)	JA-VG-VQA-500 大语言模型得分 (/5.0)
Heron-NVILA-Lite-1B	0.5B	45.9	2.92	3.16
Heron-NVILA-Lite-2B	1.5B	52.8	3.52	3.50
Heron-NVILA-Lite-15B	14B	59.6	4.2	3.82
Heron-NVILA-Lite-33B	32B	61.1	4.0	3.85
LLaVA-CALM2-SigLIP	7B	43.3	3.15	3.21
Llama-3-EvoVLM-JP-v2	8B	39.3	2.92	2.96
VILA-jp	13B	57.2	3.69	3.62
Asagi-14B	13B	55.8	3.44	3.84
Sarashina2-Vision-14B	13B	50.9	4.1	3.43
Qwen2-VL 7B Instruct	7B	55.5	3.61	3.6
GPT-4o	-	87.6	3.85	3.58