Heron-NVILA-Lite-2B开源视觉语言模型 - 免费支持日英双语图文交互

首页

Heron NVILA Lite 2B

由 turing-motors 开发

Heron-NVILA-Lite-2B 是一款基于 NVILA-Lite 架构、专为日语训练的视觉语言模型，支持日语和英语的图文交互任务。

图像生成文本

Safetensors

支持多种语言开源协议:Apache-2.0 #日语视觉对话 #多模态轻量级 #图文指令理解

下载量 1,023

发布时间 : 3/21/2025

模型简介

该模型结合了视觉编码器和大型语言模型，能够处理图像和文本的联合任务，如图像描述生成、视觉问答等。

模型特点

多语言支持

专门针对日语优化，同时支持英语的视觉语言任务

高效架构

采用 NVILA-Lite 轻量级架构，平衡性能和效率

多模态理解

能够同时处理图像和文本输入，理解两者之间的关系

模型能力

图像描述生成

视觉问答

多图交替对话

多语言文本生成

使用案例

内容理解

图像描述

为输入的图像生成详细的文字描述

能够准确描述图像中的主要内容和场景

智能交互

视觉问答

回答关于图像内容的自然语言问题

能够理解图像内容并给出相关回答

多轮对话

多图对比

分析多张图像的异同点

能够比较不同图像的特征并指出差异

🚀 Heron-NVILA-Lite-2B

Heron-NVILA-Lite-2B是一个基于NVILA-Lite架构、为日语训练的视觉语言模型。它能够处理图像和文本输入，输出相应的文本内容，在多模态交互场景中具有重要价值。

✨ 主要特性

多语言支持：支持日语和英语两种语言。
多模态处理：能够处理图像和文本的输入，实现图像与文本的交互。

📦 安装指南

# 我已确认4.46.0和4.49.0版本也可以使用。其他版本的Transformer可能也能使用，但我尚未进行测试。
pip install transformers==4.45.0 accelerate opencv-python torchvision einops pillow
pip install git+https://github.com/bfshi/scaling_on_scales.git

💻 使用示例

基础用法

from transformers import AutoConfig, AutoModel

model_path = "turing-motors/Heron-NVILA-Lite-2B"

# 你可以使用配置
config = AutoConfig.from_pretrained(model_path, trust_remote_code=True)
model = AutoModel.from_config(config, trust_remote_code=True, device_map="auto")

# 或者直接使用from_pretrained
model = AutoModel.from_pretrained(model_path, trust_remote_code=True, device_map="auto")

# 显示聊天模板
print(model.tokenizer.chat_template)

# 仅使用文本生成示例
response = model.generate_content(["こんにちは"])
print(response)
print("---" * 40)

高级用法

文本 + 图像生成示例

from PIL import Image
import requests
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw).convert("RGB")
response = model.generate_content([image, "画像を説明してください。"])
print(response)
print("---" * 40)

使用生成配置进行生成示例

from PIL import Image
import requests
from transformers import GenerationConfig
generation_config = {
    "max_new_tokens": 512,
    "temperature": 0.5,
    "do_sample": True,
}
generation_config = GenerationConfig(**generation_config)
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw).convert("RGB")
response = model.generate_content(
    [image, "画像を説明してください。"],
    generation_config=generation_config
)
print(response)
print("---" * 40)

多图像 + 文本生成示例

from PIL import Image
import requests
url_list = [
    "https://images.unsplash.com/photo-1694831404826-3400c48c188d?q=80&w=2070&auto=format&fit=crop&ixlib=rb-4.0.3&ixid=M3wxMjA3fDB8MHxwaG90by1wYWdlfHx8fGVufDB8fHx8fA%3D%3D",
    "https://images.unsplash.com/photo-1693240876439-473af88b4ed7?q=80&w=1974&auto=format&fit=crop&ixlib=rb-4.0.3&ixid=M3wxMjA3fDB8MHxwaG90by1wYWdlfHx8fGVufDB8fHx8fA%3D%3D"
]
images = [
   Image.open(requests.get(url, stream=True).raw).convert("RGB") for url in url_list
]
response = model.generate_content([
    images[0],
    "これは日本の画像です",
    images[1],
    "これはオーストリアの画像です",
    "各画像の違いを説明して"])
print(response)
print("---" * 40)

📚 详细文档

模型概述

属性	详情
开发者	Turing Inc.
视觉编码器	paligemma-siglip-so400m-patch14-448
投影器	mlp_downsample_2x2_fix
大语言模型	Qwen2.5-1.5B-Instruct
支持语言	日语、英语

训练总结

阶段	训练内容	数据来源	样本数量
阶段1	投影器	日语图像文本对，LLaVA-Pretrain	110万
阶段2	投影器、大语言模型	过滤后的 MOMIJI (CC-MAIN-2024-46, CC-MAIN-2024-51, CC-MAIN-2025-05) 日语图像文本对（子集），日语交错数据（子集），mmc4-core（子集），coyo-700m（子集），wikipedia_ja，llava_pretrain_ja，stair_captions	1300万 2000万
阶段3	视觉编码器、投影器、大语言模型	llava-instruct-v1_5-en-subset-358k，llava-instruct-ja，japanese-photos-conv，ja-vg-vqa，synthdog-ja（子集），ai2d，synthdog-en，sherlock	110万

评估

使用 llm-jp-eval-mm 进行评估。除 Heron-NVILA-Lite 和 Sarashina2-Vision-14B 之外的模型分数取自 2025 年 3 月的 llm-jp-eval-mm 排行榜和 Asagi 网站。Heron-NVILA-Lite 和 Sarashina2-Vision-14B 使用 "gpt-4o-2024-05-13" 作为评估模型进行评估。Sarashina2-Vision-14B 在官方博客上使用 "gpt-4o-2024-08-06" 进行评估；请注意，由于评估条件不同，Sarashina2-Vision-14B 的结果仅作参考。

模型	大语言模型规模	Heron-Bench 整体大语言模型得分（%）	JA-VLM-Bench-In-the-Wild 大语言模型得分（满分 5.0）	JA-VG-VQA-500 大语言模型得分（满分 5.0）
Heron-NVILA-Lite-1B	0.5B	45.9	2.92	3.16
Heron-NVILA-Lite-2B	1.5B	52.8	3.52	3.50
Heron-NVILA-Lite-15B	14B	59.6	4.2	3.82
LLaVA-CALM2-SigLIP	7B	43.3	3.15	3.21
Llama-3-EvoVLM-JP-v2	8B	39.3	2.92	2.96
VILA-jp	13B	57.2	3.69	3.62
Asagi-14B	13B	55.8	3.44	3.84
Sarashina2-Vision-14B	13B	50.9	4.1	3.43
Qwen2-VL 7B Instruct	7B	55.5	3.61	3.6
GPT-4o	-	87.6	3.85	3.58