Heron NVILA Lite 33B
Heron-NVILA-Lite-33B 是一款基於 NVILA-Lite 架構、專為日語訓練的視覺語言模型,支持日語和英語的多模態任務。
下載量 99
發布時間 : 5/12/2025
模型概述
該模型結合了視覺編碼器和大語言模型,能夠處理圖像和文本的交互任務,特別優化了日語環境下的表現。
模型特點
日語優化
專門針對日語環境訓練,在日語視覺語言任務中表現優異
多模態能力
能夠同時處理圖像和文本輸入,實現圖文交互
高性能架構
結合了先進的視覺編碼器和大語言模型,提供強大的推理能力
模型能力
圖像描述生成
視覺問答
多輪圖文對話
跨語言理解
圖像內容分析
使用案例
內容理解
圖像描述生成
為輸入的圖像生成詳細的文字描述
在日語視覺問答500測試中得分3.85/5.0
客戶服務
多輪圖文對話
支持基於圖像的多輪對話交互
在日語VLM野外基準測試中得分4.0/5.0
🚀 Heron-NVILA-Lite-33B
Heron-NVILA-Lite-33B 是一個基於 NVILA-Lite 架構、為日語訓練的視覺語言模型。它能夠處理圖像和文本信息,在多模態交互方面具有出色的表現。
🚀 快速開始
安裝依賴
# 我已確認 4.46.0 和 4.49.0 版本也可以正常使用。其他版本的 Transformer 可能也適用,但我尚未進行測試。
pip install transformers==4.45.0 accelerate opencv-python torchvision einops pillow
pip install git+https://github.com/bfshi/scaling_on_scales.git
使用示例
from transformers import AutoConfig, AutoModel
model_path = "turing-motors/Heron-NVILA-Lite-33B"
# 你可以使用配置文件
config = AutoConfig.from_pretrained(model_path, trust_remote_code=True)
model = AutoModel.from_config(config, trust_remote_code=True, device_map="auto")
# 或者直接從預訓練模型加載
model = AutoModel.from_pretrained(model_path, trust_remote_code=True, device_map="auto")
# 顯示聊天模板
print(model.tokenizer.chat_template)
# 僅使用文本生成結果的示例
response = model.generate_content(["こんにちは"])
print(response)
print("---" * 40)
# 使用文本 + 圖像生成結果的示例
from PIL import Image
import requests
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw).convert("RGB")
response = model.generate_content([image, "畫像を説明してください。"])
print(response)
print("---" * 40)
# 使用生成配置生成結果的示例
from PIL import Image
import requests
from transformers import GenerationConfig
generation_config = {
"max_new_tokens": 512,
"temperature": 0.5,
"do_sample": True,
}
generation_config = GenerationConfig(**generation_config)
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw).convert("RGB")
response = model.generate_content(
[image, "畫像を説明してください。"],
generation_config=generation_config
)
print(response)
print("---" * 40)
# 使用文本 + 圖像 + 文本 + 圖像 + 文本生成結果的示例
from PIL import Image
import requests
url_list = [
"https://images.unsplash.com/photo-1694831404826-3400c48c188d?q=80&w=2070&auto=format&fit=crop&ixlib=rb-4.0.3&ixid=M3wxMjA3fDB8MHxwaG90by1wYWdlfHx8fGVufDB8fHx8fA%3D%3D",
"https://images.unsplash.com/photo-1693240876439-473af88b4ed7?q=80&w=1974&auto=format&fit=crop&ixlib=rb-4.0.3&ixid=M3wxMjA3fDB8MHxwaG90by1wYWdlfHx8fGVufDB8fHx8fA%3D%3D"
]
images = [
Image.open(requests.get(url, stream=True).raw).convert("RGB") for url in url_list
]
response = model.generate_content([
images[0],
"これは日本の畫像です",
images[1],
"これはオーストリアの畫像です",
"各畫像の違いを説明して"])
print(response)
print("---" * 40)
✨ 主要特性
- 多語言支持:支持日語和英語,適用於不同語言環境的用戶。
- 多模態處理:能夠處理圖像和文本信息,實現圖像與文本的交互。
- 基於先進架構:基於 NVILA-Lite 架構,具有出色的性能。
📚 詳細文檔
模型概述
屬性 | 詳情 |
---|---|
開發者 | Turing Inc. |
視覺編碼器 | siglip2-so400m-patch16-512 |
投影器 | mlp_downsample_2x2_fix |
大語言模型 | Qwen2.5-32B-Instruct |
支持語言 | 日語、英語 |
訓練總結
階段 | 訓練內容 | 數據源 | 樣本數量 |
---|---|---|---|
階段 1 | 投影器 | Japanese image text pairs、LLaVA-Pretrain | 110 萬 |
階段 2 | 投影器、大語言模型 | 過濾後的 MOMIJI (CC-MAIN-2024-42) Japanese image text pairs (subset)、Japanese interleaved data (subset)、mmc4-core (subset)、coyo-700m (subset)、wikipedia_ja、llava_pretrain_ja、stair_captions |
2000 萬 |
階段 3 | 視覺編碼器、投影器、大語言模型 | llava-instruct-v1_5-en-subset-358k、llava-instruct-ja、japanese-photos-conv、ja-vg-vqa、synthdog-ja (subset)、ai2d、synthdog-en、sherlock | 110 萬 |
評估
使用 llm-jp-eval-mm 進行評估。除 Heron-NVILA-Lite 和 Sarashina2-Vision-14B 之外的模型得分取自 2025 年 3 月的 llm-jp-eval-mm 排行榜 和 Asagi 網站。Heron-NVILA-Lite 和 Sarashina2-Vision-14B 使用 "gpt-4o-2024-05-13" 作為評估標準進行評估。Sarashina2-Vision-14B 在 官方博客 上使用 "gpt-4o-2024-08-06" 進行評估。請注意,由於評估條件不同,Sarashina2-Vision-14B 的結果僅作參考。
模型 | 大語言模型規模 | Heron-Bench 整體大語言模型得分 (%) | JA-VLM-Bench-In-the-Wild 大語言模型得分 (/5.0) | JA-VG-VQA-500 大語言模型得分 (/5.0) |
---|---|---|---|---|
Heron-NVILA-Lite-1B | 0.5B | 45.9 | 2.92 | 3.16 |
Heron-NVILA-Lite-2B | 1.5B | 52.8 | 3.52 | 3.50 |
Heron-NVILA-Lite-15B | 14B | 59.6 | 4.2 | 3.82 |
Heron-NVILA-Lite-33B | 32B | 61.1 | 4.0 | 3.85 |
LLaVA-CALM2-SigLIP | 7B | 43.3 | 3.15 | 3.21 |
Llama-3-EvoVLM-JP-v2 | 8B | 39.3 | 2.92 | 2.96 |
VILA-jp | 13B | 57.2 | 3.69 | 3.62 |
Asagi-14B | 13B | 55.8 | 3.44 | 3.84 |
Sarashina2-Vision-14B | 13B | 50.9 | 4.1 | 3.43 |
Qwen2-VL 7B Instruct | 7B | 55.5 | 3.61 | 3.6 |
GPT-4o | - | 87.6 | 3.85 | 3.58 |
🔧 技術細節
此模型基於 NVILA-Lite 架構,結合了視覺編碼器 siglip2-so400m-patch16-512 和大語言模型 Qwen2.5-32B-Instruct。通過多階段的訓練,使用了多種數據源,以提高模型在多模態任務中的性能。
⚠️ 風險與限制
此模型仍處於實驗階段,尚未針對道德合規性或法律標準進行全面校準。在敏感應用中使用時請謹慎。
📄 許可證
- 模型權重遵循 Apache License 2.0 許可協議。
- 由於包含 GPT-4 生成的合成數據,用戶必須遵守 OpenAI 使用條款。
🙏 致謝
此模型基於新能源產業技術綜合開發機構(NEDO)資助的項目 JPNP20017 的研究成果。同時,感謝以下開源倉庫的貢獻:
Clip Vit Large Patch14
CLIP是由OpenAI開發的視覺-語言模型,通過對比學習將圖像和文本映射到共享的嵌入空間,支持零樣本圖像分類
圖像生成文本
C
openai
44.7M
1,710
Clip Vit Base Patch32
CLIP是由OpenAI開發的多模態模型,能夠理解圖像和文本之間的關係,支持零樣本圖像分類任務。
圖像生成文本
C
openai
14.0M
666
Siglip So400m Patch14 384
Apache-2.0
SigLIP是基於WebLi數據集預訓練的視覺語言模型,採用改進的sigmoid損失函數,優化了圖像-文本匹配任務。
圖像生成文本
Transformers

S
google
6.1M
526
Clip Vit Base Patch16
CLIP是由OpenAI開發的多模態模型,通過對比學習將圖像和文本映射到共享的嵌入空間,實現零樣本圖像分類能力。
圖像生成文本
C
openai
4.6M
119
Blip Image Captioning Base
Bsd-3-clause
BLIP是一個先進的視覺-語言預訓練模型,擅長圖像描述生成任務,支持條件式和非條件式文本生成。
圖像生成文本
Transformers

B
Salesforce
2.8M
688
Blip Image Captioning Large
Bsd-3-clause
BLIP是一個統一的視覺-語言預訓練框架,擅長圖像描述生成任務,支持條件式和無條件式圖像描述生成。
圖像生成文本
Transformers

B
Salesforce
2.5M
1,312
Openvla 7b
MIT
OpenVLA 7B是一個基於Open X-Embodiment數據集訓練的開源視覺-語言-動作模型,能夠根據語言指令和攝像頭圖像生成機器人動作。
圖像生成文本
Transformers 英語

O
openvla
1.7M
108
Llava V1.5 7b
LLaVA 是一款開源多模態聊天機器人,基於 LLaMA/Vicuna 微調,支持圖文交互。
圖像生成文本
Transformers

L
liuhaotian
1.4M
448
Vit Gpt2 Image Captioning
Apache-2.0
這是一個基於ViT和GPT2架構的圖像描述生成模型,能夠為輸入圖像生成自然語言描述。
圖像生成文本
Transformers

V
nlpconnect
939.88k
887
Blip2 Opt 2.7b
MIT
BLIP-2是一個視覺語言模型,結合了圖像編碼器和大型語言模型,用於圖像到文本的生成任務。
圖像生成文本
Transformers 英語

B
Salesforce
867.78k
359
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98