Heron NVILA Lite 1B
基於NVILA-Lite架構訓練的日語視覺語言模型,支持日語和英語的圖文交互
下載量 460
發布時間 : 3/24/2025
模型概述
Heron-NVILA-Lite-1B是一個輕量級的視覺語言模型,能夠處理圖像和文本輸入,生成自然語言響應。它特別針對日語場景進行了優化,同時支持英語。
模型特點
輕量級架構
採用高效的1B參數設計,平衡了性能和計算資源需求
多模態理解
能夠同時處理圖像和文本輸入,理解兩者之間的關係
日語優化
專門針對日語場景進行了訓練和優化
對話式交互
支持多輪圖文對話,保持上下文一致性
模型能力
圖像描述生成
視覺問答
多模態對話
跨語言理解
圖像內容比較
使用案例
智能客服
產品圖像諮詢
用戶上傳產品圖片,獲取產品信息和購買建議
教育輔助
視覺化學習
根據教材圖片生成解釋性文字
內容審核
圖像內容分析
識別和描述圖像中的敏感內容
🚀 蒼鷺-NVILA-Lite-1B
蒼鷺-NVILA-Lite-1B是一款基於NVILA-Lite架構、為日語訓練的視覺語言模型。它能夠處理圖像和文本信息,在多模態交互場景中發揮作用。
🚀 快速開始
環境配置
# 我已確認4.46.0和4.49.0版本也可以正常使用。其他版本的Transformer可能也能正常工作,但我尚未進行測試。
pip install transformers==4.45.0 accelerate opencv-python torchvision einops pillow
pip install git+https://github.com/bfshi/scaling_on_scales.git
代碼示例
from transformers import AutoConfig, AutoModel
model_path = "turing-motors/Heron-NVILA-Lite-1B"
# 你可以使用配置文件
config = AutoConfig.from_pretrained(model_path, trust_remote_code=True)
model = AutoModel.from_config(config, trust_remote_code=True, device_map="auto")
# 或者直接從預訓練模型加載
model = AutoModel.from_pretrained(model_path, trust_remote_code=True, device_map="auto")
# 顯示聊天模板
print(model.tokenizer.chat_template)
# 純文本生成示例
response = model.generate_content(["こんにちは"])
print(response)
print("---" * 40)
# 文本 + 圖像生成示例
from PIL import Image
import requests
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw).convert("RGB")
response = model.generate_content([image, "畫像を説明してください。"])
print(response)
print("---" * 40)
# 使用生成配置進行生成的示例
from PIL import Image
import requests
from transformers import GenerationConfig
generation_config = {
"max_new_tokens": 512,
"temperature": 0.5,
"do_sample": True,
}
generation_config = GenerationConfig(**generation_config)
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw).convert("RGB")
response = model.generate_content(
[image, "畫像を説明してください。"],
generation_config=generation_config
)
print(response)
print("---" * 40)
# 文本 + 圖像 + 文本 + 圖像 + 文本生成示例
from PIL import Image
import requests
url_list = [
"https://images.unsplash.com/photo-1694831404826-3400c48c188d?q=80&w=2070&auto=format&fit=crop&ixlib=rb-4.0.3&ixid=M3wxMjA3fDB8MHxwaG90by1wYWdlfHx8fGVufDB8fHx8fA%3D%3D",
"https://images.unsplash.com/photo-1693240876439-473af88b4ed7?q=80&w=1974&auto=format&fit=crop&ixlib=rb-4.0.3&ixid=M3wxMjA3fDB8MHxwaG90by1wYWdlfHx8fGVufDB8fHx8fA%3D%3D"
]
images = [
Image.open(requests.get(url, stream=True).raw).convert("RGB") for url in url_list
]
response = model.generate_content([
images[0],
"これは日本の畫像です",
images[1],
"これはオーストリアの畫像です",
"各畫像の違いを説明して"])
print(response)
print("---" * 40)
✨ 主要特性
- 多語言支持:支持日語和英語,能夠滿足不同語言用戶的需求。
- 多模態處理:可以處理圖像和文本信息,實現圖像描述、圖像問答等功能。
📦 安裝指南
# 我已確認4.46.0和4.49.0版本也可以正常使用。其他版本的Transformer可能也能正常工作,但我尚未進行測試。
pip install transformers==4.45.0 accelerate opencv-python torchvision einops pillow
pip install git+https://github.com/bfshi/scaling_on_scales.git
💻 使用示例
基礎用法
from transformers import AutoConfig, AutoModel
model_path = "turing-motors/Heron-NVILA-Lite-1B"
# 你可以使用配置文件
config = AutoConfig.from_pretrained(model_path, trust_remote_code=True)
model = AutoModel.from_config(config, trust_remote_code=True, device_map="auto")
# 或者直接從預訓練模型加載
model = AutoModel.from_pretrained(model_path, trust_remote_code=True, device_map="auto")
# 顯示聊天模板
print(model.tokenizer.chat_template)
# 純文本生成示例
response = model.generate_content(["こんにちは"])
print(response)
print("---" * 40)
高級用法
# 文本 + 圖像 + 文本 + 圖像 + 文本生成示例
from PIL import Image
import requests
url_list = [
"https://images.unsplash.com/photo-1694831404826-3400c48c188d?q=80&w=2070&auto=format&fit=crop&ixlib=rb-4.0.3&ixid=M3wxMjA3fDB8MHxwaG90by1wYWdlfHx8fGVufDB8fHx8fA%3D%3D",
"https://images.unsplash.com/photo-1693240876439-473af88b4ed7?q=80&w=1974&auto=format&fit=crop&ixlib=rb-4.0.3&ixid=M3wxMjA3fDB8MHxwaG90by1wYWdlfHx8fGVufDB8fHx8fA%3D%3D"
]
images = [
Image.open(requests.get(url, stream=True).raw).convert("RGB") for url in url_list
]
response = model.generate_content([
images[0],
"これは日本の畫像です",
images[1],
"これはオーストリアの畫像です",
"各畫像の違いを説明して"])
print(response)
print("---" * 40)
📚 詳細文檔
模型概述
屬性 | 詳情 |
---|---|
開發者 | 圖靈公司 |
視覺編碼器 | paligemma-siglip-so400m-patch14-448 |
投影器 | mlp_downsample_2x2_fix |
大語言模型 | Qwen2.5-0.5B-Instruct |
支持語言 | 日語、英語 |
訓練總結
階段 | 訓練內容 | 數據來源 | 樣本數量 |
---|---|---|---|
階段1 | 投影器 | 日語圖像文本對,LLaVA預訓練數據 | 110萬 |
階段2 | 投影器、大語言模型 | 過濾後的MOMIJI (CC-MAIN-2024-46, CC-MAIN-2024-51, CC-MAIN-2025-05) | 1300萬 |
日語圖像文本對(子集),日語交錯數據(子集),mmc4-core(子集),coyo-700m(子集),日語維基百科,日語LLaVA預訓練數據,stair_captions | 2000萬 | ||
階段3 | 視覺編碼器、投影器、大語言模型 | llava-instruct-v1_5-en-subset-358k,llava-instruct-ja,日語照片對話,日語視覺問答,synthdog-ja(子集),ai2d,synthdog-en,sherlock | 110萬 |
評估
我使用了llm-jp-eval-mm進行評估。除蒼鷺-NVILA-Lite和Sarashina2-Vision-14B之外的模型分數取自2025年3月的llm-jp-eval-mm排行榜和淺蔥網站。蒼鷺-NVILA-Lite和Sarashina2-Vision-14B使用“gpt-4o-2024-05-13”作為評判模型進行評估。Sarashina2-Vision-14B在官方博客上使用“gpt-4o-2024-08-06”進行評估;請注意,由於評估條件不同,Sarashina2-Vision-14B的結果僅作參考。
模型 | 大語言模型規模 | Heron-Bench整體大語言模型得分(%) | JA-VLM-Bench-In-the-Wild大語言模型得分(滿分5分) | JA-VG-VQA-500大語言模型得分(滿分5分) |
---|---|---|---|---|
蒼鷺-NVILA-Lite-1B | 0.5B | 45.9 | 2.92 | 3.16 |
蒼鷺-NVILA-Lite-2B | 1.5B | 52.8 | 3.52 | 3.50 |
蒼鷺-NVILA-Lite-15B | 14B | 59.6 | 4.2 | 3.82 |
LLaVA-CALM2-SigLIP | 7B | 43.3 | 3.15 | 3.21 |
Llama-3-EvoVLM-JP-v2 | 8B | 39.3 | 2.92 | 2.96 |
VILA-jp | 13B | 57.2 | 3.69 | 3.62 |
淺蔥-14B | 13B | 55.8 | 3.44 | 3.84 |
Sarashina2-Vision-14B | 13B | 50.9 | 4.1 | 3.43 |
Qwen2-VL 7B Instruct | 7B | 55.5 | 3.61 | 3.6 |
GPT-4o | - | 87.6 | 3.85 | 3.58 |
風險與限制
⚠️ 重要提示
該模型處於實驗階段,尚未針對道德合規性或法律標準進行全面校準。在敏感應用場景中請謹慎使用。
許可證
- 模型權重遵循Apache許可證2.0。
- 由於包含GPT-4生成的合成數據,用戶必須遵守OpenAI使用條款。
致謝
該模型基於新能源產業技術綜合開發機構(NEDO)資助的項目JPNP20017的研究成果。
感謝以下開源倉庫的使用:
📄 許可證
- 模型權重遵循Apache許可證2.0。
- 由於包含GPT-4生成的合成數據,用戶必須遵守OpenAI使用條款。
Clip Vit Large Patch14
CLIP是由OpenAI開發的視覺-語言模型,通過對比學習將圖像和文本映射到共享的嵌入空間,支持零樣本圖像分類
圖像生成文本
C
openai
44.7M
1,710
Clip Vit Base Patch32
CLIP是由OpenAI開發的多模態模型,能夠理解圖像和文本之間的關係,支持零樣本圖像分類任務。
圖像生成文本
C
openai
14.0M
666
Siglip So400m Patch14 384
Apache-2.0
SigLIP是基於WebLi數據集預訓練的視覺語言模型,採用改進的sigmoid損失函數,優化了圖像-文本匹配任務。
圖像生成文本
Transformers

S
google
6.1M
526
Clip Vit Base Patch16
CLIP是由OpenAI開發的多模態模型,通過對比學習將圖像和文本映射到共享的嵌入空間,實現零樣本圖像分類能力。
圖像生成文本
C
openai
4.6M
119
Blip Image Captioning Base
Bsd-3-clause
BLIP是一個先進的視覺-語言預訓練模型,擅長圖像描述生成任務,支持條件式和非條件式文本生成。
圖像生成文本
Transformers

B
Salesforce
2.8M
688
Blip Image Captioning Large
Bsd-3-clause
BLIP是一個統一的視覺-語言預訓練框架,擅長圖像描述生成任務,支持條件式和無條件式圖像描述生成。
圖像生成文本
Transformers

B
Salesforce
2.5M
1,312
Openvla 7b
MIT
OpenVLA 7B是一個基於Open X-Embodiment數據集訓練的開源視覺-語言-動作模型,能夠根據語言指令和攝像頭圖像生成機器人動作。
圖像生成文本
Transformers 英語

O
openvla
1.7M
108
Llava V1.5 7b
LLaVA 是一款開源多模態聊天機器人,基於 LLaMA/Vicuna 微調,支持圖文交互。
圖像生成文本
Transformers

L
liuhaotian
1.4M
448
Vit Gpt2 Image Captioning
Apache-2.0
這是一個基於ViT和GPT2架構的圖像描述生成模型,能夠為輸入圖像生成自然語言描述。
圖像生成文本
Transformers

V
nlpconnect
939.88k
887
Blip2 Opt 2.7b
MIT
BLIP-2是一個視覺語言模型,結合了圖像編碼器和大型語言模型,用於圖像到文本的生成任務。
圖像生成文本
Transformers 英語

B
Salesforce
867.78k
359
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98