🚀 NABLA - VL 视觉语言模型
NABLA - VL 是由 NABLAS 开发的日语视觉语言模型(VLM),它支持图像、多图像和视频输入,能基于视觉输入理解和生成文本,可广泛应用于各种多模态任务。
🚀 快速开始
使用以下代码开始使用该模型:
import requests
from PIL import Image
import numpy as np
import torch
from transformers import AutoModel, AutoTokenizer
from nabla_vl.constants import CHAT_TEMPLATE_WITHOUT_SYSTEM_MESSAGE
from nabla_vl.inference import run_model_with_stream
from nabla_vl.io import load_image
from nabla_vl.model import NablaVLForCausalLM
from nabla_vl.transforms import build_data_pipeline
MODEL = "nablasinc/NABLA-VL"
DEVICE = "cuda"
model = NablaVLForCausalLM.from_pretrained(MODEL, torch_dtype=torch.bfloat16)
model.to(DEVICE)
model.eval()
tokenizer = AutoTokenizer.from_pretrained(MODEL, use_fast=False)
tokenizer.chat_template = CHAT_TEMPLATE_WITHOUT_SYSTEM_MESSAGE
data_pipeline = build_data_pipeline(model.config, tokenizer)
instruction = "この画像について教えてください!"
images = []
urls = [
"https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/bee.jpg",
]
for url in urls:
images.append(
np.array(
Image.open(
requests.get(
url,
stream=True,
).raw,
).convert("RGB"),
)[np.newaxis, :, :, :],
)
run_model_with_stream(
model,
tokenizer,
data_pipeline,
instruction,
images=images,
device=DEVICE,
)
✨ 主要特性
- 支持单图像、多图像和视频等多种输入格式,适用于多样化的多模态任务。
- 专为日语设计,能更好地理解和生成日语文本。
📚 详细文档
模型详情
模型描述
本模型是由 NABLAS 开发的日语视觉语言模型(VLM),旨在基于视觉输入理解和生成文本。它支持广泛的输入格式,包括单图像、多图像和视频,可在各种多模态任务中实现多功能应用。
- 开发者:NABLAS
- 资助方:GENIAC
- 共享方:NABLAS
- 模型类型:VLM(图像/多图像/视频)
- 自然语言处理支持语言:日语
- 许可证:Apache 许可证 2.0
- 微调基础模型:microsoft/phi - 4, HuggingFaceM4/siglip - so400m - 14 - 980 - flash - attn2 - navit
模型来源
- 仓库地址:https://github.com/nablas-inc/NABLA-VL
- 论文:待发布
使用示例
基础用法
单图像输入

问题
この画像が撮影された会社を推論した上で画像について説明してください
答案
この画像は、ナブラス(Nablas)という会社のオフィスまたは会議室の内部を撮影したものであると推測されます。会議室には、多くの椅子とデスクが整然と並べられており、プレゼンテーションや会議に使用されることが想定されます。壁には「NABLAS」というロゴが大きく表示されており、会社のブランドを強調しています。また、天井にはモダンなデザインの照明が取り付けられており、全体的に明るく開放的な雰囲気を醸し出しています。このような環境は、クリエイティブな作業やチームミーティングに適していると考えられます。
多图像输入
问题
これらの画像で表される業種の違いを説明してください
答案
これらの画像は、異なる業種の特徴を示しています。最初の画像では、工場内でオレンジ色のロボットが作業を行っている様子が見られます。このロボットは、製造業や自動化の分野で使用されることが多く、効率的な生産ラインを支える役割を果たしています。一方、2番目の画像は眼鏡のディスプレイを示しており、小売業やファッション業界に関連しています。ここでは、さまざまなスタイルの眼鏡が並べられており、顧客が選ぶことができる商品が展示されています。このように、最初の画像は製造業の自動化を象徴し、2番目の画像は小売業の商品展示を示しており、それぞれの業種が異なる目的と機能を持っていることがわかります。
视频输入
本演示使用的视频来源于 Pexels,由 Magda Ehlers 创作。
问题
この動画について時系列順にざっくり説明してください!
答案
このビデオは、犬がフリスビーを追いかける様子を捉えています。最初のフレームでは、犬がフリスビーを追いかけて走っています。次のフレームでは、犬がフリスビーをキャッチしようとしています。その後、犬はフリスビーを口にくわえて戻ってきます。最後のフレームでは、犬がフリスビーを持って走っている様子が見られます。
训练详情
请参考待发布的论文。
🔧 技术细节
本模型基于 microsoft/phi - 4 和 HuggingFaceM4/siglip - so400m - 14 - 980 - flash - attn2 - navit 进行微调,以适应日语视觉语言任务。
📄 许可证
本模型采用 Apache 许可证 2.0。
👨💻 开发者(按字母顺序排列)
- Haoxiang Shi
- Maxime Alvarez
- Takuya Shintate
- Yudai Mine
- Zijie Jiang
🙏 致谢
本模型的开发得到了日本经济产业省(METI)和新能源产业技术综合开发机构(NEDO)开展的“GENIAC(生成式人工智能加速器挑战)”项目的支持,该项目旨在加强国内生成式人工智能开发能力。