🚀 NABLA-VL
このモデルは、NABLASによって開発された日本語のビジョン言語モデル(VLM)です。画像、複数の画像、およびビデオの入力をサポートしています。
🚀 クイックスタート
以下のコードを使用して、モデルを使い始めましょう。
import requests
from PIL import Image
import numpy as np
import torch
from transformers import AutoModel, AutoTokenizer
from nabla_vl.constants import CHAT_TEMPLATE_WITHOUT_SYSTEM_MESSAGE
from nabla_vl.inference import run_model_with_stream
from nabla_vl.io import load_image
from nabla_vl.model import NablaVLForCausalLM
from nabla_vl.transforms import build_data_pipeline
MODEL = "nablasinc/NABLA-VL"
DEVICE = "cuda"
model = NablaVLForCausalLM.from_pretrained(MODEL, torch_dtype=torch.bfloat16)
model.to(DEVICE)
model.eval ()
tokenizer = AutoTokenizer.from_pretrained(MODEL, use_fast=False )
tokenizer.chat_template = CHAT_TEMPLATE_WITHOUT_SYSTEM_MESSAGE
data_pipeline = build_data_pipeline(model.config, tokenizer)
instruction = "この画像について教えてください!"
images = []
urls = [
"https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/bee.jpg" ,
]
for url in urls:
images.append(
np.array(
Image.open (
requests.get(
url,
stream=True ,
).raw,
).convert("RGB" ),
)[np.newaxis, :, :, :],
)
run_model_with_stream(
model,
tokenizer,
data_pipeline,
instruction,
images=images,
device=DEVICE,
)
✨ 主な機能
このモデルは、NABLASによって開発された日本語のビジョン言語モデル(VLM)で、視覚入力に基づいてテキストを理解し生成するように設計されています。単一画像、複数画像、およびビデオを含む幅広い入力形式をサポートし、さまざまなマルチモーダルタスクにおいて多様なアプリケーションを可能にします。
📚 ドキュメント
モデルの詳細
モデルの説明
属性
详情
開発元
NABLAS
資金提供元
GENIAC
共有元
NABLAS
モデルタイプ
VLM (画像/複数画像/ビデオ)
言語 (NLP)
日本語
ライセンス
Apache License 2.0
ファインチューニング元のモデル
microsoft/phi-4, HuggingFaceM4/siglip-so400m-14-980-flash-attn2-navit
モデルのソース
リポジトリ: https://github.com/nablas-inc/NABLA-VL
論文: WIP
使用例
基本的な使用法
単一画像入力
Q
この画像が撮影された会社を推論した上で画像について説明してください
A
この画像は、ナブラス(Nablas)という会社のオフィスまたは会議室の内部を撮影したものであると推測されます。会議室には、多くの椅子とデスクが整然と並べられており、プレゼンテーションや会議に使用されることが想定されます。壁には「NABLAS」というロゴが大きく表示されており、会社のブランドを強調しています。また、天井にはモダンなデザインの照明が取り付けられており、全体的に明るく開放的な雰囲気を醸し出しています。このような環境は、クリエイティブな作業やチームミーティングに適していると考えられます。
高度な使用法
複数画像入力
Q
これらの画像で表される業種の違いを説明してください
A
これらの画像は、異なる業種の特徴を示しています。最初の画像では、工場内でオレンジ色のロボットが作業を行っている様子が見られます。このロボットは、製造業や自動化の分野で使用されることが多く、効率的な生産ラインを支える役割を果たしています。一方、2番目の画像は眼鏡のディスプレイを示しており、小売業やファッション業界に関連しています。ここでは、さまざまなスタイルの眼鏡が並べられており、顧客が選ぶことができる商品が展示されています。このように、最初の画像は製造業の自動化を象徴し、2番目の画像は小売業の商品展示を示しており、それぞれの業種が異なる目的と機能を持っていることがわかります。
ビデオ入力
Your browser does not support the video tag.
このデモで使用されているビデオは、Pexels から取得され、Magda Ehlers によって作成されています。
Q
この動画について時系列順にざっくり説明してください!
A
このビデオは、犬がフリスビーを追いかける様子を捉えています。最初のフレームでは、犬がフリスビーを追いかけて走っています。次のフレームでは、犬がフリスビーをキャッチしようとしています。その後、犬はフリスビーを口にくわえて戻ってきます。最後のフレームでは、犬がフリスビーを持って走っている様子が見られます。
トレーニングの詳細
論文を参照してください。(WIP)
開発者 (アルファベット順)
Haoxiang Shi
Maxime Alvarez
Takuya Shintate
Yudai Mine
Zijie Jiang
謝辞
このモデルの開発は、日本の経済産業省(METI)と新能源・産業技術総合開発機構(NEDO)が実施する「GENIAC(Generative AI Accelerator Challenge)」プロジェクトによって支援されています。このプロジェクトは、国内の生成AI開発能力を強化することを目的としています。
📄 ライセンス
このモデルはApache License 2.0の下で提供されています。