NABLA - VLオープンソース日本語ビジュアル言語モデル - 画像、複数画像、動画入力をサポート、マルチモーダルタスクに適用

ホーム

NABLA VL

nablasincによって開発

NABLASが開発した日本語視覚言語モデル（VLM）、画像、複数画像及び動画入力をサポートし、様々なマルチモーダルタスクに適用可能。

画像生成テキスト

Transformers

日本語オープンソースライセンス:Apache-2.0 #日本語視覚言語理解 #マルチモーダル入力サポート #動画コンテンツ解析

ダウンロード数 1,673

リリース時間 : 3/31/2025

モデル概要

このモデルは視覚入力を理解しテキストを生成する日本語視覚言語モデルで、単一画像、複数画像及び動画入力をサポートし、様々なマルチモーダルタスクに適用可能。

モデル特徴

マルチモーダル入力サポート

単一画像、複数画像及び動画入力をサポートし、様々な視覚言語タスクに適用可能。

日本語最適化

日本語に特化して最適化されており、日本語テキストの理解と生成に優れている。

高性能視覚言語モデル

先進的な視覚と言語モデルアーキテクチャに基づき、高品質な視覚言語理解と生成能力を提供。

モデル能力

画像キャプション生成

複数画像比較分析

動画コンテンツ理解

日本語テキスト生成

使用事例

オフィスシーン

会議室シーン分析

会議室画像を分析し、記述テキストを生成。

会議室のレイアウトとブランドロゴを正確に識別。

製造業と小売業

業界差異分析

製造業と小売業の画像を比較し、業界の差異を分析。

生産製造と末端販売の異なるプロセスを正確に区別。

動画コンテンツ分析

動画コンテンツ記述

時間順に動画コンテンツを記述。

犬がフリスビーを追いかける全過程を正確に記録。

🚀 NABLA-VL

このモデルは、NABLASによって開発された日本語のビジョン言語モデル（VLM）です。画像、複数の画像、およびビデオの入力をサポートしています。

🚀 クイックスタート

以下のコードを使用して、モデルを使い始めましょう。

import requests
from PIL import Image

import numpy as np
import torch
from transformers import AutoModel, AutoTokenizer

from nabla_vl.constants import CHAT_TEMPLATE_WITHOUT_SYSTEM_MESSAGE
from nabla_vl.inference import run_model_with_stream
from nabla_vl.io import load_image
from nabla_vl.model import NablaVLForCausalLM
from nabla_vl.transforms import build_data_pipeline

MODEL = "nablasinc/NABLA-VL"
DEVICE = "cuda"


model = NablaVLForCausalLM.from_pretrained(MODEL, torch_dtype=torch.bfloat16)
model.to(DEVICE)
model.eval()
tokenizer = AutoTokenizer.from_pretrained(MODEL, use_fast=False)
tokenizer.chat_template = CHAT_TEMPLATE_WITHOUT_SYSTEM_MESSAGE
data_pipeline = build_data_pipeline(model.config, tokenizer)
instruction = "この画像について教えてください！"
images = []
urls = [
    "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/bee.jpg",
]
for url in urls:
    images.append(
        np.array(
            Image.open(
                requests.get(
                    url,
                    stream=True,
                ).raw,
            ).convert("RGB"),
        )[np.newaxis, :, :, :],
    )
run_model_with_stream(
    model,
    tokenizer,
    data_pipeline,
    instruction,
    images=images,
	device=DEVICE,
)

✨ 主な機能

このモデルは、NABLASによって開発された日本語のビジョン言語モデル（VLM）で、視覚入力に基づいてテキストを理解し生成するように設計されています。単一画像、複数画像、およびビデオを含む幅広い入力形式をサポートし、さまざまなマルチモーダルタスクにおいて多様なアプリケーションを可能にします。

📚 ドキュメント

モデルの詳細

モデルの説明

属性	详情
開発元	NABLAS
資金提供元	GENIAC
共有元	NABLAS
モデルタイプ	VLM (画像/複数画像/ビデオ)
言語 (NLP)	日本語
ライセンス	Apache License 2.0
ファインチューニング元のモデル	microsoft/phi-4, HuggingFaceM4/siglip-so400m-14-980-flash-attn2-navit

モデルのソース

リポジトリ: https://github.com/nablas-inc/NABLA-VL
論文: WIP

使用例

基本的な使用法

単一画像入力

この画像が撮影された会社を推論した上で画像について説明してください

この画像は、ナブラス（Nablas）という会社のオフィスまたは会議室の内部を撮影したものであると推測されます。会議室には、多くの椅子とデスクが整然と並べられており、プレゼンテーションや会議に使用されることが想定されます。壁には「NABLAS」というロゴが大きく表示されており、会社のブランドを強調しています。また、天井にはモダンなデザインの照明が取り付けられており、全体的に明るく開放的な雰囲気を醸し出しています。このような環境は、クリエイティブな作業やチームミーティングに適していると考えられます。

高度な使用法

複数画像入力

これらの画像で表される業種の違いを説明してください

これらの画像は、異なる業種の特徴を示しています。最初の画像では、工場内でオレンジ色のロボットが作業を行っている様子が見られます。このロボットは、製造業や自動化の分野で使用されることが多く、効率的な生産ラインを支える役割を果たしています。一方、2番目の画像は眼鏡のディスプレイを示しており、小売業やファッション業界に関連しています。ここでは、さまざまなスタイルの眼鏡が並べられており、顧客が選ぶことができる商品が展示されています。このように、最初の画像は製造業の自動化を象徴し、2番目の画像は小売業の商品展示を示しており、それぞれの業種が異なる目的と機能を持っていることがわかります。

ビデオ入力

このデモで使用されているビデオは、Pexels から取得され、Magda Ehlers によって作成されています。

この動画について時系列順にざっくり説明してください！

このビデオは、犬がフリスビーを追いかける様子を捉えています。最初のフレームでは、犬がフリスビーを追いかけて走っています。次のフレームでは、犬がフリスビーをキャッチしようとしています。その後、犬はフリスビーを口にくわえて戻ってきます。最後のフレームでは、犬がフリスビーを持って走っている様子が見られます。

トレーニングの詳細

論文を参照してください。(WIP)

開発者 (アルファベット順)

Haoxiang Shi
Maxime Alvarez
Takuya Shintate
Yudai Mine
Zijie Jiang

謝辞

このモデルの開発は、日本の経済産業省（METI）と新能源・産業技術総合開発機構（NEDO）が実施する「GENIAC（Generative AI Accelerator Challenge）」プロジェクトによって支援されています。このプロジェクトは、国内の生成AI開発能力を強化することを目的としています。