H

Heron NVILA Lite 2B

turing-motorsによって開発
Heron-NVILA-Lite-2B はNVILA-Liteアーキテクチャに基づき、日本語に特化して訓練された視覚言語モデルで、日本語と英語の画像テキストインタラクションタスクをサポートします。
ダウンロード数 1,023
リリース時間 : 3/21/2025

モデル概要

このモデルは視覚エンコーダーと大規模言語モデルを組み合わせており、画像説明生成、視覚的質問応答などの画像とテキストの共同タスクを処理できます。

モデル特徴

多言語サポート
日本語に最適化され、英語の視覚言語タスクもサポート
効率的なアーキテクチャ
NVILA-Lite軽量アーキテクチャを採用し、性能と効率のバランスを実現
マルチモーダル理解
画像とテキスト入力を同時に処理し、両者の関係を理解可能

モデル能力

画像説明生成
視覚的質問応答
複数画像交互対話
多言語テキスト生成

使用事例

コンテンツ理解
画像説明
入力画像に対して詳細なテキスト説明を生成
画像の主要な内容とシーンを正確に説明可能
インテリジェントインタラクション
視覚的質問応答
画像内容に関する自然言語質問に回答
画像内容を理解し関連する回答を提供可能
マルチターン対話
複数画像比較
複数画像の類似点と相違点を分析
異なる画像の特徴を比較し差異を指摘可能
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase