L

Llama 3.1 Nemotron Nano VL 8B V1

nvidiaによって開発
Llama-3.1-Nemotron-Nano-VL-8B-V1は、高度な文書インテリジェントビジュアル言語モデルで、画像や動画のクエリと要約が可能で、複数の環境にデプロイできます。
ダウンロード数 1,092
リリース時間 : 6/3/2025

モデル概要

このモデルは、リーディングな文書インテリジェントビジュアル言語モデルで、現実または仮想世界の画像や動画のクエリと要約が可能です。データセンター、クラウド、エッジデバイスなどの様々な環境にデプロイでき、画像分析や質問応答などの多くの分野で広く使用されます。

モデル特徴

強力な文書インテリジェンス
画像や動画のクエリと要約が可能で、マルチモーダル入出力をサポートします。
多環境デプロイ
データセンター、クラウド、エッジデバイス(Jetson Orinやノートパソコンなど)にデプロイでき、AWQ 4bit量子化とTinyChatフレームワークをサポートします。
マルチモーダルサポート
画像、動画、テキストの入力をサポートし、出力はテキストで、様々なタスクに適しています。

モデル能力

画像分析
動画要約
テキスト生成
複数画像の比較
光学文字認識
対話型質問応答

使用事例

文書インテリジェンス
画像要約
単一または複数の画像の内容を要約し、説明します。
テキスト - 画像分析
テキストと画像を組み合わせて総合的に分析し、詳細な説明を生成したり、関連する質問に回答します。
ビジュアル質問応答
画像対話型質問応答
画像の内容に基づいて、ユーザーの質問に回答します。
複数画像の比較と対比
複数の画像の類似点と相違点を比較し、対比分析結果を生成します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase