N

NVLM D 72B

nvidiaによって開発
NVLM 1.0 は最先端のマルチモーダル大規模言語モデルのシリーズで、視覚言語タスクにおいて最先端の結果を達成し、主要な専有モデルやオープンアクセスモデルに匹敵する性能を発揮します。
ダウンロード数 14.33k
リリース時間 : 9/30/2024

モデル概要

このモデルは、光学文字認識、マルチモーダル推論、位置特定、常識推論、世界知識の活用とエンコーディングを含む、視覚言語およびテキストのみのタスクを実行できます。

モデル特徴

マルチモーダル能力
視覚言語およびテキストのみのタスクをサポートし、強力なマルチモーダル推論能力を備えています。
優れた性能
視覚言語タスクにおいて最先端の結果を達成し、GPT-4oなどの主要モデルに匹敵します。
テキストのみの性能向上
マルチモーダルトレーニング後、そのテキストのみの性能はLLMバックボーンモデルよりも向上しています。

モデル能力

光学文字認識
マルチモーダル推論
位置特定
常識推論
世界知識利用
エンコーディング

使用事例

視覚言語タスク
画像キャプション生成
入力画像に基づいて詳細なテキスト記述を生成します。
視覚的質問応答
入力画像に関する質問に答えます。
テキストのみのタスク
テキスト生成
一貫性があり文脈に沿ったテキストを生成します。
常識推論
常識に基づいて論理的な推論を行います。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase