C

C RADIOv2 B

nvidiaによって開発
C-RADIOv2はNVIDIAが開発した視覚特徴抽出モデルで、複数のサイズバージョンを提供し、画像理解や高密度視覚タスクに適しています。
ダウンロード数 404
リリース時間 : 1/13/2025

モデル概要

このモデルは視覚Transformerアーキテクチャに基づいており、画像埋め込みを生成するために使用され、下流モデルが画像分類、セマンティックセグメンテーションなどのタスクに利用できます。基本版、大型版、超大型版、超超大型版の4つのパラメータ規模を提供します。

モデル特徴

マルチサイズバージョン
9000万から18億パラメータまでの異なる規模のバージョンを提供し、様々な計算ニーズに対応
長時間トレーニング
v1バージョンより40万ステップ多くトレーニングし、100万ステップのトレーニング量を達成
データバランス技術
逆頻度サンプリングを使用してデータバランスをとり、PHI正規化で教師分布をバランス
高解像度サポート
最大2048x2028ピクセルの入力をサポートし、16ピクセル単位で増分

モデル能力

画像特徴抽出
画像レベル理解
高密度視覚処理
視覚言語モデル統合

使用事例

コンピュータビジョン
画像分類
モデルが生成する埋め込みを使用して画像分類タスクを実行
セマンティックセグメンテーション
空間的特徴を利用してピクセルレベルのセマンティックセグメンテーションを実施
深度推定
画像埋め込みに基づいてシーンの深度を推定
マルチモーダルアプリケーション
視覚言語モデル
画像特徴を大規模言語モデルに統合
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase