オープンソースのLotus - depth - g - v2 - 0 - disparityモデル - 高品質な深度推定と安定したビデオ深度予測の実現

ホーム

Lotus Depth G V2 0 Disparity

jingheyaによって開発

Lotusは拡散モデルに基づく視覚基盤モデルで、深度推定などの高品質な高密度予測タスクに特化しています。前バージョンと比較し、視差空間（逆深度）でトレーニングを行うことで、より優れた性能と安定した動画深度推定を実現しました。

3Dビジョンオープンソースライセンス:Apache-2.0 #動画深度推定 #逆深度トレーニング #拡散モデル

ダウンロード数 182

リリース時間 : 11/13/2024

モデル概要

Lotusは深度推定タスクに特化した公式モデルシリーズです。拡散モデルアーキテクチャを使用し、視差空間でトレーニングを行うことで、高品質な高密度予測結果を提供します。

モデル特徴

視差空間トレーニング

逆深度空間でトレーニングを行うことで、従来の深度空間トレーニングと比較し、より優れた性能と安定した動画深度推定結果を実現しました。

高品質高密度予測

様々な複雑なシーンに対応可能な高品質な高密度予測結果を生成できます。

動画深度推定

動画深度推定の安定性を特別に最適化しており、連続フレーム処理に適しています。

モデル能力

単一画像深度推定

動画深度推定

高密度予測

使用事例

コンピュータビジョン

3Dシーン再構築

単一画像または動画シーケンスから深度情報を推定し、3Dシーン再構築に使用します。

高品質な深度マップにより、精密な3Dモデリングが可能

拡張現実

ARアプリケーションにリアルタイム深度情報を提供し、仮想オブジェクトのリアリティを向上させます。

安定した動画深度推定により、AR体験の質を向上

自動運転

環境認識

自動運転システムが周囲環境の3D構造を理解するのを支援します。

正確な深度推定により、環境認識能力を向上

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Lotus Depth G V2 0 Disparity

モデル概要

モデル特徴

モデル能力

使用事例

🚀 Lotus: 高品質な密な予測のための拡散ベースの視覚基礎モデル

🚀 クイックスタート

📄 ライセンス