smart_tv_hand_gestures_image_detectionオープンソースモデル - スマートTVの9種類の一般的なジェスチャーを高精度に識別

ホーム

Smart Tv Hand Gestures Image Detection

dima806によって開発

Vision Transformerアーキテクチャに基づくスマートTVジェスチャー認識モデルで、9種類の一般的なジェスチャーを正確に分類できます。

画像分類

Transformers

オープンソースライセンス:Apache-2.0 #スマートTVジェスチャー認識 #高精度画像分類 #Vision Transformer

ダウンロード数 65

リリース時間 : 1/30/2025

モデル概要

このモデルはViTアーキテクチャを使用してスマートTVシーンでのジェスチャー認識を実現し、スワイプ、停止、親指方向など9種類のジェスチャーを認識可能で、精度は99.9%に達します。

モデル特徴

高精度認識

テストセットで99.9%の全体精度を達成し、すべてのジェスチャーのF1値が99.5%を超えています

マルチジェスチャーサポート

9種類の一般的なスマートTVジェスチャーの正確な分類をサポート

効率的なアーキテクチャ

Vision Transformerに基づく現代的な視覚アーキテクチャで、性能と効率のバランスを実現

モデル能力

画像分類

ジェスチャー認識

リアルタイム動作検出

使用事例

スマートホーム

TVジェスチャー制御

カメラでユーザーのジェスチャーを捕捉し、リモコンなしでの操作を実現

9種類の制御ジェスチャーを正確に認識、誤認識率<0.1%

アクセシビリティインタラクション

特別なニーズを持つユーザーの制御インターフェース

身体が不自由なユーザー向けに非接触型インタラクションソリューションを提供

属性	详情
モデルタイプ	画像分類
ベースモデル	google/vit-base-patch16-224-in21k
評価指標	正解率、F1スコア
ライブラリ名	transformers

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Smart Tv Hand Gestures Image Detection

モデル概要

モデル特徴

モデル能力

使用事例

🚀 スマートTV用手のジェスチャー画像分類モデル

🚀 クイックスタート

分類レポート

📚 ドキュメント

📄 ライセンス