S

Sign Language Classification V1

joseluhf11によって開発
Google Vision Transformer (ViT)をファインチューニングした手話分類モデルで、精度は80.56%
ダウンロード数 40
リリース時間 : 12/9/2023

モデル概要

このモデルはGoogle ViTアーキテクチャをファインチューニングした手話認識モデルで、主に静止画の手話画像分類タスクに使用されます

モデル特徴

高精度
評価データセットで80.56%の分類精度を達成
ViTアーキテクチャ採用
Vision Transformerアーキテクチャを採用し、強力な画像特徴抽出能力を有する
転移学習
事前学習済みViTモデルをファインチューニングし、既存知識を効果的に活用

モデル能力

手話画像分類
静止ジェスチャー認識

使用事例

アクセシビリティ技術
手話翻訳システム
手話ジェスチャーを文字や音声に変換
教育
手話学習支援
学習者が手話ジェスチャーを識別・検証するのを支援
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase