W

W2v Hf Commonvoice From Xlsr53 Pretrain 0329UTC1500

qqpannによって開発
facebook/wav2vec2-large-xlsr-53をCommon Voice日本語データセットでファインチューニングした音声認識モデル
ダウンロード数 15
リリース時間 : 3/2/2022

モデル概要

これは日本語自動音声認識(ASR)のためのモデルで、XLSRアーキテクチャをファインチューニングしており、16kHzサンプリングレートの音声入力をサポートします

モデル特徴

日本語音声認識
日本語に特化して最適化された音声認識能力
XLSRアーキテクチャベース
大規模な言語横断表現学習で事前学習されたモデルアーキテクチャを使用
言語モデル不要
追加の言語モデルサポートなしで直接使用可能

モデル能力

日本語音声からテキストへ
自動音声認識
16kHz音声処理

使用事例

音声文字起こし
日本語音声文字起こし
日本語音声内容をテキストに変換
単語誤り率70.18%
音声アシスタント
日本語音声コマンド認識
日本語音声コマンドを認識
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase