W

Wav2vec2 Large Xlsr 53 Japanese

jonatasgrosmanによって開発
facebook/wav2vec2-large-xlsr-53モデルをベースにファインチューニングした日本語音声認識モデルで、16kHzサンプリングレートの音声入力をサポート
ダウンロード数 2.9M
リリース時間 : 3/2/2022

モデル概要

これは日本語音声認識タスク向けにファインチューニングされたXLSR-53大規模モデルで、Common Voice 6.1、CSS10、JSUTデータセットでトレーニングされ、日本語音声からテキストへの変換タスクに適しています。

モデル特徴

マルチデータセットトレーニング
Common Voice 6.1、CSS10、JSUTの3つの日本語データセットを組み合わせてトレーニングし、モデルの汎化能力を向上
言語モデル不要
追加の言語モデルサポートなしで直接音声認識が可能
16kHzサンプリングレートサポート
16kHzサンプリングレートの音声入力に最適化

モデル能力

日本語音声認識
音声からテキストへの変換
自動音声転写

使用事例

音声転写
日本語音声からテキスト
日本語音声コンテンツをテキスト形式に変換
CER 20.16%, WER 81.80%(Common Voice日本語テストセット上)
音声アシスタント
日本語音声コマンド認識
日本語音声アシスタントや制御システムの音声コマンド認識に使用
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase