S

Speech Text

abidlabsによって開発
facebook/wav2vec2-large-xlsr-53を英語の汎用音声データセットでファインチューニングした自動音声認識モデルで、16kHzサンプリングレートの英語音声入力をサポートしています。
ダウンロード数 25
リリース時間 : 3/7/2022

モデル概要

これは英語の自動音声認識(ASR)用のモデルで、XLSR-53アーキテクチャをファインチューニングしており、英語の音声をテキストに変換できます。

モデル特徴

高性能英語音声認識
汎用音声英語テストセットで19.06%の単語誤り率(WER)と7.69%の文字誤り率(CER)を達成
言語モデル拡張サポート
言語モデルと組み合わせると、単語誤り率は14.81%、文字誤り率は6.84%まで低下可能
16kHzサンプリングレートサポート
16kHzサンプリングレートの音声入力に最適化

モデル能力

英語音声認識
音声からテキストへの変換
自動音声転写

使用事例

音声転写
会議議事録の転写
英語の会議録音を自動的に文字記録に変換
約80-85%の精度(WER 14.81-19.06%)
ポッドキャストコンテンツの転写
英語ポッドキャストの原稿を自動生成
音声インターフェース
音声アシスタント
英語音声アシスタントに音声認識機能を提供
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase