W

Wav2vec2 Base Timit Asr

elgeishによって開発
facebook/wav2vec2-baseをtimit_asrデータセットでファインチューニングした音声認識モデルで、16kHzサンプリングレートの音声入力をサポート
ダウンロード数 174
リリース時間 : 3/2/2022

モデル概要

これは自動音声認識(ASR)のためのモデルで、TIMITデータセットに特化して最適化されており、英語音声をテキストに変換できます

モデル特徴

言語モデル不要
このモデルは追加の言語モデルなしで直接使用可能
16kHzサンプリングレートサポート
16kHzサンプリングレートの音声入力を処理するために特別に最適化
TIMITデータセット最適化
TIMIT ASRデータセットで特化してファインチューニング済み

モデル能力

英語音声認識
音声からテキストへの変換
自動音声転写

使用事例

音声転写
音声から文字へ
英語音声をテキスト形式に変換
例に示す通り、大部分の内容を正確に転写可能ですが、一部の単語で小さな誤りが発生する可能性があります
音声分析
音声内容分析
音声内容を分析してキー情報を抽出
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase