W

Wav2vec2 Base Timit Demo Colab70

hassnainによって開発
このモデルはfacebook/wav2vec2-baseをTIMITデータセットでファインチューニングした音声認識モデルで、主に英語音声からテキストへの変換タスクに使用されます。
ダウンロード数 15
リリース時間 : 5/1/2022

モデル概要

これはwav2vec2アーキテクチャに基づく自動音声認識(ASR)モデルで、TIMITデータセットでファインチューニングされており、英語音声をテキストに変換できます。

モデル特徴

wav2vec2アーキテクチャベース
Facebookのwav2vec2-baseをベースモデルとして採用し、優れた音声特徴抽出能力を有しています
TIMITデータセットでファインチューニング
標準的なTIMIT音声データセットでファインチューニングを行い、英語音声認識性能を最適化しました
中規模モデル
baseバージョンのwav2vec2をベースとしており、性能とリソース消費のバランスを取っています

モデル能力

英語音声認識
音声からテキストへの変換
連続音声認識

使用事例

音声文字起こし
英語音声の文字起こし
英語音声コンテンツをテキスト形式に変換します
単語誤り率(WER)0.5149
音声アシスタント
音声コマンド認識
英語音声コマンドを認識・理解します
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase