W

Wav2vec2 Base 960h

tommy19970714によって開発
Wav2Vec2は自己教師あり学習に基づく音声認識モデルで、Facebookによって開発され、LibriSpeechデータセットでトレーニングされ、英語音声からテキストへの変換タスクをサポートします。
ダウンロード数 19
リリース時間 : 3/2/2022

モデル概要

このモデルは自動音声認識(ASR)システムで、英語音声をテキストに変換できます。Transformerアーキテクチャに基づき、960時間のLibriSpeechデータでトレーニングされています。

モデル特徴

自己教師あり学習
自己教師あり学習手法で事前トレーニングされ、手動アノテーションデータへの依存を軽減
高精度
LibriSpeechテストセットで3.4% (clean)および8.6% (other)の単語誤り率(WER)を達成
エンドツーエンドトレーニング
従来の音声認識システムの独立コンポーネントを必要とせず、生の音声から直接学習

モデル能力

英語音声認識
音声からテキストへの変換
音声転写

使用事例

音声転写
会議議事録
会議録音を自動転写
音質に依存し、クリアな音声では96.6%の精度を達成
ポッドキャスト転写
ポッドキャストコンテンツをテキストに変換
支援技術
リアルタイム字幕生成
動画やライブ配信にリアルタイムで字幕を生成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase