D

Data2vec Audio Large 960h

facebookによって開発
Data2Vecは音声、視覚、言語タスクに適用可能な汎用自己教師あり学習フレームワークです。この音声大規模モデルはLibriSpeechの960時間音声データで事前学習とファインチューニングされ、自動音声認識タスク向けに最適化されています。
ダウンロード数 2,531
リリース時間 : 4/2/2022

モデル概要

Data2Vecフレームワークに基づく音声認識モデルで、自己教師あり学習手法を用いてLibriSpeechデータセットで訓練され、音声をテキストに変換できます。

モデル特徴

汎用自己教師あり学習フレームワーク
統一されたdata2vecフレームワークで異なるモダリティタスクを処理し、局所的な目標ではなく完全な入力の潜在表現を予測することで実現
高性能音声認識
LibriSpeechテストセットで1.89(clean)と4.07(other)のWER指標を達成
大規模訓練データ
960時間のLibriSpeech音声データに基づいて訓練

モデル能力

英語音声認識
音声からテキストへの変換
16kHzサンプリングレート音声処理

使用事例

音声文字起こし
会議議事録の文字起こし
会議録音を自動的に文字記録に変換
ポッドキャストコンテンツインデックス作成
ポッドキャスト音声の検索可能なテキストインデックスを作成
支援技術
聴覚支援
聴覚障害者向けにリアルタイム音声テキスト変換サービスを提供
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase