W

Wav2vec2 2 Bart Base

patrickvonplatenによって開発
LibriSpeech ASR cleanデータセットでファインチューニングされたwav2vec2-baseとbart-baseに基づく音声認識モデル
ダウンロード数 493
リリース時間 : 3/2/2022

モデル概要

このモデルはwav2vec2の音声特徴抽出能力とBARTのシーケンス・ツー・シーケンス変換能力を組み合わせ、英語音声認識タスクに特化しています

モデル特徴

ハイブリッドアーキテクチャ
wav2vec2の音声特徴抽出とBARTのシーケンス変換能力を統合
効率的なファインチューニング
LibriSpeech ASR cleanデータセットで最適化
マルチGPUトレーニング
分散トレーニングをサポートし、トレーニング効率を向上

モデル能力

英語音声認識
オーディオからテキストへ
シーケンス・ツー・シーケンス変換

使用事例

音声文字起こし
会議議事録
会議録音を文字記録に変換
ポッドキャスト文字起こし
ポッドキャスト音声コンテンツをテキストに変換
支援技術
リアルタイム字幕生成
動画やライブ配信のためのリアルタイム字幕を生成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase