wav2vec2-large-uralic-voxpopuli-v2オープンソース音声モデル - ウラル語族の音声処理をサポート

ホーム

Wav2vec2 Large Uralic Voxpopuli V2

facebookによって開発

VoxPopuliコーパスの42.5時間のウラル語族の無ラベルデータで事前学習されたWav2Vec2大型音声モデル

音声認識

Transformers

#ウラル語族の音声認識 #教師なし事前学習 #16kHzオーディオ処理

ダウンロード数 46

リリース時間 : 3/2/2022

モデル概要

これはFacebookのWav2Vec2アーキテクチャに基づく大型音声モデルで、ウラル語族に特化して事前学習され、音声認識タスクに適しています。

モデル特徴

ウラル語族専用

ウラル語族に特化して事前学習され、この語族の音声認識タスクに適しています

VoxPopuliコーパスに基づく

VoxPopuli多言語音声コーパスの42.5時間のウラル語族データを使用して事前学習されました

16kHzオーディオ対応

モデルの事前学習には16kHzのサンプリングレートの音声オーディオが使用されており、使用時には入力オーディオがこのサンプリングレートに一致するようにする必要があります

モデル能力

音声特徴抽出

音声表現学習

使用事例

音声技術

ウラル語族の音声認識

ウラル語族の自動音声認識システムの開発に使用できます

ラベル付きデータで微調整する必要があり、その後で最適な結果が得られます

🚀 Wav2Vec2-large-VoxPopuli-V2

このモデルは、FacebookのWav2Vec2の大規模モデルで、VoxPopuliコーパスの42.5のラベルなしデータを用いて、ウラル語族でのみ事前学習されています。モデルは16kHzでサンプリングされた音声オーディオで事前学習されています。モデルを使用する際には、入力音声も16kHzでサンプリングされていることを確認してください。

🚀 クイックスタート

このモデルは音声のみで事前学習されているため、トークナイザーを持っていません。音声認識にこのモデルを使用するには、トークナイザーを作成し、モデルをウラル語族のラベル付きテキストデータでファインチューニングする必要があります。モデルのファインチューニング方法の詳細については、このブログを参照してください。

📚 ドキュメント

論文情報

論文: VoxPopuli: A Large-Scale Multilingual Speech Corpus for Representation Learning, Semi-Supervised Learning and Interpretation
著者: Changhan Wang, Morgane Riviere, Ann Lee, Anne Wu, Chaitanya Talnikar, Daniel Haziza, Mary Williamson, Juan Pino, Emmanuel Dupoux （Facebook AI）

その他情報

詳細情報については、公式ウェブサイトこちらを参照してください。

📄 ライセンス

このモデルは、CC BY-NC 4.0ライセンスの下で提供されています。

属性	详情
モデルタイプ	事前学習済み音声モデル
学習データ	VoxPopuliコーパスの42.5のラベルなしデータ
タグ	audio、automatic-speech-recognition、voxpopuli-v2
推論	不可