wav2vec2-large-baltic-voxpopuli-v2オープンソース音声モデル

ホーム

Wav2vec2 Large Baltic Voxpopuli V2

facebookによって開発

FacebookのWav2Vec2大型モデルで、バルト語族のVoxPopuliコーパスのみを使って27.5時間の無ラベルデータで事前学習されました。

音声認識

Transformers

#バルト語族音声認識 #教師なし事前学習 #16kHz音声処理

ダウンロード数 25

リリース時間 : 3/2/2022

モデル概要

このモデルはWav2Vec2アーキテクチャに基づく音声処理モデルで、バルト語族に特化して事前学習され、音声認識タスクに適しています。

モデル特徴

バルト語族事前学習

バルト語族に特化して27.5時間の無ラベルデータで事前学習され、この語族の音声認識タスクに適しています。

16kHz音声サンプリング

モデルの事前学習には16kHzの音声サンプリングレートが使用されているため、使用時には入力音声データも同じく16kHzでサンプリングする必要があります。

教師なし事前学習

モデルは無ラベルデータで事前学習され、半教師あり学習や表現学習タスクに適しています。

モデル能力

自動音声認識

音声表現学習

使用事例

音声認識

バルト語族音声をテキストに変換

バルト語族の音声をテキストに変換する

音声研究

音声表現学習

音声信号の表現学習の研究に使用する

🚀 Wav2Vec2-large-VoxPopuli-V2

このモデルは、FacebookのWav2Vec2 の大規模モデルで、VoxPopuliコーパスの 27.5 の未ラベルデータを使って、バルト語 でのみ事前学習されています。このモデルは16kHzでサンプリングされた音声オーディオで事前学習されています。モデルを使用する際には、入力音声も16kHzでサンプリングされていることを確認してください。

🚀 クイックスタート

このモデルは、音声のみで事前学習されているため、トークナイザーがありません。音声認識 でこのモデルを使用するには、トークナイザーを作成し、バルト語 のラベル付きテキストデータでモデルをファインチューニングする必要があります。モデルのファインチューニング方法の詳細については、このブログを参照してください。