wav2vec2-base-bg-voxpopuli-v2オープンソース音声モデル - 無料でデプロイしてブルガリア語音声認識をサポート

ホーム

Wav2vec2 Base Bg Voxpopuli V2

facebookによって開発

Facebook Wav2Vec2アーキテクチャに基づく音声モデルで、ブルガリア語に特化して事前学習されており、音声認識タスクに適しています。

音声認識

Transformers

その他#ブルガリア語音声認識 #教師なし事前学習 #16kHz音声処理

ダウンロード数 30

リリース時間 : 3/2/2022

モデル概要

このモデルはWav2Vec2の基本バージョンで、VoxPopuliコーパスから17.6k時間のブルガリア語未ラベルデータを使用して事前学習されており、音声認識タスクに適しています。

モデル特徴

ブルガリア語専用

ブルガリア語に特化して事前学習されており、この言語の音声認識性能を最適化しています。

VoxPopuliコーパスベース

VoxPopuliの大規模多言語音声コーパスを使用して訓練されており、データ品質が高いです。

16kHzサンプリングレート

モデルは16kHzでサンプリングされた音声オーディオで事前学習されており、使用時には入力オーディオのサンプリングレートが一致している必要があります。

モデル能力

音声認識

音声特徴抽出

使用事例

音声認識

ブルガリア語音声からテキストへ

ブルガリア語の音声をテキストに変換します

🚀 Wav2Vec2-base-VoxPopuli-V2

このモデルは、FacebookのWav2Vec2のベースモデルで、VoxPopuliコーパスの17.6kの未ラベルデータを用いて、ブルガリア語（bg） でのみ事前学習されています。

このモデルは、16kHzでサンプリングされた音声オーディオで事前学習されています。モデルを使用する際には、音声入力も16kHzでサンプリングされていることを確認してください。

✨ 主な機能

ブルガリア語の音声データに特化した事前学習が行われています。
音声認識タスクに利用するために、ラベル付きのテキストデータでのファインチューニングが可能です。

📚 ドキュメント

モデルの詳細

このモデルは音声のみで事前学習されているため、トークナイザーがありません。音声認識にこのモデルを使用するには、トークナイザーを作成し、ブルガリア語のラベル付きテキストデータでモデルをファインチューニングする必要があります。モデルのファインチューニング方法についての詳細な説明は、このブログを参照してください。