wav2vec2-base-de-voxpopuli-v2オープンソースドイツ語音声モデル

ホーム

Wav2vec2 Base De Voxpopuli V2

facebookによって開発

Facebook Wav2Vec2アーキテクチャに基づくドイツ語音声事前学習モデルで、VoxPopuliコーパスの23.2kの未ラベルドイツ語データを使用して事前学習されています。

音声認識

Transformers

ドイツ語#ドイツ語音声認識 #教師なし事前学習 #16kHz音声処理

ダウンロード数 44

リリース時間 : 3/2/2022

モデル概要

このモデルは基礎的な音声処理モデルで、ドイツ語音声認識タスクに特化しており、自己教師あり学習により生の音声から特徴を抽出します。

モデル特徴

ドイツ語専用事前学習

ドイツ語音声データに特化して事前学習されており、ドイツ語音声特徴抽出能力が最適化されています。

自己教師あり学習

Wav2Vec2の自己教師あり学習手法を使用し、大量の未ラベル音声データから効果的な表現を学習します。

16kHz音声サポート

モデルは16kHzサンプリングの音声で事前学習されており、使用時には入力音声のサンプリングレートが一致している必要があります。

モデル能力

ドイツ語音声特徴抽出

音声表現学習

使用事例

音声処理

ドイツ語音声認識システム

このモデルをファインチューニングしてドイツ語自動音声認識システムを構築

最適な性能を得るには追加のラベルデータによるファインチューニングが必要です

音声特徴抽出器

下流の音声タスクの特徴抽出器として使用

🚀 Wav2Vec2-base-VoxPopuli-V2

このモデルは、FacebookのWav2Vec2のベースモデルで、VoxPopuliコーパスの23.2kのラベルなしデータを用いて、ドイツ語でのみ事前学習されています。このモデルは、16kHzでサンプリングされた音声オーディオを対象に事前学習されています。モデルを使用する際には、入力音声も16kHzでサンプリングされていることを確認してください。

🚀 クイックスタート

このモデルは音声のみで事前学習されているため、トークナイザーがありません。音声認識にこのモデルを使用するには、トークナイザーを作成し、ドイツ語のラベル付きテキストデータでモデルをファインチューニングする必要があります。モデルのファインチューニング方法について詳しくは、このブログを参照してください。

📄 ライセンス

このモデルは、CC BY-NC 4.0ライセンスの下で提供されています。

📚 ドキュメント

論文情報

論文: VoxPopuli: A Large-Scale Multilingual Speech Corpus for Representation Learning, Semi-Supervised Learning and Interpretation
著者: Changhan Wang, Morgane Riviere, Ann Lee, Anne Wu, Chaitanya Talnikar, Daniel Haziza, Mary Williamson, Juan Pino, Emmanuel Dupoux （Facebook AI）

その他情報

詳細な情報は、公式ウェブサイトこちらを参照してください。

情報テーブル

| 属性 | 详情 |
|------|------|
| モデルタイプ | Wav2Vec2-base-VoxPopuli-V2 |
| 学習データ | [VoxPopuliコーパス](https://arxiv.org/abs/2101.00390)の23.2kのラベルなしデータ |
| ライセンス | CC BY-NC 4.0 |

重要提示

> ⚠️ **重要提示**
> 
> このモデルは16kHzでサンプリングされた音声オーディオを対象に事前学習されています。モデルを使用する際には、入力音声も16kHzでサンプリングされていることを確認してください。

> 💡 **使用建议**
> 
> このモデルを音声認識に使用するには、トークナイザーを作成し、ドイツ語のラベル付きテキストデータでモデルをファインチューニングする必要があります。