wav2vec2-base-lv-voxpopuli-v2オープンソース音声認識モデル - ラトビア語の高精度認識に特化して開発

ホーム

Wav2vec2 Base Lv Voxpopuli V2

facebookによって開発

FacebookのWav2Vec2アーキテクチャに基づく音声認識の基礎モデルで、ラトビア語（lv）に特化して事前学習されており、VoxPopuliコーパスの13.1kの未ラベル付きデータを使用しています。

音声認識

Transformers

その他#ラトビア語音声認識 #教師なし事前学習 #16kHzオーディオ処理

ダウンロード数 29

リリース時間 : 3/2/2022

モデル概要

このモデルは音声認識の基礎モデルで、自己教師付き学習によって生のオーディオから音声表現を学習し、ラトビア語の音声処理タスクに適しています。

モデル特徴

ラトビア語専用

ラトビア語に特化して事前学習されており、この言語の音声特徴抽出能力が最適化されています。

自己教師付き学習

13.1k時間の未ラベル付きデータを使用して自己教師付き事前学習を行っており、大量のラベル付きデータを必要としません。

16kHzオーディオ対応

モデルは16kHzサンプリングの音声オーディオに最適化されており、使用時には入力オーディオのサンプリングレートを一致させる必要があります。

モデル能力

音声表現学習

音声特徴抽出

音声認識基礎モデル

使用事例

音声技術

ラトビア語音声認識システム

基礎モデルとして使用し、ラトビア語音声認識システムをさらに微調整して開発することができます。

音声データ分析

ラトビア語の音声データの特徴抽出と分析に使用します。

🚀 Wav2Vec2-base-VoxPopuli-V2

このモデルは、FacebookのWav2Vec2のベースモデルで、VoxPopuliコーパスの13.1kの未ラベルデータを用いて、ラトビア語（lv） でのみ事前学習されています。このモデルは16kHzでサンプリングされた音声オーディオで事前学習されています。モデルを使用する際には、入力音声も16kHzでサンプリングされていることを確認してください。

🚀 クイックスタート

このモデルは音声のみで事前学習されているため、トークナイザーを持っていません。音声認識にこのモデルを使用するには、トークナイザーを作成し、ラトビア語（lv） のラベル付きテキストデータでモデルを微調整する必要があります。モデルの微調整方法の詳細については、このブログを参照してください。

✨ 主な機能

ラトビア語（lv）で事前学習された音声認識モデルです。
16kHzでサンプリングされた音声オーディオに最適化されています。

📚 ドキュメント

論文情報

論文タイトル：VoxPopuli: A Large-Scale Multilingual Speech Corpus for Representation Learning, Semi-Supervised Learning and Interpretation
著者：Changhan Wang, Morgane Riviere, Ann Lee, Anne Wu, Chaitanya Talnikar, Daniel Haziza, Mary Williamson, Juan Pino, Emmanuel Dupoux （Facebook AI）

📄 ライセンス

このモデルは、CC BY-NC 4.0ライセンスの下で提供されています。

⚠️ 重要提示

このモデルは音声のみで事前学習されているため、トークナイザーを持っていません。音声認識に使用するには、トークナイザーを作成し、ラベル付きテキストデータでモデルを微調整する必要があります。

属性	详情
モデルタイプ	Wav2Vec2-base-VoxPopuli-V2
学習データ	VoxPopuliコーパスの13.1kの未ラベルデータ（ラトビア語のみ）
サンプリングレート	16kHz
ライセンス	CC BY-NC 4.0