🚀 VoxLingua107 ECAPA - TDNN 話し言葉識別モデル
このモデルは、音声の言語識別を行うためのモデルです。SpeechBrainを用いてVoxLingua107データセットで学習されており、ECAPA - TDNNアーキテクチャを使用しています。このアーキテクチャは以前、話者認識に使用されていました。このモデルは、話された言語に応じて音声発話を分類することができ、107種類の異なる言語をカバーしています。
🚀 クイックスタート
このモデルは、話し言葉の認識や、独自のデータで専用の言語識別モデルを作成するための発話レベルの特徴(埋め込み)抽出器として使用することができます。
✨ 主な機能
- 音声発話を107種類の言語に分類することができます。
- 発話レベルの特徴(埋め込み)抽出器として使用できます。
📦 インストール
このモデルの使用には、torchaudio
とSpeechBrain
が必要です。以下のコマンドでインストールできます。
pip install torchaudio speechbrain
💻 使用例
基本的な使用法
import torchaudio
from speechbrain.pretrained import EncoderClassifier
language_id = EncoderClassifier.from_hparams(source="TalTechNLP/voxlingua107-epaca-tdnn", savedir="tmp")
signal = language_id.load_audio("https://omniglot.com/soundfiles/udhr/udhr_th.mp3")
prediction = language_id.classify_batch(signal)
print(prediction)
(tensor([[0.3210, 0.3751, 0.3680, 0.3939, 0.4026, 0.3644, 0.3689, 0.3597, 0.3508,
0.3666, 0.3895, 0.3978, 0.3848, 0.3957, 0.3949, 0.3586, 0.4360, 0.3997,
0.4106, 0.3886, 0.4177, 0.3870, 0.3764, 0.3763, 0.3672, 0.4000, 0.4256,
0.4091, 0.3563, 0.3695, 0.3320, 0.3838, 0.3850, 0.3867, 0.3878, 0.3944,
0.3924, 0.4063, 0.3803, 0.3830, 0.2996, 0.4187, 0.3976, 0.3651, 0.3950,
0.3744, 0.4295, 0.3807, 0.3613, 0.4710, 0.3530, 0.4156, 0.3651, 0.3777,
0.3813, 0.6063, 0.3708, 0.3886, 0.3766, 0.4023, 0.3785, 0.3612, 0.4193,
0.3720, 0.4406, 0.3243, 0.3866, 0.3866, 0.4104, 0.4294, 0.4175, 0.3364,
0.3595, 0.3443, 0.3565, 0.3776, 0.3985, 0.3778, 0.2382, 0.4115, 0.4017,
0.4070, 0.3266, 0.3648, 0.3888, 0.3907, 0.3755, 0.3631, 0.4460, 0.3464,
0.3898, 0.3661, 0.3883, 0.3772, 0.9289, 0.3687, 0.4298, 0.4211, 0.3838,
0.3521, 0.3515, 0.3465, 0.4772, 0.4043, 0.3844, 0.3973, 0.4343]]), tensor([0.9289]), tensor([94]), ['th'])
print(prediction[3])
['th']
emb = language_id.encode_batch(signal)
print(emb.shape)
torch.Size([1, 1, 256])
高度な使用法
📚 ドキュメント
モデルの説明
このモデルは、VoxLingua107データセットを使用してSpeechBrainで学習された話し言葉認識モデルです。モデルは、以前に話者認識に使用されていたECAPA - TDNNアーキテクチャを使用しています。
想定される用途と制限
このモデルには2つの用途があります。
- そのまま話し言葉認識に使用する。
- 独自のデータで専用の言語識別モデルを作成するための発話レベルの特徴(埋め込み)抽出器として使用する。
ただし、このモデルは自動収集されたYouTubeデータで学習されているため、いくつかの制限とバイアスがあります。
- 小規模な言語に対する精度はかなり限られている可能性があります。
- YouTubeデータには男性の音声がはるかに多く含まれているため、女性の音声に対する性能は男性の音声よりも劣る可能性があります。
- 主観的な実験に基づくと、外国のアクセントのある音声に対してはうまく機能しない可能性があります。
- 子供の音声や発話障害のある人の音声に対してはうまく機能しない可能性があります。
学習データ
このモデルは、VoxLingua107で学習されています。VoxLingua107は、話し言葉識別モデルを学習するための音声データセットで、YouTube動画から自動的に抽出された短い音声セグメントで構成されています。動画のタイトルと説明の言語に応じてラベル付けされ、誤検出を除外するためのいくつかの後処理ステップが行われています。
学習手順
このモデルは、SpeechBrainを使用して学習されました。学習レシピは近日公開予定です。
評価結果
開発データセットでの誤り率は7%です。
🔧 技術詳細
このモデルは、ECAPA - TDNNアーキテクチャを使用しています。このアーキテクチャは、以前に話者認識に使用されていたもので、音声の特徴を効果的に抽出することができます。
📄 ライセンス
このモデルは、Apache 2.0ライセンスの下で提供されています。
BibTeXエントリと引用情報
@inproceedings{valk2021slt,
title={{VoxLingua107}: a Dataset for Spoken Language Recognition},
author={J{\"o}rgen Valk and Tanel Alum{\"a}e},
booktitle={Proc. IEEE SLT Workshop},
year={2021},
}
情報テーブル
| 属性 | 詳情 |
|------|------|
| モデルタイプ | 話し言葉識別モデル |
| 学習データ | VoxLingua107データセット |
重要提示
⚠️ 重要提示
このモデルは自動収集されたYouTubeデータで学習されているため、いくつかの制限とバイアスがあります。小規模な言語や、女性の音声、外国のアクセントのある音声、子供の音声や発話障害のある人の音声に対しては、性能が低下する可能性があります。
使用建议
💡 使用アドバイス
独自のデータでモデルを微調整することで、性能を向上させることができます。また、データの前処理やモデルの学習パラメータの調整も重要です。