オープンソースのxlsr-timit-a0モデル - 英語のオーディオを効率的に音素表現に変換！

ホーム

Xlsr Timit A0

KoelLabsによって開発

XLSR事前学習モデルをTIMIT英語コーパスで微調整した音素転写モデルで、英語音声を音素表現に変換します。

音声認識

Safetensors

英語#英語音素転写 #低CER認識 #TIMIT微調整

ダウンロード数 17

リリース時間 : 12/1/2024

モデル概要

このモデルは英語音声の音素レベル自動音声認識(ASR)専用で、音声信号を国際音声記号(IPA)のシーケンスに変換できます。

モデル特徴

高精度音素転写

TIMITテストセットで0.14の平均文字誤り率(CER)を達成

専門音声学注釈

出力は国際音声記号(IPA)で、音声学研究に適しています

軽量微調整

事前学習XLSRモデルに基づく効率的な微調整で、わずか40トレーニングエポック

モデル能力

英語音声認識

音素レベル転写

国際音声記号変換

使用事例

音声学研究

音素分析

音声サンプルの自動音素注釈生成

音素レベルまでの精密な音声分析結果を提供

音声技術開発

ASRシステム事前学習

音声認識システムの音素特徴抽出器として

下流ASRタスクの性能向上

🚀 XLSR-TIMIT-B0: TIMITで音素転写用にファインチューニングされたモデル

このモデルは、事前学習されたチェックポイント ginic/hyperparam_tuning_1_wav2vec2-large-xlsr-buckeye-ipa を利用し、TIMIT Darpa English Corpus でファインチューニングされており、英語の音声を音素表現に転写することができます。

🚀 クイックスタート

オーディオファイルを転写するには、このモデルを以下のように使用できます。

基本的な使用法

from transformers import AutoModelForCTC, AutoProcessor
import torch

# Load model and processor
model = AutoModelForCTC.from_pretrained("KoelLabs/xlsr-timit-b0")
processor = AutoProcessor.from_pretrained("KoelLabs/xlsr-timit-b0")

# Prepare input
audio_input = "path_to_your_audio_file.wav"  # Replace with your file
input_values = processor(audio_input, return_tensors="pt", sampling_rate=16000).input_values

# Retrieve logits
with torch.no_grad():
    logits = model(input_values).logits

# Decode predictions
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)
print(transcription)

✨ 主な機能

事前学習されたチェックポイントを利用し、TIMITコーパスでファインチューニングされている。
英語の音声を音素表現に転写することができる。

📚 ドキュメント

性能

訓練損失: 4.73
検証損失: 1.048
テスト結果 (TIMITテストセット):
- 平均加重距離: 18.06
- 標準偏差 (加重距離): 12.9
- 平均文字誤り率 (CER): 0.14
- 標準偏差 (CER): 0.07

モデル情報

属性	詳情
モデルタイプ	事前学習されたチェックポイント ginic/hyperparam_tuning_1_wav2vec2-large-xlsr-buckeye-ipa を利用し、TIMITコーパスでファインチューニングされたモデル
エポック数	40
学習率	5e-6
オプティマイザ	Adam
使用データセット	TIMIT, Darpa English Corpus

出力例

予測: lizteɪkðɪsdɹɾiteɪbklɔθiðiklinizfɹmi 正解: lizteɪkðɪsdɹɾiteɪbəklɔtiðiklinizfɹmi 加重特徴編集距離: 7.875 CER: 0.0556
予測: ɹænmʌðɹʔaʊtɹuhɹʔʌpɹɪŋiɾimpɛɾikoʊts 正解: ɹænmʌðɹʔaʊtɹuhɹʔʌpɹɪŋiŋinpɛɾikoʊts 加重特徴編集距離: 2.375 CER: 0.0588