xlsr-timit-b0オープンソース音素転写モデル - 無料でデプロイして英語音声を音素表現に変換する

ホーム

Xlsr Timit B0

KoelLabsによって開発

TIMITデータセットでファインチューニングされた音素転写モデル、英語音声を音素表現に変換可能

音声認識

Safetensors

英語#英語音素転写 #高精度音声記号認識 #TIMITデータセット最適化

ダウンロード数 40

リリース時間 : 11/30/2024

モデル概要

このモデルは事前学習チェックポイントginic/data_seed_4_wav2vec2-large-xlsr-buckeye-ipaを基に、DARPA TIMIT英語コーパスでファインチューニングされ、英語音声を音素表現に変換します。英語音声記号転写タスクにおいて、現在の全てのXLSRモデルを上回る性能を発揮します。

モデル特徴

高精度音素転写

TIMITテストセットで平均0.113の文字誤り率（CER）を達成

英語最適化

英語音声に特化して最適化されており、音素転写精度が高い

XLSRアーキテクチャ採用

強力なwav2vec2-large-xlsrアーキテクチャを基盤としており、優れた音声特徴抽出能力を有する

モデル能力

英語音声認識

音素転写

自動音声書き起こし

使用事例

音声学研究

音素分析

音声学研究における音素特徴分析に使用

正確な音素転写結果を提供

音声技術開発

音声認識システム開発

音声認識システムの音素転写コンポーネントとして利用

システムの英語音素認識精度向上に貢献

🚀 XLSR-TIMIT-B0: TIMITで音素転写用にファインチューニングされたモデル

このモデルは、事前学習されたチェックポイント ginic/data_seed_4_wav2vec2-large-xlsr-buckeye-ipa を利用し、TIMIT Darpa English Corpus でファインチューニングされており、英語の音声を音素表現に転写します。

すべてのコードは Github で公開されています。

このモデルは、現在のすべての英語用のxlsr IPA転写モデルを上回る性能を発揮します。

🚀 クイックスタート

このモデルを使用して音声ファイルを転写するには、以下のようにします。

基本的な使用法

from transformers import AutoModelForCTC, AutoProcessor
import torch

# Load model and processor
model = AutoModelForCTC.from_pretrained("KoelLabs/xlsr-timit-b0")
processor = AutoProcessor.from_pretrained("KoelLabs/xlsr-timit-b0")

# Prepare input
audio_input = "path_to_your_audio_file.wav"  # Replace with your file
input_values = processor(audio_input, return_tensors="pt", sampling_rate=16000).input_values

# Retrieve logits
with torch.no_grad():
    logits = model(input_values).logits

# Decode predictions
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)
print(transcription)

✨ 主な機能

事前学習されたチェックポイントを利用し、TIMITデータセットでファインチューニングされた英語の音声転写モデルです。
現在のすべての英語用のxlsr IPA転写モデルを上回る性能を発揮します。

📚 ドキュメント

性能

訓練損失: 1.254
検証損失: 0.267
テスト結果 (TIMITテストセット):
- 平均重み付き距離: 13.309375
- 標準偏差 (重み付き距離): 9.87
- 平均文字誤り率 (CER): 0.113
- 標準偏差 (CER): 0.06

image/png

モデル情報

属性	详情
モデルタイプ	事前学習済みのginic/data_seed_4_wav2vec2-large-xlsr-buckeye-ipaをTIMITでファインチューニング
エポック数	40
学習率	8e-5
オプティマイザ	Adam
使用データセット	TIMIT, Darpa English Corpus

出力例

予測: lizteɪkðɪsdɹɾiteɪbklɔθiðiklinizfɹmi 正解: lizteɪkðɪsdɹɾiteɪbəklɔtiðiklinizfɹmi 重み付き特徴編集距離: 7.875 CER: 0.0556
予測: ɹænmʌðɹʔaʊtɹuhɹʔʌpɹɪŋiɾimpɛɾikoʊts 正解: ɹænmʌðɹʔaʊtɹuhɹʔʌpɹɪŋiŋinpɛɾikoʊts 重み付き特徴編集距離: 2.375 CER: 0.0588