xlsr-timit-b0開源音位轉錄模型 - 免費部署實現英語音頻轉音位表徵

首頁

Xlsr Timit B0

由KoelLabs開發

基於TIMIT數據集微調的音位轉錄模型，可將英語音頻轉錄為音位表徵

語音識別

Safetensors

英語#英語音位轉錄 #高精度音標識別 #TIMIT數據集優化

下載量 40

發布時間 : 11/30/2024

模型概述

本模型基於預訓練檢查點ginic/data_seed_4_wav2vec2-large-xlsr-buckeye-ipa，通過DARPA TIMIT英語語料庫微調，可將英語音頻轉錄為音位表徵。在英語音標轉錄任務上優於當前所有XLSR模型。

模型特點

高精度音位轉錄

在TIMIT測試集上達到平均0.113的字符錯誤率（CER）

英語優化

專門針對英語語音進行優化，音位轉錄準確率高

基於XLSR架構

基於強大的wav2vec2-large-xlsr架構，具有優秀的語音特徵提取能力

模型能力

英語語音識別

音位轉錄

自動語音轉寫

使用案例

語音學研究

音位分析

用於語音學研究中的音位特徵分析

提供準確的音位轉錄結果

語音技術開發

語音識別系統開發

作為語音識別系統的音位轉錄組件

提高系統對英語音位的識別準確率

🚀 XLSR-TIMIT-B0：針對音素轉錄在TIMIT上進行微調

本模型利用預訓練檢查點 ginic/data_seed_4_wav2vec2-large-xlsr-buckeye-ipa，並在 TIMIT Darpa英語語料庫上進行微調，用於將英語音頻轉錄為音素表示。

所有代碼均可在 Github 上獲取。

該模型在英語的xlsr國際音標轉錄方面優於當前所有同類模型。

✨ 主要特性

基於預訓練模型微調，在TIMIT語料庫上進行針對性訓練，適用於英語音頻的音素轉錄。
代碼開源，方便開發者使用和進一步研究。
在各項性能指標上表現出色，超越當前同類模型。

📦 安裝指南

暫未提及安裝相關內容，故跳過此章節。

💻 使用示例

基礎用法

from transformers import AutoModelForCTC, AutoProcessor
import torch

# Load model and processor
model = AutoModelForCTC.from_pretrained("KoelLabs/xlsr-timit-b0")
processor = AutoProcessor.from_pretrained("KoelLabs/xlsr-timit-b0")

# Prepare input
audio_input = "path_to_your_audio_file.wav"  # Replace with your file
input_values = processor(audio_input, return_tensors="pt", sampling_rate=16000).input_values

# Retrieve logits
with torch.no_grad():
    logits = model(input_values).logits

# Decode predictions
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)
print(transcription)

📚 詳細文檔

性能表現

訓練損失：1.254
驗證損失：0.267
測試結果（TIMIT測試集）：
- 平均加權距離：13.309375
- 加權距離標準差：9.87
- 平均字符錯誤率（CER）：0.113
- 字符錯誤率標準差：0.06

image/png

模型信息

屬性	詳情
模型類型	基於預訓練檢查點 ginic/data_seed_4_wav2vec2-large-xlsr-buckeye-ipa 微調
訓練輪數	40
學習率	8e - 5
優化器	Adam
訓練數據	TIMIT, Darpa英語語料庫

示例輸出

預測結果：lizteɪkðɪsdɹɾiteɪbklɔθiðiklinizfɹmi
真實標籤：lizteɪkðɪsdɹɾiteɪbəklɔtiðiklinizfɹmi
加權特徵編輯距離：7.875
字符錯誤率：0.0556
預測結果：ɹænmʌðɹʔaʊtɹuhɹʔʌpɹɪŋiɾimpɛɾikoʊts
真實標籤：ɹænmʌðɹʔaʊtɹuhɹʔʌpɹɪŋiŋinpɛɾikoʊts
加權特徵編輯距離：2.375
字符錯誤率：0.0588