wav2vec-LnNor-IPA-ft開源音素識別模型 - 支持英語語音轉國際音標

首頁

Wav2vec LnNor IPA Ft

由MultiBridge開發

基於wav2vec2-base微調的音素識別模型，支持英語語音轉國際音標(IPA)

語音識別

Safetensors

英語#音素識別 #國際音標轉寫 #非母語音頻適應

下載量 16

發布時間 : 3/2/2025

模型概述

該模型通過對TIMIT和LnNor數據集的微調開發，專門用於音素識別任務，預測結果採用國際音標(IPA)表示。

模型特點

多數據集微調

結合TIMIT和LnNor數據集進行訓練，增強模型泛化能力

國際音標輸出

直接輸出國際音標(IPA)表示，便於語音學研究

預訓練特徵保留

凍結編碼器保留了wav2vec2-base的有用預學習特徵

模型能力

英語音素識別

語音轉音標

自動音標轉寫

使用案例

語音處理

自動音標轉寫

將原始語音轉換為音素序列

語音處理組件

作為語音處理流程中的組件或原型開發

🚀 MultiBridge/wav2vec-LnNor-IPA-ft模型卡片

本模型專為音素識別任務而構建。它通過在TIMIT和LnNor數據集上微調wav2vec2基礎模型而開發，預測結果採用國際音標（IPA）表示。

🚀 快速開始

使用以下代碼開始使用該模型：

from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
from datasets import load_dataset
import torch
 
# load model and processor
processor = Wav2Vec2Processor.from_pretrained("MultiBridge/wav2vec-LnNor-IPA-ft")
model = Wav2Vec2ForCTC.from_pretrained("MultiBridge/wav2vec-LnNor-IPA-ft")
     
# load dummy dataset and read soundfiles
ds = load_dataset("hf-internal-testing/librispeech_asr_dummy", split="validation")
 
# tokenize
input_values = processor(ds[0]["audio"]["array"], return_tensors="pt").input_values
 
# retrieve logits
with torch.no_grad():
    logits = model(input_values).logits
 
# take argmax and decode
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)

# => should give ['mɪstɝkwɪltɝɪzðəəpɑslʌvðəmɪdəlklæsəzændwiɑəɡlædtəwɛlkəmhɪzɡɑspəl'] for MISTER QUILTER IS THE APOSTLE OF THE MIDDLE CLASSES AND WE ARE GLAD TO WELCOME HIS GOSPEL

✨ 主要特性

基於Transformer架構，專為音素識別任務設計。
微調自facebook/wav2vec2-base模型。
支持英語的自動音素轉錄。

📦 安裝指南

文檔未提及具體安裝步驟，故跳過該章節。

💻 使用示例

基礎用法

from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
from datasets import load_dataset
import torch
 
# load model and processor
processor = Wav2Vec2Processor.from_pretrained("MultiBridge/wav2vec-LnNor-IPA-ft")
model = Wav2Vec2ForCTC.from_pretrained("MultiBridge/wav2vec-LnNor-IPA-ft")
     
# load dummy dataset and read soundfiles
ds = load_dataset("hf-internal-testing/librispeech_asr_dummy", split="validation")
 
# tokenize
input_values = processor(ds[0]["audio"]["array"], return_tensors="pt").input_values
 
# retrieve logits
with torch.no_grad():
    logits = model(input_values).logits
 
# take argmax and decode
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)

# => should give ['mɪstɝkwɪltɝɪzðəəpɑslʌvðəmɪdəlklæsəzændwiɑəɡlædtəwɛlkəmhɪzɡɑspəl'] for MISTER QUILTER IS THE APOSTLE OF THE MIDDLE CLASSES AND WE ARE GLAD TO WELCOME HIS GOSPEL

📚 詳細文檔

模型詳情

屬性	詳情
開發方	Multibridge
資助方	EEA金融機制和挪威金融機制
共享方	Multibridge
模型類型	Transformer
語言	英語
許可證	cc-by-4.0
微調基礎模型	facebook/wav2vec2-base

用途

自動語音轉錄：將原始語音轉換為音素序列。
語音處理應用：作為語音處理管道或原型的組件。

偏差、風險和侷限性

數據特異性：通過排除短於2秒或長於30秒的錄音，以及少於5個音素的標籤，一些自然語音變化被忽略。這可能會影響模型在實際應用中的性能。模型的性能受TIMIT和LnNor數據集特徵的影響，這可能導致潛在的偏差，特別是當目標應用涉及這些數據集中未充分代表的說話者或方言時。LnNor包含非母語語音和自動生成的標註，這些標註反映的是規範音素，而非自然語音或非母語發音的真實發音。這可能導致模型無法準確預測非母語語音。
凍結編碼器：凍結編碼器保留了有用的預學習特徵，但也阻止了模型完全適應新數據集。

建議

評估模型在您特定用例中的性能。

訓練詳情

訓練數據

TIMIT：一個廣泛用於語音轉錄的數據集，為語音研究提供了標準基準。
LnNor：一個多語言數據集，包含挪威語、英語和波蘭語的高質量語音記錄。該數據集由具有不同語言水平的非母語人士編譯而成。LnNor中的音素標註使用WebMAUS工具生成，這意味著它們代表的是規範音素，而非自然語音或非母語發音的真實發音。

訓練過程

原始的預訓練編碼器表示被保留 - 在微調過程中，編碼器保持凍結，以最小化訓練時間和資源消耗。模型使用CTC損失和AdamW優化器進行訓練，沒有使用學習率調度器。

預處理

訓練數據集經過過濾。短於2秒或長於30秒的錄音被移除。任何由少於5個音素組成的標籤被丟棄。

訓練超參數

學習率：1e-5
優化器：AdamW
批量大小：64
權重衰減：0.001
訓練輪數：40

速度、大小、時間

平均每輪訓練時間：650秒
更新次數：約25k
最終訓練損失：0.09713
最終驗證損失：0.2142

image/png

評估

測試數據、因素和指標

測試數據：模型在TIMIT的測試集上進行評估。
指標：CER/PER（音素錯誤率）

結果

TIMIT測試集上的PER（音素錯誤率）：0.0416

環境影響

可以使用機器學習影響計算器（來自Lacoste等人（2019））估算碳排放。

硬件類型：Nvidia A100 - 80
使用時長：[需要更多信息]
雲服務提供商：波茲南工業大學
計算區域：波蘭
碳排放：[需要更多信息]

技術規格

模型架構和目標

Transformer模型 + CTC損失

計算基礎設施

硬件：2 x Nvidia A100 - 80
軟件：python 3.12，transformers 4.50.0，torch 2.6.0

引用

如果您在研究中使用LnNor數據集，請引用以下論文：

@article{magdalena2024lnnor,
  title={The LnNor Corpus: A spoken multilingual corpus of non-native and native Norwegian, English and Polish (Part 1)},
  author={Magdalena, Wrembel and Hwaszcz, Krzysztof and Agnieszka, Pludra and Ska{\l}ba, Anna and Weckwerth, Jaros{\l}aw and Walczak, Angelika and Sypia{\'n}ska, Jolanta and {\.Z}ychli{\'n}ski, Sylwiusz and Malarski, Kamil and K{\k{e}}dzierska, Hanna and others},
  year={2024},
  publisher={Adam Mickiewicz University}
}

@article{wrembel2024lnnor,
  title={The LnNor Corpus: A spoken multilingual corpus of non-native and native Norwegian, English and Polish--Part 2},
  author={Wrembel, Magdalena and Hwaszcz, Krzysztof and Pludra, Agnieszka and Ska{\l}ba, Anna and Weckwerth, Jaros{\l}aw and Malarski, Kamil and Cal, Zuzanna Ewa and K{\k{e}}dzierska, Hanna and Czarnecki-Verner, Tristan and Balas, Anna and others},
  year={2024},
  publisher={Adam Mickiewicz University}
}