🚀 吉爾吉斯語版UniSpeech-Large-plus
吉爾吉斯語版的UniSpeech-Large-plus是基於語音音頻和音素標籤預訓練的大模型,它在1小時的吉爾吉斯語音素數據上進行了微調。該模型能夠有效處理語音識別任務,為吉爾吉斯語的語音處理提供了強大的支持。
🚀 快速開始
本模型是在音素分類任務上進行微調的語音模型。在使用該模型時,請確保輸入的語音採樣率為16kHz,並將文本轉換為音素序列。
✨ 主要特性
- 基於Microsoft's UniSpeech架構,結合了有標籤和無標籤數據進行統一預訓練。
- 在公開的CommonVoice語料庫上進行跨語言表示學習,實驗結果表明,相比自監督預訓練和監督遷移學習,該模型在語音識別任務上分別最多可降低13.4%和17.8%的相對音素錯誤率(所有測試語言的平均值)。
- 在領域轉移語音識別任務中也表現出良好的可遷移性,相對詞錯誤率比之前的方法降低了6%。
📚 詳細文檔
論文信息
- 標題:UniSpeech: Unified Speech Representation Learning with Labeled and Unlabeled Data
- 作者:Chengyi Wang, Yu Wu, Yao Qian, Kenichi Kumatani, Shujie Liu, Furu Wei, Michael Zeng, Xuedong Huang
- 摘要:在本文中,我們提出了一種名為UniSpeech的統一預訓練方法,用於利用有標籤和無標籤數據學習語音表示。在該方法中,監督音素CTC學習和音素感知對比自監督學習以多任務學習的方式進行。學習得到的表示能夠捕獲與音素結構更相關的信息,並提高跨語言和跨領域的泛化能力。我們在公共CommonVoice語料庫上評估了UniSpeech在跨語言表示學習中的有效性。結果表明,對於語音識別任務,UniSpeech相對於自監督預訓練和監督遷移學習,分別最多可降低13.4%和17.8%的相對音素錯誤率(所有測試語言的平均值)。在領域轉移語音識別任務中,也證明了UniSpeech的可遷移性,即相對於之前的方法,相對詞錯誤率降低了6%。
模型信息
屬性 |
詳情 |
模型類型 |
語音識別模型,在音素分類任務上微調 |
訓練數據 |
16kHz採樣的語音音頻和音素標籤,在1小時的吉爾吉斯語音素數據上微調 |
原模型地址
原模型可在https://github.com/microsoft/UniSpeech/tree/main/UniSpeech找到。
💻 使用示例
基礎用法
import torch
from datasets import load_dataset
from transformers import AutoModelForCTC, AutoProcessor
import torchaudio.functional as F
model_id = "microsoft/unispeech-1350-en-17h-ky-ft-1h"
sample = next(iter(load_dataset("common_voice", "ky", split="test", streaming=True)))
resampled_audio = F.resample(torch.tensor(sample["audio"]["array"]), 48_000, 16_000).numpy()
model = AutoModelForCTC.from_pretrained(model_id)
processor = AutoProcessor.from_pretrained(model_id)
input_values = processor(resampled_audio, return_tensors="pt").input_values
with torch.no_grad():
logits = model(input_values).logits
prediction_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(prediction_ids)
🤝 貢獻者
該模型由cywang和patrickvonplaten貢獻。
📄 許可證
官方許可證可在這裡找到。
📊 官方結果
查看 UniSpeeech-L^{+} - ky 的結果:
