🚀 越南語端到端語音識別(使用wav2vec 2.0)
本項目利用wav2vec 2.0技術實現越南語端到端語音識別,可有效處理越南語語音數據,在多個公開數據集上取得了良好的識別效果。
🚀 快速開始
當使用該模型時,請確保語音輸入採樣率為16Khz,且音頻長度短於10秒。點擊下面的Colab鏈接,使用CTC - wav2vec和4-gram語言模型的組合:

✨ 主要特性
📦 安裝指南
文檔未提供具體安裝步驟,暫不展示。
💻 使用示例
基礎用法
from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
from datasets import load_dataset
import soundfile as sf
import torch
processor = Wav2Vec2Processor.from_pretrained("nguyenvulebinh/wav2vec2-base-vietnamese-250h")
model = Wav2Vec2ForCTC.from_pretrained("nguyenvulebinh/wav2vec2-base-vietnamese-250h")
def map_to_array(batch):
speech, _ = sf.read(batch["file"])
batch["speech"] = speech
return batch
ds = map_to_array({
"file": 'audio-test/t1_0001-00010.wav'
})
input_values = processor(ds["speech"], return_tensors="pt", padding="longest").input_values
logits = model(input_values).logits
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)
📚 詳細文檔
模型描述
我們的模型在13000小時的越南語YouTube音頻(無標籤數據)上進行預訓練,並在250小時標註的VLSP ASR數據集上進行微調,語音音頻採樣率為16kHz。
我們使用wav2vec2架構作為預訓練模型。根據wav2vec2論文所述:
首次證明了僅從語音音頻中學習強大的表示,然後在轉錄語音上進行微調,能夠在概念上更簡單的同時,超越最佳的半監督方法。
在微調階段,wav2vec2使用連接主義時間分類(CTC)進行微調。CTC是一種用於訓練神經網絡解決序列到序列問題的算法,主要應用於自動語音識別和手寫識別。
模型 |
參數數量 |
預訓練數據 |
微調數據 |
基礎模型 |
95M |
13000小時 |
250小時 |
在正式的ASR系統中,需要兩個組件:聲學模型和語言模型。這裡經過微調的ctc - wav2vec模型作為聲學模型。對於語言模型,我們提供了一個在2GB口語文本上訓練的4-gram語言模型。
關於訓練和微調過程的詳細信息,讀者可以參考fairseq github和huggingface博客。
基準字錯率(WER)結果
模型參數許可證
ASR模型參數僅可用於非商業用途,遵循知識共享署名 - 非商業性使用4.0國際許可協議(CC BY - NC 4.0)。詳細信息請見:https://creativecommons.org/licenses/by-nc/4.0/legalcode
引用
如果本倉庫被用於幫助產生已發表的研究結果或被整合到其他軟件中,請引用我們的倉庫:
@misc{Thai_Binh_Nguyen_wav2vec2_vi_2021,
author = {Thai Binh Nguyen},
doi = {10.5281/zenodo.5356039},
month = {09},
title = {{Vietnamese end-to-end speech recognition using wav2vec 2.0}},
url = {https://github.com/vietai/ASR},
year = {2021}
}
🔧 技術細節
本項目使用wav2vec2架構進行預訓練,該架構能夠從原始語音音頻中學習強大的表示。在微調階段,採用連接主義時間分類(CTC)算法,該算法適用於序列到序列問題,在自動語音識別中表現出色。同時,為了提高識別效果,還提供了基於2GB口語文本訓練的4-gram語言模型。
📄 許可證
本項目遵循知識共享署名 - 非商業性使用4.0國際許可協議(CC BY - NC 4.0)。
聯繫我們
如有任何問題,請通過以下方式聯繫我們:
- 郵箱:nguyenvulebinh@gmail.com / binh@vietai.org
- 推特:
