🚀 使用ECAPA嵌入在通用語言上從語音記錄進行語言識別
本項目提供了使用SpeechBrain從語音記錄中進行語言識別所需的所有工具。該系統使用在CommonLanguage數據集(45種語言)上預訓練的模型,可從短語音記錄中識別45種語言。
🚀 快速開始
本倉庫提供了使用SpeechBrain從語音記錄中進行語言識別的必要工具。系統採用了在CommonLanguage數據集(涵蓋45種語言)上預訓練的模型。你可以在此下載該數據集。
此係統能夠從短語音記錄中識別以下45種語言:
阿拉伯語、巴斯克語、布列塔尼語、加泰羅尼亞語、中國大陸中文、中國香港中文、中國臺灣中文、楚瓦什語、捷克語、迪維希語、荷蘭語、英語、世界語、愛沙尼亞語、法語、弗裡西語、格魯吉亞語、德語、希臘語、欽族哈卡方言、印尼語、國際語、意大利語、日語、卡拜爾語、盧旺達語、吉爾吉斯語、拉脫維亞語、馬耳他語、蒙古語、波斯語、波蘭語、葡萄牙語、羅馬尼亞語、羅曼什語 - 蘇爾西爾萬方言、俄語、薩哈語、斯洛文尼亞語、西班牙語、瑞典語、泰米爾語、韃靼語、土耳其語、烏克蘭語、威爾士語
為獲得更好的體驗,建議你進一步瞭解SpeechBrain。該模型在測試集上的表現如下:
版本發佈日期 |
準確率 (%) |
2021-06-30 |
85.0 |
✨ 主要特性
本系統由一個與統計池化相結合的ECAPA模型組成。在此基礎上應用了一個使用分類交叉熵損失訓練的分類器。
系統使用採樣率為16kHz(單聲道)的錄音進行訓練。調用classify_file
時,代碼會自動對音頻進行歸一化處理(即重採樣和單聲道選擇)。若使用encode_batch
和classify_batch
,請確保輸入張量符合預期的採樣率。
📦 安裝指南
首先,請使用以下命令安裝SpeechBrain:
pip install speechbrain
建議你閱讀我們的教程,進一步瞭解SpeechBrain。
💻 使用示例
基礎用法
import torchaudio
from speechbrain.inference.classifiers import EncoderClassifier
classifier = EncoderClassifier.from_hparams(source="speechbrain/lang-id-commonlanguage_ecapa", savedir="pretrained_models/lang-id-commonlanguage_ecapa")
out_prob, score, index, text_lab = classifier.classify_file('speechbrain/lang-id-commonlanguage_ecapa/example-it.wav')
print(text_lab)
out_prob, score, index, text_lab = classifier.classify_file('speechbrain/lang-id-commonlanguage_ecapa/example-fr.wav')
print(text_lab)
高級用法
classifier = EncoderClassifier.from_hparams(source="speechbrain/lang-id-commonlanguage_ecapa", savedir="pretrained_models/lang-id-commonlanguage_ecapa", run_opts={"device":"cuda"})
🔧 技術細節
訓練步驟
該模型使用SpeechBrain(版本號:a02f860e)進行訓練。若要從頭開始訓練,請按以下步驟操作:
- 克隆SpeechBrain倉庫:
git clone https://github.com/speechbrain/speechbrain/
- 安裝依賴:
cd speechbrain
pip install -r requirements.txt
pip install -e .
- 運行訓練腳本:
cd recipes/CommonLanguage/lang_id
python train.py hparams/train_ecapa_tdnn.yaml --data_folder=your_data_folder
你可以在此找到我們的訓練結果(模型、日誌等)。
侷限性
SpeechBrain團隊不對該模型在其他數據集上的性能提供任何保證。
引用ECAPA
author = {Brecht Desplanques and
Jenthe Thienpondt and
Kris Demuynck},
editor = {Helen Meng and
Bo Xu and
Thomas Fang Zheng},
title = {{ECAPA-TDNN:} Emphasized Channel Attention, Propagation and Aggregation
in {TDNN} Based Speaker Verification},
booktitle = {Interspeech 2020},
pages = {3830--3834},
publisher = {{ISCA}},
year = {2020},
}
📄 許可證
本項目採用Apache 2.0許可證。
📚 詳細文檔
引用SpeechBrain
如果你在研究或商業中使用了SpeechBrain,請引用以下文獻:
@misc{speechbrain,
title={{SpeechBrain}: A General-Purpose Speech Toolkit},
author={Mirco Ravanelli and Titouan Parcollet and Peter Plantinga and Aku Rouhe and Samuele Cornell and Loren Lugosch and Cem Subakan and Nauman Dawalatabad and Abdelwahab Heba and Jianyuan Zhong and Ju-Chieh Chou and Sung-Lin Yeh and Szu-Wei Fu and Chien-Feng Liao and Elena Rastorgueva and François Grondin and William Aris and Hwidong Na and Yan Gao and Renato De Mori and Yoshua Bengio},
year={2021},
eprint={2106.04624},
archivePrefix={arXiv},
primaryClass={eess.AS},
note={arXiv:2106.04624}
}
信息表格
屬性 |
詳情 |
支持語言 |
阿拉伯語、巴斯克語、布列塔尼語等45種語言 |
模型類型 |
使用在CommonLanguage數據集上預訓練的ECAPA模型 |
訓練數據 |
CommonLanguage數據集、Urbansound8k |
評估指標 |
準確率 |
許可證 |
Apache 2.0 |