lang-id-commonlanguage_ecapa開源語音語言識別模型

首頁

Lang Id Commonlanguage Ecapa

由speechbrain開發

一個使用ECAPA-TDNN架構的語音語言識別模型，支持45種語言的識別

音頻分類

PyTorch

支持多種語言開源協議:Apache-2.0 #多語言語音識別 #ECAPA-TDNN架構 #45種語言支持

下載量 190

發布時間 : 3/2/2022

模型概述

該系統採用ECAPA模型結合統計池化構成，頂部應用了分類器，能夠從短語音記錄中識別45種不同語言。

模型特點

多語言支持

支持45種不同語言的語音識別

ECAPA-TDNN架構

採用先進的ECAPA-TDNN模型結合統計池化，提高識別準確率

高準確率

在測試集上達到85%的準確率

模型能力

語音語言識別

多語言處理

短語音分析

使用案例

語音應用

多語言語音助手

識別用戶語音的語言類型，為多語言語音助手提供支持

準確識別45種語言

語音內容分類

對語音內容進行語言分類，用於內容管理和分發

🚀 使用ECAPA嵌入在通用語言上從語音記錄進行語言識別

本項目提供了使用SpeechBrain從語音記錄中進行語言識別所需的所有工具。該系統使用在CommonLanguage數據集（45種語言）上預訓練的模型，可從短語音記錄中識別45種語言。

🚀 快速開始

本倉庫提供了使用SpeechBrain從語音記錄中進行語言識別的必要工具。系統採用了在CommonLanguage數據集（涵蓋45種語言）上預訓練的模型。你可以在此下載該數據集。

此係統能夠從短語音記錄中識別以下45種語言：

阿拉伯語、巴斯克語、布列塔尼語、加泰羅尼亞語、中國大陸中文、中國香港中文、中國臺灣中文、楚瓦什語、捷克語、迪維希語、荷蘭語、英語、世界語、愛沙尼亞語、法語、弗裡西語、格魯吉亞語、德語、希臘語、欽族哈卡方言、印尼語、國際語、意大利語、日語、卡拜爾語、盧旺達語、吉爾吉斯語、拉脫維亞語、馬耳他語、蒙古語、波斯語、波蘭語、葡萄牙語、羅馬尼亞語、羅曼什語 - 蘇爾西爾萬方言、俄語、薩哈語、斯洛文尼亞語、西班牙語、瑞典語、泰米爾語、韃靼語、土耳其語、烏克蘭語、威爾士語

為獲得更好的體驗，建議你進一步瞭解SpeechBrain。該模型在測試集上的表現如下：

版本發佈日期	準確率 (%)
2021-06-30	85.0

✨ 主要特性

本系統由一個與統計池化相結合的ECAPA模型組成。在此基礎上應用了一個使用分類交叉熵損失訓練的分類器。

系統使用採樣率為16kHz（單聲道）的錄音進行訓練。調用classify_file時，代碼會自動對音頻進行歸一化處理（即重採樣和單聲道選擇）。若使用encode_batch和classify_batch，請確保輸入張量符合預期的採樣率。

📦 安裝指南

首先，請使用以下命令安裝SpeechBrain：

pip install speechbrain

建議你閱讀我們的教程，進一步瞭解SpeechBrain。

💻 使用示例

基礎用法

import torchaudio
from speechbrain.inference.classifiers import EncoderClassifier
classifier = EncoderClassifier.from_hparams(source="speechbrain/lang-id-commonlanguage_ecapa", savedir="pretrained_models/lang-id-commonlanguage_ecapa")
# 意大利語示例
out_prob, score, index, text_lab = classifier.classify_file('speechbrain/lang-id-commonlanguage_ecapa/example-it.wav')
print(text_lab)

# 法語示例
out_prob, score, index, text_lab = classifier.classify_file('speechbrain/lang-id-commonlanguage_ecapa/example-fr.wav')
print(text_lab)

高級用法

# 在GPU上進行推理
# 調用from_hparams方法時添加 `run_opts={"device":"cuda"}`
classifier = EncoderClassifier.from_hparams(source="speechbrain/lang-id-commonlanguage_ecapa", savedir="pretrained_models/lang-id-commonlanguage_ecapa", run_opts={"device":"cuda"})

🔧 技術細節

訓練步驟

該模型使用SpeechBrain（版本號：a02f860e）進行訓練。若要從頭開始訓練，請按以下步驟操作：

克隆SpeechBrain倉庫：

git clone https://github.com/speechbrain/speechbrain/

安裝依賴：

cd speechbrain
pip install -r requirements.txt
pip install -e .

運行訓練腳本：

cd recipes/CommonLanguage/lang_id
python train.py hparams/train_ecapa_tdnn.yaml --data_folder=your_data_folder

你可以在此找到我們的訓練結果（模型、日誌等）。

侷限性

SpeechBrain團隊不對該模型在其他數據集上的性能提供任何保證。

引用ECAPA

  author    = {Brecht Desplanques and
               Jenthe Thienpondt and
               Kris Demuynck},
  editor    = {Helen Meng and
               Bo Xu and
               Thomas Fang Zheng},
  title     = {{ECAPA-TDNN:} Emphasized Channel Attention, Propagation and Aggregation
               in {TDNN} Based Speaker Verification},
  booktitle = {Interspeech 2020},
  pages     = {3830--3834},
  publisher = {{ISCA}},
  year      = {2020},
}

📄 許可證

本項目採用Apache 2.0許可證。

📚 詳細文檔

引用SpeechBrain

如果你在研究或商業中使用了SpeechBrain，請引用以下文獻：

@misc{speechbrain,
  title={{SpeechBrain}: A General-Purpose Speech Toolkit},
  author={Mirco Ravanelli and Titouan Parcollet and Peter Plantinga and Aku Rouhe and Samuele Cornell and Loren Lugosch and Cem Subakan and Nauman Dawalatabad and Abdelwahab Heba and Jianyuan Zhong and Ju-Chieh Chou and Sung-Lin Yeh and Szu-Wei Fu and Chien-Feng Liao and Elena Rastorgueva and François Grondin and William Aris and Hwidong Na and Yan Gao and Renato De Mori and Yoshua Bengio},
  year={2021},
  eprint={2106.04624},
  archivePrefix={arXiv},
  primaryClass={eess.AS},
  note={arXiv:2106.04624}
}

信息表格

屬性	詳情
支持語言	阿拉伯語、巴斯克語、布列塔尼語等45種語言
模型類型	使用在CommonLanguage數據集上預訓練的ECAPA模型
訓練數據	CommonLanguage數據集、Urbansound8k
評估指標	準確率
許可證	Apache 2.0