🚀 NVIDIA Conformer-Transducer Large (ca-es)
本项目的 "stt_ca-es_conformer_transducer_large" 声学模型,基于 "NVIDIA/stt_es_conformer_transducer_large" 构建,适用于加泰罗尼亚语 - 西班牙语双语的自动语音识别任务,为相关语音处理场景提供了有效的解决方案。
🚀 快速开始
安装
若要使用此模型,需安装 NVIDIA NeMo。建议在安装最新版本的 PyTorch 之后再进行安装:
pip install nemo_toolkit['all']
推理示例
若要使用此模型转录加泰罗尼亚语或西班牙语的音频,可参考以下示例:
import nemo.collections.asr as nemo_asr
nemo_asr_model = nemo_asr.models.EncDecRNNTBPEModel.restore_from(model)
transcription = nemo_asr_model.transcribe([audio_path])[0].text
print(transcription)
✨ 主要特性
- 双语支持:能够对加泰罗尼亚语和西班牙语进行自动语音识别。
- 模型规模:属于 Conformer - Transducer 的 “大型” 变体,约有 1.2 亿个参数。
- 转录能力:可将加泰罗尼亚语和西班牙语的音频文件转录为无标点的纯文本。
📦 安装指南
要使用该模型,需安装 NVIDIA NeMo。建议先安装最新版本的 PyTorch,再执行以下安装命令:
pip install nemo_toolkit['all']
💻 使用示例
基础用法
import nemo.collections.asr as nemo_asr
nemo_asr_model = nemo_asr.models.EncDecRNNTBPEModel.restore_from(model)
transcription = nemo_asr_model.transcribe([audio_path])[0].text
print(transcription)
📚 详细文档
模型描述
该模型可将语音转录为小写的加泰罗尼亚语和西班牙语字母,包括空格。它在一个包含 7426 小时的加泰罗尼亚语 - 西班牙语双语数据集上进行了微调。如需了解完整的架构细节,请参阅 模型架构 部分和 NeMo 文档。
预期用途和限制
此模型可用于加泰罗尼亚语和西班牙语的自动语音识别(ASR),旨在将加泰罗尼亚语和西班牙语的音频文件转录为无标点的纯文本。
训练详情
训练数据
该模型在加泰罗尼亚语和西班牙语的双语数据集上进行训练,总计约 7000 小时,包括:
训练过程
该模型是在基础模型 "Nvidia/stt_es_conformer_transducer_large" 上进行微调得到的,微调过程参考了此 教程。
引用
如果该模型对您的研究有帮助,请引用以下内容:
@misc{conformer-transducer-BSC-2024,
title={Bilingual ca-es ASR Model: stt_ca-es_conformer_transducer_large.},
author={Messaoudi, Abir; Külebi, Baybars},
organization={Barcelona Supercomputing Center},
url={https://huggingface.co/projecte-aina/stt_ca-es_conformer_transducer_large},
year={2024}
}
附加信息
作者
微调过程于 2024 年由 Abir Messaoudi 在 巴塞罗那超级计算中心 的 语言技术部门 完成。
在加泰罗尼亚语瓦伦西亚方言数据方面,我们得到了 CENID 在 ILENIA 项目框架内的合作支持。
联系方式
如需进一步信息,请发送电子邮件至 langtech@bsc.es。
版权
版权所有 (c) 2024,巴塞罗那超级计算中心语言技术部门。
许可证
CC - BY - 4.0
资金支持
这项工作由 Ministerio para la Transformación Digital y de la Función Pública 资助,资金来源于欧盟的 NextGenerationEU 计划,项目编号为 2022/TL22/00215337。
模型的训练得益于 巴塞罗那超级计算中心 通过 MareNostrum 5 提供的计算时间。
📄 许可证
本项目采用 CC - BY - 4.0 许可证。