🚀 SpeechT5 (ASR任务)
SpeechT5模型针对LibriSpeech数据集进行了微调,可用于自动语音识别(语音转文本)任务。该模型能够高效准确地将语音信号转换为文本,为语音处理领域提供了强大的工具。
🚀 快速开始
使用以下代码将单声道16kHz的语音波形转换为文本:
from transformers import SpeechT5Processor, SpeechT5ForSpeechToText
from datasets import load_dataset
dataset = load_dataset("hf-internal-testing/librispeech_asr_demo", "clean", split="validation")
dataset = dataset.sort("id")
sampling_rate = dataset.features["audio"].sampling_rate
example_speech = dataset[0]["audio"]["array"]
processor = SpeechT5Processor.from_pretrained("microsoft/speecht5_asr")
model = SpeechT5ForSpeechToText.from_pretrained("microsoft/speecht5_asr")
inputs = processor(audio=example_speech, sampling_rate=sampling_rate, return_tensors="pt")
predicted_ids = model.generate(**inputs, max_length=100)
transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)
print(transcription[0])
✨ 主要特性
- 统一模态框架:受T5(Text-To-Text Transfer Transformer)在预训练自然语言处理模型中成功的启发,提出了统一模态的SpeechT5框架,探索了用于自监督语音/文本表示学习的编码器 - 解码器预训练方法。
- 跨模态向量量化:为了将文本和语音信息对齐到统一的语义空间,提出了一种跨模态向量量化方法,该方法将语音/文本状态与潜在单元随机混合,作为编码器和解码器之间的接口。
- 多任务优越性:在各种口语语言处理任务中表现出优越性,包括自动语音识别、语音合成、语音翻译、语音转换、语音增强和说话人识别。
📚 详细文档
模型描述
受T5(Text-To-Text Transfer Transformer)在预训练自然语言处理模型中取得成功的启发,我们提出了一个统一模态的SpeechT5框架,用于探索编码器 - 解码器预训练,以进行自监督语音/文本表示学习。SpeechT5框架由一个共享的编码器 - 解码器网络和六个特定模态(语音/文本)的预/后网络组成。在通过预网络对输入的语音/文本进行预处理后,共享的编码器 - 解码器网络对序列到序列的转换进行建模,然后后网络根据解码器的输出以语音/文本模态生成输出。
利用大规模的无标签语音和文本数据,我们对SpeechT5进行预训练,以学习统一模态的表示,希望提高对语音和文本的建模能力。为了将文本和语音信息对齐到这个统一的语义空间,我们提出了一种跨模态向量量化方法,该方法将语音/文本状态与潜在单元随机混合,作为编码器和解码器之间的接口。
大量评估表明,所提出的SpeechT5框架在各种口语语言处理任务中具有优越性,包括自动语音识别、语音合成、语音翻译、语音转换、语音增强和说话人识别。
预期用途与限制
你可以使用此模型进行自动语音识别。请参阅模型中心,查找针对你感兴趣的任务进行微调的版本。目前,特征提取器和模型均支持PyTorch。
引用信息
此模型在论文 SpeechT5: Unified-Modal Encoder-Decoder Pre-Training for Spoken Language Processing 中被提出,作者包括Junyi Ao、Rui Wang、Long Zhou、Chengyi Wang、Shuo Ren、Yu Wu、Shujie Liu、Tom Ko、Qing Li、Yu Zhang、Zhihua Wei、Yao Qian、Jinyu Li、Furu Wei。
BibTeX引用格式:
@inproceedings{ao-etal-2022-speecht5,
title = {{S}peech{T}5: Unified-Modal Encoder-Decoder Pre-Training for Spoken Language Processing},
author = {Ao, Junyi and Wang, Rui and Zhou, Long and Wang, Chengyi and Ren, Shuo and Wu, Yu and Liu, Shujie and Ko, Tom and Li, Qing and Zhang, Yu and Wei, Zhihua and Qian, Yao and Li, Jinyu and Wei, Furu},
booktitle = {Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)},
month = {May},
year = {2022},
pages={5723--5738},
}
免责声明
发布SpeechT5的团队没有为此模型编写模型卡片,因此此模型卡片由Hugging Face团队编写。
模型来源与许可
SpeechT5首次发布于 此仓库,原始权重。使用的许可证是 MIT。
属性 |
详情 |
模型类型 |
用于自动语音识别的微调SpeechT5模型 |
训练数据 |
LibriSpeech |
许可证 |
MIT |
标签 |
音频、自动语音识别 |