🚀 SpeechT5 (ASR任務)
SpeechT5模型針對LibriSpeech數據集進行了微調,可用於自動語音識別(語音轉文本)任務。該模型能夠高效準確地將語音信號轉換為文本,為語音處理領域提供了強大的工具。
🚀 快速開始
使用以下代碼將單聲道16kHz的語音波形轉換為文本:
from transformers import SpeechT5Processor, SpeechT5ForSpeechToText
from datasets import load_dataset
dataset = load_dataset("hf-internal-testing/librispeech_asr_demo", "clean", split="validation")
dataset = dataset.sort("id")
sampling_rate = dataset.features["audio"].sampling_rate
example_speech = dataset[0]["audio"]["array"]
processor = SpeechT5Processor.from_pretrained("microsoft/speecht5_asr")
model = SpeechT5ForSpeechToText.from_pretrained("microsoft/speecht5_asr")
inputs = processor(audio=example_speech, sampling_rate=sampling_rate, return_tensors="pt")
predicted_ids = model.generate(**inputs, max_length=100)
transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)
print(transcription[0])
✨ 主要特性
- 統一模態框架:受T5(Text-To-Text Transfer Transformer)在預訓練自然語言處理模型中成功的啟發,提出了統一模態的SpeechT5框架,探索了用於自監督語音/文本表示學習的編碼器 - 解碼器預訓練方法。
- 跨模態向量量化:為了將文本和語音信息對齊到統一的語義空間,提出了一種跨模態向量量化方法,該方法將語音/文本狀態與潛在單元隨機混合,作為編碼器和解碼器之間的接口。
- 多任務優越性:在各種口語語言處理任務中表現出優越性,包括自動語音識別、語音合成、語音翻譯、語音轉換、語音增強和說話人識別。
📚 詳細文檔
模型描述
受T5(Text-To-Text Transfer Transformer)在預訓練自然語言處理模型中取得成功的啟發,我們提出了一個統一模態的SpeechT5框架,用於探索編碼器 - 解碼器預訓練,以進行自監督語音/文本表示學習。SpeechT5框架由一個共享的編碼器 - 解碼器網絡和六個特定模態(語音/文本)的預/後網絡組成。在通過預網絡對輸入的語音/文本進行預處理後,共享的編碼器 - 解碼器網絡對序列到序列的轉換進行建模,然後後網絡根據解碼器的輸出以語音/文本模態生成輸出。
利用大規模的無標籤語音和文本數據,我們對SpeechT5進行預訓練,以學習統一模態的表示,希望提高對語音和文本的建模能力。為了將文本和語音信息對齊到這個統一的語義空間,我們提出了一種跨模態向量量化方法,該方法將語音/文本狀態與潛在單元隨機混合,作為編碼器和解碼器之間的接口。
大量評估表明,所提出的SpeechT5框架在各種口語語言處理任務中具有優越性,包括自動語音識別、語音合成、語音翻譯、語音轉換、語音增強和說話人識別。
預期用途與限制
你可以使用此模型進行自動語音識別。請參閱模型中心,查找針對你感興趣的任務進行微調的版本。目前,特徵提取器和模型均支持PyTorch。
引用信息
此模型在論文 SpeechT5: Unified-Modal Encoder-Decoder Pre-Training for Spoken Language Processing 中被提出,作者包括Junyi Ao、Rui Wang、Long Zhou、Chengyi Wang、Shuo Ren、Yu Wu、Shujie Liu、Tom Ko、Qing Li、Yu Zhang、Zhihua Wei、Yao Qian、Jinyu Li、Furu Wei。
BibTeX引用格式:
@inproceedings{ao-etal-2022-speecht5,
title = {{S}peech{T}5: Unified-Modal Encoder-Decoder Pre-Training for Spoken Language Processing},
author = {Ao, Junyi and Wang, Rui and Zhou, Long and Wang, Chengyi and Ren, Shuo and Wu, Yu and Liu, Shujie and Ko, Tom and Li, Qing and Zhang, Yu and Wei, Zhihua and Qian, Yao and Li, Jinyu and Wei, Furu},
booktitle = {Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)},
month = {May},
year = {2022},
pages={5723--5738},
}
免責聲明
發佈SpeechT5的團隊沒有為此模型編寫模型卡片,因此此模型卡片由Hugging Face團隊編寫。
模型來源與許可
SpeechT5首次發佈於 此倉庫,原始權重。使用的許可證是 MIT。
屬性 |
詳情 |
模型類型 |
用於自動語音識別的微調SpeechT5模型 |
訓練數據 |
LibriSpeech |
許可證 |
MIT |
標籤 |
音頻、自動語音識別 |