wav2vec2-xls-r-300m-timit-phoneme开源模型 - 精准实现英语语音音素级别识别

首页

Wav2vec2 Xls R 300m Timit Phoneme

由 vitouphy 开发

这是一个基于facebook/wav2vec2-xls-r-300m模型在TIMIT数据集上微调的自动音素识别模型，主要用于英语语音的音素级别识别。

语音识别

Transformers

英语开源协议:Apache-2.0 #英语音素识别 #低CER准确率 #TIMIT数据集

下载量 8,457

发布时间 : 5/8/2022

模型简介

该模型专门用于英语语音的音素识别任务，在TIMIT数据集上训练，能够将语音信号转换为对应的音素序列。

模型特点

高精度音素识别

在TIMIT测试集上达到7.996%的字符错误率(CER)

基于大规模预训练模型

基于facebook/wav2vec2-xls-r-300m模型微调，继承了其强大的语音特征提取能力

端到端处理能力

可以直接处理原始音频输入，无需复杂的预处理步骤

模型能力

英语音素识别

语音信号处理

端到端语音识别

使用案例

语音学研究

音素分析

用于语音学研究中分析发音特征和音素分布

语音识别系统开发

语音识别前端

作为语音识别系统的音素识别组件

🚀 语音识别模型 wav2vec2-xls-r-300m-phoneme

本模型是一个基于自动语音识别技术的模型，它在Timit数据集上对 facebook/wav2vec2-xls-r-300m 进行了微调，能够高效准确地实现语音识别功能。

🚀 快速开始

本模型是 facebook/wav2vec2-xls-r-300m 在Timit数据集上的微调版本。查看此笔记本以了解训练细节。

💻 使用示例

基础用法

使用HuggingFace的pipeline，这将涵盖从原始音频输入到文本输出的端到端处理。

from transformers import pipeline

# Load the model
pipe = pipeline(model="vitouphy/wav2vec2-xls-r-300m-timit-phoneme")
# Process raw audio
output = pipe("audio_file.wav", chunk_length_s=10, stride_length_s=(4, 2))

高级用法

更自定义的方式来预测音素。

from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC 
from datasets import load_dataset
import torch
import soundfile as sf

# load model and processor
processor = Wav2Vec2Processor.from_pretrained("vitouphy/wav2vec2-xls-r-300m-timit-phoneme")
model = Wav2Vec2ForCTC.from_pretrained("vitouphy/wav2vec2-xls-r-300m-timit-phoneme")

# Read and process the input
audio_input, sample_rate = sf.read("audio_file.wav")
inputs = processor(audio_input, sampling_rate=16_000, return_tensors="pt", padding=True)

with torch.no_grad():
    logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits

# Decode id into string
predicted_ids = torch.argmax(logits, axis=-1)      
predicted_sentences = processor.batch_decode(predicted_ids)
print(predicted_sentences)

📚 详细文档

训练和评估数据

我们使用 DARPA TIMIT数据集来训练这个模型。

我们将数据集分别按 80/10/10 的比例划分为训练集、验证集和测试集。
这大致对应于约 137/17/17 分钟的音频数据。
该模型在测试集上的字符错误率（CER）为 7.996%。

训练过程

训练超参数

训练期间使用了以下超参数：

学习率：3e-05
训练批次大小：8
评估批次大小：8
随机种子：42
梯度累积步数：4
总训练批次大小：32
优化器：Adam（β1=0.9，β2=0.999，ε=1e-08）
学习率调度器类型：线性
学习率调度器热身步数：2000
训练步数：10000
混合精度训练：Native AMP

框架版本

Transformers 4.17.0.dev0
Pytorch 1.10.2+cu102
Datasets 1.18.2.dev0
Tokenizers 0.11.0

引用

@misc { phy22-phoneme,
  author       = {Phy, Vitou},
  title        = {{Automatic Phoneme Recognition on TIMIT Dataset with Wav2Vec 2.0}},
  year         = 2022,
  note         = {{If you use this model, please cite it using these metadata.}},
  publisher    = {Hugging Face},
  version      = {1.0},
  doi          = {10.57967/hf/0125},
  url          = {https://huggingface.co/vitouphy/wav2vec2-xls-r-300m-timit-phoneme}
}