sew-tiny-100k-ft-ls100h開源語音識別模型 - 高效精準優於wav2vec 2.0

首頁

Sew Tiny 100k Ft Ls100h

由asapp開發

SEW（壓縮高效版Wav2vec）是由ASAPP Research開發的語音識別預訓練模型，在性能和效率上優於wav2vec 2.0

語音識別

Transformers

支持多種語言開源協議:Apache-2.0 #高效語音識別 #低資源微調 #16kHz音頻處理

下載量 736

發布時間 : 3/2/2022

模型概述

基於16kHz採樣語音音頻預訓練的語音識別模型，需在下游任務上微調使用

模型特點

高效性能

相比wav2vec 2.0實現1.9倍推理加速，詞錯誤率降低13.5%

壓縮架構

優化的模型架構在保持性能的同時減少計算資源需求

多任務適配

可通過微調應用於ASR、說話人識別、意圖分類等多種語音任務

模型能力

語音識別

語音轉文本

音頻特徵提取

使用案例

語音轉錄

LibriSpeech語音轉錄

將英文有聲讀物內容轉錄為文本

在LibriSpeech clean測試集上WER 10.61，other測試集上WER 23.74

語音應用開發

語音助手

作為語音助手的語音識別組件

🚀 SEW-tiny

SEW-tiny是基於16kHz採樣語音音頻預訓練的基礎模型。該模型可用於自動語音識別、說話人識別、意圖分類、情感識別等下游任務。使用模型時，請確保輸入的語音也是16kHz採樣的。

🚀 快速開始

本模型基於 SEW by ASAPP Research 開發。相關論文為 Performance-Efficiency Trade-offs in Unsupervised Pre-training for Speech Recognition，作者包括 Felix Wu、Kwangyoun Kim、Jing Pan、Kyu Han、Kilian Q. Weinberger、Yoav Artzi。

摘要：本文研究了自動語音識別（ASR）預訓練模型中的性能 - 效率權衡問題。聚焦於wav2vec 2.0，我們對影響模型性能和效率的幾種架構設計進行了形式化。綜合所有觀察結果，我們推出了SEW（Squeezed and Efficient Wav2vec），這是一種預訓練模型架構，在各種訓練設置下，在性能和效率方面都有顯著提升。例如，在LibriSpeech的100h - 960h半監督設置下，與wav2vec 2.0相比，SEW的推理速度提高了1.9倍，單詞錯誤率相對降低了13.5%。在推理時間相近的情況下，SEW在不同模型規模下將單詞錯誤率降低了25 - 50%。

原始模型可在 https://github.com/asappresearch/sew#model-checkpoints 找到。

✨ 主要特性

適用音頻格式：適用於16kHz採樣的語音音頻。
下游任務廣泛：可用於自動語音識別、說話人識別、意圖分類、情感識別等下游任務。
性能與效率提升：在性能和效率方面相較於wav2vec 2.0有顯著提升。

📦 安裝指南

文檔中未提及具體安裝步驟，可參考相關依賴庫的安裝方式，如 transformers、datasets、soundfile、torch、jiwer 等。

💻 使用示例

基礎用法

以下代碼展示瞭如何將該模型作為獨立的聲學模型來轉錄音頻文件：

from transformers import Wav2Vec2Processor, SEWForCTC
from datasets import load_dataset
import soundfile as sf
import torch
 
# 加載模型和預處理器
processor = Wav2Vec2Processor.from_pretrained("asapp/sew-tiny-100k-ft-ls100h")
model = SEWForCTC.from_pretrained("asapp/sew-tiny-100k-ft-ls100h")

# 加載包含語音樣本的虛擬數據集
ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
 
# 預處理
input_values = processor(ds[0]["audio"]["array"], return_tensors="pt").input_values  # 批量大小為1

# 獲取對數概率
logits = model(input_values).logits
 
# 取最大值並解碼
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)

高級用法

以下代碼展示瞭如何在LibriSpeech的“clean”和“other”測試數據上評估 asapp/sew-tiny-100k-ft-ls100h 模型：

from datasets import load_dataset
from transformers import SEWForCTC, Wav2Vec2Processor
import torch
from jiwer import wer

librispeech_eval = load_dataset("librispeech_asr", "clean", split="test")

model = SEWForCTC.from_pretrained("asapp/sew-tiny-100k-ft-ls100h").to("cuda")
processor = Wav2Vec2Processor.from_pretrained("asapp/sew-tiny-100k-ft-ls100h")

def map_to_pred(batch):
    input_values = processor(batch["audio"][0]["array"], sampling_rate=16000, 
                             return_tensors="pt", padding="longest").input_values
    with torch.no_grad():
        logits = model(input_values.to("cuda")).logits

    predicted_ids = torch.argmax(logits, dim=-1)
    transcription = processor.batch_decode(predicted_ids)
    batch["transcription"] = transcription
    return batch

result = librispeech_eval.map(map_to_pred, batched=True, batch_size=1, remove_columns=["audio"])

print("WER:", wer(result["text"], result["transcription"]))

📚 詳細文檔

數據集：使用了 librispeech_asr 數據集。
評估指標：使用單詞錯誤率（WER）進行評估。

🔧 技術細節

本文聚焦於wav2vec 2.0，對影響模型性能和效率的幾種架構設計進行了形式化。推出的SEW模型在各種訓練設置下，在性能和效率方面都有顯著提升。例如，在LibriSpeech的100h - 960h半監督設置下，與wav2vec 2.0相比，SEW的推理速度提高了1.9倍，單詞錯誤率相對降低了13.5%。在推理時間相近的情況下，SEW在不同模型規模下將單詞錯誤率降低了25 - 50%。