wav2vec2-large-voxrex-swedish-4gram開源模型 - 免費實現瑞典語自動語音識別

首頁

Wav2vec2 Large Voxrex Swedish 4gram

由viktor-enzell開發

這是一個用於瑞典語自動語音識別(ASR)的模型，結合了VoxRex-C聲學模型和基於社交媒體數據的4-gram語言模型。

語音識別

Transformers

其他#瑞典語語音識別 #低詞錯誤率 #社交媒體文本優化

下載量 5,891

發布時間 : 5/26/2022

模型概述

該模型通過添加基於瑞典文化組學十億詞庫的4-gram語言模型來增強VoxRex-C聲學模型的性能，專門用於瑞典語語音識別任務。

模型特點

增強的語言模型

結合了基於4000萬社交媒體詞彙的4-gram語言模型，顯著提升識別準確率

高性能

在公共語音6.1測試集上達到6.47%的詞錯誤率

預訓練聲學模型

基於VoxRex-C預訓練模型，具有優秀的聲學特徵提取能力

模型能力

瑞典語語音識別

音頻轉錄

16kHz音頻處理

使用案例

語音轉錄

社交媒體音頻轉錄

將社交媒體平臺上的瑞典語語音內容轉換為文本

適合處理非正式口語表達

語音助手

用於瑞典語語音助手應用的語音識別組件

高準確率的語音指令識別

🚀 KBLab的wav2vec 2.0大模型VoxRex瑞典語（C）搭配4-gram模型

本聲學模型由KBLab訓練而成。更多詳情請見 VoxRex-C。本倉庫在此聲學模型基礎上，引入社交媒體4-gram語言模型，以提升性能。

🚀 快速開始

本模型可用於瑞典語的自動語音識別任務，通過結合聲學模型和4-gram語言模型，能有效提升識別準確率。

✨ 主要特性

基於KBLab訓練的聲學模型VoxRex-C。
引入社交媒體4-gram語言模型，提升識別性能。
可用於瑞典語的自動語音識別任務。

📦 安裝指南

文檔未提及具體安裝步驟，可參考transformers庫的安裝方式：

pip install transformers

💻 使用示例

基礎用法

以下是使用pipeline的簡單示例：

import torch
from transformers import pipeline

# 加載模型。若有可用GPU則使用GPU
model_name = 'viktor-enzell/wav2vec2-large-voxrex-swedish-4gram'
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
pipe = pipeline(model=model_name).to(device)

# 對音頻文件進行推理
output = pipe('path/to/audio.mp3')['text']

高級用法

以下是對Common Voice測試集的1%進行轉錄的示例。模型期望輸入的音頻採樣率為16kHz，因此會將其他採樣率的音頻重採樣至16kHz。

from transformers import Wav2Vec2ForCTC, Wav2Vec2ProcessorWithLM
from datasets import load_dataset
import torch
import torchaudio.functional as F

# 導入模型和處理器。若有可用GPU則使用GPU
model_name = 'viktor-enzell/wav2vec2-large-voxrex-swedish-4gram'
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
model = Wav2Vec2ForCTC.from_pretrained(model_name).to(device);
processor = Wav2Vec2ProcessorWithLM.from_pretrained(model_name)

# 導入並處理語音數據 
common_voice = load_dataset('common_voice', 'sv-SE', split='test[:1%]')

def speech_file_to_array(sample):
    # 將語音文件轉換為數組並下采樣至16 kHz
    sampling_rate = sample['audio']['sampling_rate']
    sample['speech'] = F.resample(torch.tensor(sample['audio']['array']), sampling_rate, 16_000)
    return sample

common_voice = common_voice.map(speech_file_to_array)

# 進行推理
inputs = processor(common_voice['speech'], sampling_rate=16_000, return_tensors='pt', padding=True).to(device)

with torch.no_grad():
    logits = model(**inputs).logits

transcripts = processor.batch_decode(logits.cpu().numpy()).text

📚 詳細文檔

模型描述

VoxRex-C模型通過從瑞典文化計量學千兆詞料庫（Språkbanken提供）中提取的子集來估計4-gram語言模型。該子集包含2010年至2015年間社交媒體領域的4000萬個單詞。

訓練過程

n-gram模型的文本數據會進行預處理，移除不在wav2vec 2.0詞彙表中的字符，並將所有字符轉換為大寫。預處理完成後，將每個文本樣本存儲在文本文件的新行中，然後使用KenLM模型進行估計。更多詳情請見此教程。

評估結果

該模型在Common Voice測試集完整版6.1上進行了評估。VoxRex-C在未使用語言模型時的字錯率（WER）為9.03%，使用語言模型後降至6.47%。

📄 許可證

本模型採用CC0-1.0許可證。

信息表格

屬性	詳情
模型類型	wav2vec 2.0大模型VoxRex瑞典語（C）搭配4-gram模型
訓練數據	Common Voice、NST瑞典語ASR數據庫、P4、瑞典文化計量學千兆詞料庫
評估指標	字錯率（WER）
評估數據集	Common Voice測試集6.1版本
無語言模型WER	9.03%
有語言模型WER	6.47%