wav2vec2-large-xlsr-53-sw開源模型 - 支持16kHz語音的斯瓦希里語自動識別

首頁

Wav2vec2 Large Xlsr 53 Sw

由alokmatta開發

基於XLSR-53大模型微調的斯瓦希里語自動語音識別模型，支持16kHz採樣率語音輸入

語音識別其他開源協議:Apache-2.0 #斯瓦希里語語音識別 #低資源語音處理 #XLSR微調模型

下載量 158

發布時間 : 3/2/2022

模型概述

該模型是基於Facebook的wav2vec2-large-xlsr-53模型在斯瓦希里語數據集上微調的自動語音識別(ASR)模型，可用於將斯瓦希里語語音轉換為文本。

模型特點

多數據集微調

在ALFFA、Gamayun和IWSLT三個斯瓦希里語數據集上進行微調，提高識別準確率

16kHz採樣率支持

專門針對16kHz採樣率的語音輸入進行優化

無需語言模型

可直接使用，無需額外語言模型支持

模型能力

斯瓦希里語語音識別

語音轉文本

自動語音轉錄

使用案例

語音轉錄

斯瓦希里語語音轉錄

將斯瓦希里語語音內容轉換為文本格式

測試WER為40%

語音助手

斯瓦希里語語音交互

為斯瓦希里語語音助手提供語音識別能力

🚀 斯瓦希里語Wav2Vec2-Large-XLSR-53模型

本項目是在斯瓦希里語數據集上對 facebook/wav2vec2-large-xlsr-53 模型進行微調得到的語音識別模型，可有效處理斯瓦希里語語音數據，為斯瓦希里語的自動語音識別提供解決方案。

🚀 快速開始

使用此模型時，請確保輸入的語音採樣率為 16kHz。

✨ 主要特性

多數據集訓練：使用了多個斯瓦希里語數據集進行訓練，包括 ALFFA、Gamayun 和 IWSLT，保證了模型的泛化能力。
高精度識別：在測試集上取得了 40% 的字錯率（WER），具有較高的識別精度。

📦 安裝指南

文檔未提及安裝步驟，暫不展示。

💻 使用示例

基礎用法

import torch
import torchaudio
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

processor = Wav2Vec2Processor.from_pretrained("alokmatta/wav2vec2-large-xlsr-53-sw")

model = Wav2Vec2ForCTC.from_pretrained("alokmatta/wav2vec2-large-xlsr-53-sw").to("cuda")

resampler = torchaudio.transforms.Resample(48_000, 16_000)

resampler = torchaudio.transforms.Resample(orig_freq=48_000, new_freq=16_000)

def load_file_to_data(file):
    batch = {}
    speech, _ = torchaudio.load(file)
    batch["speech"] = resampler.forward(speech.squeeze(0)).numpy()
    batch["sampling_rate"] = resampler.new_freq
    return batch

def predict(data):
    features = processor(data["speech"], sampling_rate=data["sampling_rate"], padding=True, return_tensors="pt")
    input_values = features.input_values.to("cuda")
    attention_mask = features.attention_mask.to("cuda")
    with torch.no_grad():
        logits = model(input_values, attention_mask=attention_mask).logits
    pred_ids = torch.argmax(logits, dim=-1)
    return processor.batch_decode(pred_ids)

predict(load_file_to_data('./demo.wav'))

高級用法

文檔未提及高級用法示例，暫不展示。

📚 詳細文檔

屬性	詳情
模型類型	斯瓦希里語 XLSR - 53 Wav2Vec2.0 大模型
訓練數據	ALFFA、Gamayun 和 IWSLT 數據集
評估指標	字錯率（WER）
標籤	音頻、自動語音識別、語音、xlsr - 微調周