wav2vec2-large-slavic-parlaspeech-hr開源系統 - 助力克羅地亞議會語音自動識別

首頁

Wav2vec2 Large Slavic Parlaspeech Hr

由classla開發

這是一個基於斯拉夫語系預訓練模型的克羅地亞語自動語音識別系統，專門針對議會語音場景優化

語音識別

Transformers

其他#克羅地亞語語音識別 #議會場景優化 #斯拉夫語系預訓練

下載量 5,768

發布時間 : 4/28/2022

模型概述

該模型基於facebook/wav2vec2-large-slavic-voxpopuli-v2預訓練模型，使用300小時的克羅地亞議會語音數據集ParlaSpeech-HR v1.0微調而成，專門用於克羅地亞議會場景的語音識別任務

模型特點

斯拉夫語系預訓練

基於斯拉夫語系預訓練模型微調，對克羅地亞語有更好的適應性

議會語音優化

專門針對克羅地亞議會場景的語音特點進行優化

高性能指標

在測試集上達到2.22%的字符錯誤率和6.79%的詞錯誤率

模型能力

克羅地亞語語音識別

議會場景語音轉寫

長音頻處理

使用案例

政府機構

議會會議記錄

自動轉寫克羅地亞議會會議內容

高效生成會議文字記錄，準確率達93%以上

學術研究

政治語言分析

為政治學家提供議會發言的文本數據

支持大規模政治話語分析研究

🚀 wav2vec2-large-slavic-parlaspeech-hr

該模型用於克羅地亞語的自動語音識別（ASR），基於 facebook/wav2vec2-large-slavic-voxpopuli-v2 模型，並使用來自克羅地亞議會 ASR 數據集 ParlaSpeech-HR v1.0 的 300 小時錄音和文字轉錄進行了微調。

如果您使用此模型，請引用以下論文：

Nikola Ljubešić, Danijel Koržinek, Peter Rupnik, Ivo - Pavao Jazbec. ParlaSpeech - HR -- a freely available ASR dataset for Croatian bootstrapped from the ParlaMint corpus. http://www.lrec-conf.org/proceedings/lrec2022/workshops/ParlaCLARINIII/pdf/2022.parlaclariniii-1.16.pdf

✨ 主要特性

基於成熟的 facebook/wav2vec2-large-slavic-voxpopuli-v2 模型進行微調，適用於克羅地亞語的自動語音識別任務。
利用了 300 小時的克羅地亞議會錄音及轉錄數據進行訓練，具有較好的性能表現。

📦 安裝指南

文檔中未提及具體安裝步驟，若有相關需求，可參考 transformers 庫的安裝方式。

💻 使用示例

基礎用法

from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
import soundfile as sf
import torch
import os
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
# load model and tokenizer
processor = Wav2Vec2Processor.from_pretrained(
    "classla/wav2vec2-large-slavic-parlaspeech-hr")
model = Wav2Vec2ForCTC.from_pretrained("classla/wav2vec2-large-slavic-parlaspeech-hr")
# download the example wav files:
os.system("wget https://huggingface.co/classla/wav2vec2-large-slavic-parlaspeech-hr/raw/main/00020570a.flac.wav")
# read the wav file 
speech, sample_rate = sf.read("00020570a.flac.wav")
input_values = processor(speech, sampling_rate=sample_rate, return_tensors="pt").input_values.to(device)
# remove the raw wav file
os.system("rm 00020570a.flac.wav")
# retrieve logits
logits = model.to(device)(input_values).logits
# take argmax and decode
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.decode(predicted_ids[0]).lower()
# transcription: 'veliki broj poslovnih subjekata posluje sa minusom velik dio'