開源wav2vec2 - bartpho模型，支持越南語自動語音識別與文本規範標記

首頁

Wav2vec2 Bartpho

由nguyenvulebinh開發

這是一個支持越南語的自動語音識別模型，能夠輸出規範化文本、標記時間戳以及多說話人分段。

語音識別

Transformers

其他#越南語語音識別 #時間戳標記 #多說話人分段

下載量 472

發布時間 : 10/5/2023

模型概述

該模型基於wav2vec2和bartpho架構，專門用於越南語的自動語音識別任務，支持輸出帶時間戳的文本和多說話人分段。

模型特點

時間戳標記

能夠為識別的文本標記精確的時間戳

多說話人分段

支持識別和分段不同說話人的語音

文本規範化

輸出經過規範化的識別文本

模型能力

越南語語音識別

時間戳標記

多說話人分段

文本規範化輸出

使用案例

語音轉錄

新聞轉錄

將越南語新聞廣播轉錄為帶時間戳的文本

示例輸出中包含精確的時間標記和分段

會議記錄

多說話人會議記錄

自動識別會議中不同發言人的語音並分段

可區分不同說話人並標記發言時間

🚀 越南語自動語音識別序列到序列模型

這是一個越南語自動語音識別（ASR）的序列到序列模型。該模型支持輸出規範化文本、標註時間戳以及多說話人分割等功能。

🚀 快速開始

安裝依賴

# !pip install transformers, sentencepiece

代碼示例

from transformers import SpeechEncoderDecoderModel
from transformers import AutoFeatureExtractor, AutoTokenizer, GenerationConfig
import torchaudio
import torch

model_path = 'nguyenvulebinh/wav2vec2-bartpho'
model = SpeechEncoderDecoderModel.from_pretrained(model_path).eval()
feature_extractor = AutoFeatureExtractor.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(model_path)
if torch.cuda.is_available():
  model = model.cuda()


def decode_tokens(token_ids, skip_special_tokens=True, time_precision=0.02):
    timestamp_begin = tokenizer.vocab_size
    outputs = [[]]
    for token in token_ids:
        if token >= timestamp_begin:
            timestamp = f" |{(token - timestamp_begin) * time_precision:.2f}| "
            outputs.append(timestamp)
            outputs.append([])
        else:
            outputs[-1].append(token)
    outputs = [
        s if isinstance(s, str) else tokenizer.decode(s, skip_special_tokens=skip_special_tokens) for s in outputs
    ]
    return "".join(outputs).replace("< |", "<|").replace("| >", "|>")

def decode_wav(audio_wavs, asr_model, prefix=""):
  device = next(asr_model.parameters()).device
  input_values = feature_extractor.pad(
    [{"input_values": feature} for feature in audio_wavs],
    padding=True,
    max_length=None,
    pad_to_multiple_of=None,
    return_tensors="pt",
  )

  output_beam_ids = asr_model.generate(
    input_values['input_values'].to(device), 
    attention_mask=input_values['attention_mask'].to(device),
    decoder_input_ids=tokenizer.batch_encode_plus([prefix] * len(audio_wavs), return_tensors="pt")['input_ids'][..., :-1].to(device),
    generation_config=GenerationConfig(decoder_start_token_id=tokenizer.bos_token_id),
    max_length=250, 
    num_beams=25, 
    no_repeat_ngram_size=4, 
    num_return_sequences=1, 
    early_stopping=True,
    return_dict_in_generate=True,
    output_scores=True,
  )

  output_text = [decode_tokens(sequence) for sequence in output_beam_ids.sequences]

  return output_text


# https://huggingface.co/nguyenvulebinh/wav2vec2-bartpho/resolve/main/sample_news.wav
print(decode_wav([torchaudio.load('sample_news.wav')[0].squeeze()], model))

# <|0.00| Gia đình cho biết, nhiều lần đã từng gọi điện báo chính quyền và lực lượng an ninh địa phương nhưng đều không có tác dụng |7.00|>
# <|8.14| Không ai giúp đỡ được mình một chút nào cả, nên là lúc đó là lúc tuyệt vọng nhất, nó tra tấn mình cực kỳ khổ, gây cái tâm lý ức chế rất là nhiều, rất là lớn |19.02|>

📄 許可證

本項目採用CC BY-NC 4.0許可證。

📚 引用信息

本倉庫借鑑了以下論文的思想。如果使用此模型來幫助產生已發表的研究成果或集成到其他軟件中，請引用該論文。

@INPROCEEDINGS{10446589,
  author={Nguyen, Thai-Binh and Waibel, Alexander},
  booktitle={ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)}, 
  title={Synthetic Conversations Improve Multi-Talker ASR}, 
  year={2024},
  volume={},
  number={},
  pages={10461-10465},
  keywords={Systematics;Error analysis;Knowledge based systems;Oral communication;Signal processing;Data models;Acoustics;multi-talker;asr;synthetic conversation},
  doi={10.1109/ICASSP48485.2024.10446589}
}