asr_hubert_cluster_bart_base開源自動語音識別模型

首頁

Asr Hubert Cluster Bart Base

由voidful開發

基於Hubert和BART架構的自動語音識別模型，通過聚類特徵轉換實現語音到文本的轉換

語音識別

Transformers

支持多種語言開源協議:Apache-2.0 #語音轉文本 #Hubert特徵聚類 #BART序列生成

下載量 13

發布時間 : 3/2/2022

模型概述

該模型結合了Hubert的語音特徵提取能力和BART的序列到序列轉換能力，專門用於自動語音識別(ASR)任務。

模型特點

Hubert特徵聚類

使用Hubert提取語音特徵並通過k-means聚類進行編碼

BART序列轉換

利用BART模型將聚類特徵序列轉換為文本序列

高效語音處理

能夠處理各種採樣率的語音輸入並轉換為文本

模型能力

英語語音識別

語音特徵提取

序列到文本轉換

使用案例

語音轉錄

演講轉錄

將演講錄音轉換為文字記錄

示例結果：'沿著泥濘的鄉間小路行進，連續兩週在潮溼的校舍裡對著溼漉漉的聽眾演講...'

語音助手

語音指令識別

識別並轉換用戶的語音指令為可執行命令

🚀 voidful/asr_hubert_cluster_bart_base

該項目主要用於自動語音識別（ASR）任務，藉助Hubert模型提取語音特徵並進行聚類編碼，再利用Bart模型將編碼轉換為文本，實現語音到文本的轉換。

🚀 快速開始

下載文件

wget https://raw.githubusercontent.com/voidful/hubert-cluster-code/main/km_feat_100_layer_20
wget https://cdn-media.huggingface.co/speech_samples/sample1.flac

💻 使用示例

基礎用法

以下代碼展示瞭如何使用Hubert提取語音特徵並進行聚類編碼：

import joblib
import torch
from transformers import Wav2Vec2FeatureExtractor, HubertModel
import soundfile as sf


class HubertCode(object):
    def __init__(self, hubert_model, km_path, km_layer):
        self.processor = Wav2Vec2FeatureExtractor.from_pretrained(hubert_model)
        self.model = HubertModel.from_pretrained(hubert_model)
        self.km_model = joblib.load(km_path)
        self.km_layer = km_layer
        self.C_np = self.km_model.cluster_centers_.transpose()
        self.Cnorm_np = (self.C_np ** 2).sum(0, keepdims=True)

        self.C = torch.from_numpy(self.C_np)
        self.Cnorm = torch.from_numpy(self.Cnorm_np)
        if torch.cuda.is_available():
            self.C = self.C.cuda()
            self.Cnorm = self.Cnorm.cuda()
            self.model = self.model.cuda()

    def __call__(self, filepath, sampling_rate=None):
        speech, sr = sf.read(filepath)
        input_values = self.processor(speech, return_tensors="pt", sampling_rate=sr).input_values
        if torch.cuda.is_available():
            input_values = input_values.cuda()
        hidden_states = self.model(input_values, output_hidden_states=True).hidden_states
        x = hidden_states[self.km_layer].squeeze()
        dist = (
                x.pow(2).sum(1, keepdim=True)
                - 2 * torch.matmul(x, self.C)
                + self.Cnorm
        )
        return dist.argmin(dim=1).cpu().numpy()

輸入示例：

hc = HubertCode("facebook/hubert-large-ll60k", './km_feat_100_layer_20', 20)
voice_ids = hc('./sample1.flac')

高級用法

以下代碼展示瞭如何使用Bart模型將聚類編碼轉換為文本：

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("voidful/asr_hubert_cluster_bart_base")
model = AutoModelForSeq2SeqLM.from_pretrained("voidful/asr_hubert_cluster_bart_base")

生成輸出：

gen_output = model.generate(input_ids=tokenizer("".join([f":vtok{i}:" for i in voice_ids]),return_tensors='pt').input_ids,max_length=1024)
print(tokenizer.decode(gen_output[0], skip_special_tokens=True))

📚 詳細文檔

結果示例

going along slushy country roads and speaking to damp audience in drifty school rooms day after day for a fortnight he'll have to put in an appearance at some place of worship on sunday morning and he can come to ask immediately afterwards