hubert-large-superb-sid開源說話人識別模型 - 用於語音分類任務超實用

首頁

Hubert Large Superb Sid

由superb開發

基於Hubert-Large架構的說話人識別模型，在VoxCeleb1數據集上訓練，用於語音分類任務

說話人處理

Transformers

英語開源協議:Apache-2.0 #說話人識別 #高準確率 #16kHz音頻

下載量 349

發布時間 : 3/2/2022

模型概述

該模型是基於Hubert-Large架構的說話人識別系統，專門用於將語音片段分類到特定的說話人身份。模型在16kHz採樣的語音數據上預訓練，適用於說話人識別任務。

模型特點

高準確率

在VoxCeleb1測試集上達到90.35%的準確率

16kHz採樣支持

專門針對16kHz採樣的語音數據進行優化

預訓練模型微調

基於hubert-large-ll60k預訓練模型進行微調

模型能力

說話人識別

語音分類

音頻特徵提取

使用案例

安全認證

語音生物識別

用於基於語音的身份驗證系統

可準確識別註冊用戶的語音特徵

語音分析

說話人區分

在會議記錄中區分不同說話人

幫助自動生成帶說話人標籤的會議記錄

🚀 用於說話人識別的Hubert-Large

本項目提供用於說話人識別的Hubert-Large模型，可基於語音音頻準確識別說話人身份，在相關任務中表現出色。

🚀 快速開始

本模型基於預訓練的hubert-large-ll60k，在16kHz採樣的語音音頻上進行訓練。使用時，請確保輸入的語音也採樣為16kHz。

✨ 主要特性

遷移版本：這是S3PRL的Hubert用於SUPERB說話人識別任務的遷移版本。
預訓練模型：基於hubert-large-ll60k，在16kHz採樣的語音音頻上預訓練。
任務類型：說話人識別（SI）屬於多分類任務，用於對每個語音片段的說話人身份進行分類。
數據集：採用廣泛使用的VoxCeleb1數據集。

📦 安裝指南

文檔未提及具體安裝步驟，可參考相關依賴庫的官方文檔進行安裝，如datasets、transformers、torch、librosa等。

💻 使用示例

基礎用法

你可以通過音頻分類管道使用該模型：

from datasets import load_dataset
from transformers import pipeline

dataset = load_dataset("anton-l/superb_demo", "si", split="test")

classifier = pipeline("audio-classification", model="superb/hubert-large-superb-sid")
labels = classifier(dataset[0]["file"], top_k=5)

高級用法

也可以直接使用該模型：

import torch
import librosa
from datasets import load_dataset
from transformers import HubertForSequenceClassification, Wav2Vec2FeatureExtractor

def map_to_array(example):
    speech, _ = librosa.load(example["file"], sr=16000, mono=True)
    example["speech"] = speech
    return example

# load a demo dataset and read audio files
dataset = load_dataset("anton-l/superb_demo", "si", split="test")
dataset = dataset.map(map_to_array)

model = HubertForSequenceClassification.from_pretrained("superb/hubert-large-superb-sid")
feature_extractor = Wav2Vec2FeatureExtractor.from_pretrained("superb/hubert-large-superb-sid")

# compute attention masks and normalize the waveform if needed
inputs = feature_extractor(dataset[:2]["speech"], sampling_rate=16000, padding=True, return_tensors="pt")

logits = model(**inputs).logits
predicted_ids = torch.argmax(logits, dim=-1)
labels = [model.config.id2label[_id] for _id in predicted_ids.tolist()]

📚 詳細文檔

任務和數據集描述

說話人識別（SI）將每個語音片段的說話人身份作為多分類問題進行分類，訓練和測試使用相同的預定義說話人集合。本項目採用了廣泛使用的VoxCeleb1數據集。

評估結果

評估指標為準確率。

	s3prl	transformers
test	`0.9033`	`0.9035`

BibTeX引用和引用信息

@article{yang2021superb,
  title={SUPERB: Speech processing Universal PERformance Benchmark},
  author={Yang, Shu-wen and Chi, Po-Han and Chuang, Yung-Sung and Lai, Cheng-I Jeff and Lakhotia, Kushal and Lin, Yist Y and Liu, Andy T and Shi, Jiatong and Chang, Xuankai and Lin, Guan-Ting and others},
  journal={arXiv preprint arXiv:2105.01051},
  year={2021}
}