segmentation-3.0開源說話人分割模型 - 免費處理10秒音頻識別多說話人

首頁

Segmentation 3.0

由pyannote開發

這是一個基於冪集編碼的說話人分割模型，能夠處理10秒音頻片段並識別多個說話人及其重疊語音。

說話人處理

PyTorch

開源協議:MIT #多說話人重疊檢測 #語音活動識別 #即時音頻處理

下載量 12.6M

發布時間 : 9/22/2023

模型概述

該模型用於音頻中的說話人分割、語音活動檢測和重疊語音檢測，支持最多3個說話人的識別及其組合。

模型特點

冪集編碼

使用7個類別編碼說話人組合，包括單個說話人和重疊說話人情況

多任務處理

同時支持說話人分割、語音活動檢測和重疊語音檢測

高效處理

專為10秒音頻片段優化，適合即時或批量處理

模型能力

說話人識別

語音活動檢測

重疊語音檢測

多說話人場景處理

使用案例

會議記錄

會議發言者識別

自動識別會議錄音中的不同發言者及其發言時間

準確分割各發言者語音並標記重疊部分

語音分析

語音活動檢測

檢測音頻中的語音片段與非語音片段

精確識別語音區域並過濾靜音部分

重疊語音分析

識別多人同時說話的情況

準確標記重疊語音區域

🚀 "Powerset"說話人分割模型

本開源模型可對16kHz採樣的10秒單聲道音頻進行處理，輸出說話人分割結果。它以(num_frames, num_classes)矩陣的形式呈現，其中包含7個類別，分別為_非語音_、說話人 #1、說話人 #2、說話人 #3、說話人 #1 和 #2、說話人 #1 和 #3 以及 說話人 #2 和 #3。這一模型能在語音處理領域，如會議記錄、音頻內容分析等場景中發揮重要作用，幫助用戶準確識別音頻中的說話人信息。

如果在生產環境中使用此開源模型，建議考慮切換到 pyannoteAI，以獲取更優質、更高效的解決方案。

示例輸出

🚀 快速開始

安裝要求

使用 pip install pyannote.audio 安裝 pyannote.audio 3.0 版本。
接受 pyannote/segmentation-3.0 的用戶使用條件。
在 hf.co/settings/tokens 創建訪問令牌。

模型使用

# 實例化模型
from pyannote.audio import Model
model = Model.from_pretrained(
  "pyannote/segmentation-3.0", 
  use_auth_token="HUGGINGFACE_ACCESS_TOKEN_GOES_HERE")

💻 使用示例

基礎用法

# 波形數據（第一行）
duration, sample_rate, num_channels = 10, 16000, 1
waveform = torch.randn(batch_size, num_channels, duration * sample_rate) 

# 冪集多類編碼（第二行）
powerset_encoding = model(waveform)

# 多標籤編碼（第三行）
from pyannote.audio.utils.powerset import Powerset
max_speakers_per_chunk, max_speakers_per_frame = 3, 2
to_multilabel = Powerset(
    max_speakers_per_chunk, 
    max_speakers_per_frame).to_multilabel
multilabel_encoding = to_multilabel(powerset_encoding)

高級用法

說話人分割

此模型本身無法對完整錄音進行說話人分割（它僅處理10秒的音頻片段）。可參考 pyannote/speaker-diarization-3.0 管道，該管道使用額外的說話人嵌入模型來對完整錄音進行說話人分割。

語音活動檢測

from pyannote.audio.pipelines import VoiceActivityDetection
pipeline = VoiceActivityDetection(segmentation=model)
HYPER_PARAMETERS = {
  # 移除短於該時長（秒）的語音區域
  "min_duration_on": 0.0,
  # 填充短於該時長（秒）的非語音區域
  "min_duration_off": 0.0
}
pipeline.instantiate(HYPER_PARAMETERS)
vad = pipeline("audio.wav")
# `vad` 是一個包含語音區域的 pyannote.core.Annotation 實例

重疊語音檢測

from pyannote.audio.pipelines import OverlappedSpeechDetection
pipeline = OverlappedSpeechDetection(segmentation=model)
HYPER_PARAMETERS = {
  # 移除短於該時長（秒）的重疊語音區域
  "min_duration_on": 0.0,
  # 填充短於該時長（秒）的非重疊語音區域
  "min_duration_off": 0.0
}
pipeline.instantiate(HYPER_PARAMETERS)
osd = pipeline("audio.wav")
# `osd` 是一個包含重疊語音區域的 pyannote.core.Annotation 實例

📚 詳細文檔

該模型背後的各種概念在這篇論文中有詳細描述。它由Séverin Baroudi使用 pyannote.audio 3.0.0 版本，結合AISHELL、AliMeeting、AMI、AVA - AVD、DIHARD、Ego4D、MSDWild、REPERE和VoxConverse的訓練集進行訓練。

由 Alexis Plaquet 維護的配套倉庫還提供瞭如何在自己的數據上訓練或微調此類模型的說明。

📄 許可證

本項目採用MIT許可證。

📚 引用

@inproceedings{Plaquet23,
  author={Alexis Plaquet and Hervé Bredin},
  title={{Powerset multi-class cross entropy loss for neural speaker diarization}},
  year=2023,
  booktitle={Proc. INTERSPEECH 2023},
}

@inproceedings{Bredin23,
  author={Hervé Bredin},
  title={{pyannote.audio 2.1 speaker diarization pipeline: principle, benchmark, and recipe}},
  year=2023,
  booktitle={Proc. INTERSPEECH 2023},
}

📋 信息表格

屬性	詳情
模型類型	“Powerset”說話人分割模型
訓練數據	AISHELL、AliMeeting、AMI、AVA - AVD、DIHARD、Ego4D、MSDWild、REPERE和VoxConverse的訓練集