segmentation-3.0開源說話人分割模型 - 免費檢測語音活動及說話人變更

Home

Segmentation 3.0

Developed by tensorlake

這是一個基於pyannote.audio的說話人分割模型，能檢測語音活動、說話人變更和重疊語音。

說話人處理

PyTorch

Open Source License:MIT #多說話人檢測 #重疊語音識別 #即時語音處理

Downloads 387

Release Time : 7/25/2024

Model Overview

該模型處理10秒16kHz採樣的單聲道音頻，輸出7類說話人分割結果，包括非語音、單個說話人和重疊說話人檢測。

Model Features

多任務處理

同時支持語音活動檢測、說話人分割和重疊語音檢測

高效處理

專為10秒音頻片段優化，適合即時處理

多數據集訓練

使用AISHELL、AliMeeting、AMI等多個數據集訓練，泛化能力強

Model Capabilities

語音活動檢測

說話人分割

重疊語音檢測

說話人變更檢測

Use Cases

會議分析

會議記錄

自動識別會議中的不同說話人

提高會議記錄效率

語音分析

語音活動檢測

識別音頻中的語音片段

可用於語音識別預處理

🚀 "Powerset" 說話人分割模型

本模型是一個開源的說話人分割模型，它能將輸入的音頻進行處理，輸出說話人分割結果。模型以10秒、16kHz採樣的單聲道音頻為輸入，輸出說話人分割矩陣。同時，使用該模型在生產環境中時，可考慮切換到 pyannoteAI 以獲得更好更快的選擇。

🚀 快速開始

安裝要求

使用 pip install pyannote.audio 安裝 pyannote.audio 3.0 版本。
接受 pyannote/segmentation-3.0 的用戶使用條件。
在 hf.co/settings/tokens 創建訪問令牌。

模型使用

# 實例化模型
from pyannote.audio import Model
model = Model.from_pretrained(
  "pyannote/segmentation-3.0", 
  use_auth_token="HUGGINGFACE_ACCESS_TOKEN_GOES_HERE")

✨ 主要特性

本模型以10秒、16kHz採樣的單聲道音頻為輸入，輸出說話人分割結果，以 (num_frames, num_classes) 矩陣呈現，其中7個類別分別為 非語音、說話人 #1、說話人 #2、說話人 #3、說話人 #1 和 #2、說話人 #1 和 #3 以及 說話人 #2 和 #3。

示例輸出

💻 使用示例

基礎用法

# 波形數據 (第一行)
duration, sample_rate, num_channels = 10, 16000, 1
waveform = torch.randn(batch_size, num_channels, duration * sample_rate) 

# 冪集多類編碼 (第二行)
powerset_encoding = model(waveform)

# 多標籤編碼 (第三行)
from pyannote.audio.utils.powerset import Powerset
max_speakers_per_chunk, max_speakers_per_frame = 3, 2
to_multilabel = Powerset(
    max_speakers_per_chunk, 
    max_speakers_per_frame).to_multilabel
multilabel_encoding = to_multilabel(powerset_encoding)

高級用法

說話人分割

此模型本身不能對完整錄音進行說話人分割（它僅處理10秒的音頻塊）。可參考 pyannote/speaker-diarization-3.0 管道，該管道使用額外的說話人嵌入模型來執行完整錄音的說話人分割。

語音活動檢測

from pyannote.audio.pipelines import VoiceActivityDetection
pipeline = VoiceActivityDetection(segmentation=model)
HYPER_PARAMETERS = {
  # 移除短於該秒數的語音區域。
  "min_duration_on": 0.0,
  # 填充短於該秒數的非語音區域。
  "min_duration_off": 0.0
}
pipeline.instantiate(HYPER_PARAMETERS)
vad = pipeline("audio.wav")
# `vad` 是一個包含語音區域的 pyannote.core.Annotation 實例

重疊語音檢測

from pyannote.audio.pipelines import OverlappedSpeechDetection
pipeline = OverlappedSpeechDetection(segmentation=model)
HYPER_PARAMETERS = {
  # 移除短於該秒數的重疊語音區域。
  "min_duration_on": 0.0,
  # 填充短於該秒數的非重疊語音區域。
  "min_duration_off": 0.0
}
pipeline.instantiate(HYPER_PARAMETERS)
osd = pipeline("audio.wav")
# `osd` 是一個包含重疊語音區域的 pyannote.core.Annotation 實例

📚 詳細文檔

該模型背後的各種概念在這篇論文中有詳細描述。

它由 Séverin Baroudi 使用 pyannote.audio 3.0.0 版本進行訓練，訓練集結合了 AISHELL、AliMeeting、AMI、AVA - AVD、DIHARD、Ego4D、MSDWild、REPERE 和 VoxConverse。

由 Alexis Plaquet 維護的配套倉庫也提供瞭如何在自己的數據上訓練或微調此類模型的說明。

📄 許可證

本模型採用 MIT 許可證。

📖 引用

@inproceedings{Plaquet23,
  author={Alexis Plaquet and Hervé Bredin},
  title={{Powerset multi-class cross entropy loss for neural speaker diarization}},
  year=2023,
  booktitle={Proc. INTERSPEECH 2023},
}

@inproceedings{Bredin23,
  author={Hervé Bredin},
  title={{pyannote.audio 2.1 speaker diarization pipeline: principle, benchmark, and recipe}},
  year=2023,
  booktitle={Proc. INTERSPEECH 2023},
}