pyannote-speaker-diarization-endpointオープンソースモデル - 無料で自動的に音声の異なる話者を検出・分割

ホーム

Pyannote Speaker Diarization Endpoint

KIFFによって開発

pyannote.audio 2.0バージョンに基づく話者分割モデルで、音声内の異なる話者を自動検出・分割する

話者の処理オープンソースライセンス:MIT #話者分割 #重複音声検出 #マルチシーン適応

ダウンロード数 1,830

リリース時間 : 6/18/2023

モデル概要

このモデルはエンドツーエンドの話者分割システムで、音声内の話者変化、音声活動、重複音声を自動検出でき、話者数の手動指定やパラメータ調整が不要

モデル特徴

完全自動処理

手動の音声活動検出や話者数指定が不要

重複音声検出

同時に話す複数の話者を識別・処理可能

高性能

複数のベンチマークデータセットで優れた性能

リアルタイム処理

リアルタイムファクター約5%、1時間の音声処理に約3分

モデル能力

話者分割

音声活動検出

重複音声検出

自動話者カウント

音声分析

使用事例

会議記録

会議記録分析

会議録音から異なる発言者とその発言時間を自動識別

会議記録効率向上、自動発言タイムライン生成

メディア分析

放送番組分析

番組内の司会者とゲストの発話パターン分析

コンテンツ制作者の番組構成最適化支援

音声研究

会話分析

多人数会話における発話交代パターン研究

言語学・社会学研究のデータ支援

🚀 話者分離

このプロジェクトは、音声データ内の話者を識別し、各話者の発話区間を特定する話者分離機能を提供します。pyannote.audio 2.0に依存しており、高精度で効率的な話者分離を実現します。

🚀 クイックスタート

この話者分離パイプラインは pyannote.audio 2.0に依存しています。インストール手順を参照してください。

💻 使用例

基本的な使用法

# Hugginface Hubからパイプラインをロード
from pyannote.audio import Pipeline
pipeline = Pipeline.from_pretrained("pyannote/speaker-diarization@2022.07")

# パイプラインを音声ファイルに適用
diarization = pipeline("audio.wav")

# RTTM形式で話者分離結果をディスクに保存
with open("audio.rttm", "w") as rttm:
    diarization.write_rttm(rttm)

高度な使用法

話者数が事前にわかっている場合は、パラメータ辞書に num_speakers パラメータを含めることができます。

handler = EndpointHandler()
diarization = handler({"inputs": base64_audio, "parameters": {"num_speakers": 2}})

min_speakers と max_speakers パラメータを使用して、話者数の下限と/または上限を指定することもできます。

handler = EndpointHandler()
diarization = handler({"inputs": base64_audio, "parameters": {"min_speakers": 2, "max_speakers": 5}})

冒険的な方は、様々なパイプラインのハイパーパラメータを試すことができます。たとえば、segmentation_onset 閾値の値を増やすことで、より積極的な音声アクティビティ検出を使用することができます。

hparams = handler.pipeline.parameters(instantiated=True)
hparams["segmentation_onset"] += 0.1
handler.pipeline.instantiate(hparams)

話者数を処理できるAPI推論に更新されたハンドラを適用するには、次のコードを使用します。

from typing import Dict
from pyannote.audio import Pipeline
import torch 
import base64
import numpy as np

SAMPLE_RATE = 16000

class EndpointHandler():
    def __init__(self, path=""):
        # モデルをロード
        self.pipeline = Pipeline.from_pretrained("KIFF/pyannote-speaker-diarization-endpoint")

    def __call__(self, data: Dict[str, bytes]) -> Dict[str, str]:
        """
        引数:
            data (:obj:):
                バイト形式でデシリアライズされた音声ファイルを含む
        戻り値:
            :obj:`dict`: base64エンコードされた画像
        """
        # 入力を処理
        inputs = data.pop("inputs", data)
        parameters = data.pop("parameters", None) #  min_speakers=2, max_speakers=5

        # base64エンコードされた音声データをデコード
        audio_data = base64.b64decode(inputs)
        audio_nparray = np.frombuffer(audio_data, dtype=np.int16)

        # pyannoteの入力を準備
        audio_tensor= torch.from_numpy(audio_nparray).float().unsqueeze(0)
        pyannote_input = {"waveform": audio_tensor, "sample_rate": SAMPLE_RATE}
        
        # 事前学習済みパイプラインを適用
        # data内のすべてのキーワード引数で入力を渡す
        if parameters is not None:
            diarization = self.pipeline(pyannote_input, **parameters)
        else:
            diarization = self.pipeline(pyannote_input)

        # 予測結果を後処理
        processed_diarization = [
            {"label": str(label), "start": str(segment.start), "stop": str(segment.end)}
            for segment, _, label in diarization.itertracks(yield_label=True)
        ]
        
        return {"diarization": processed_diarization}

📚 詳細ドキュメント

ベンチマーク

リアルタイム係数

1台のNvidia Tesla V100 SXM2 GPU（ニューラル推論部分）と1台のIntel Cascade Lake 6248 CPU（クラスタリング部分）を使用すると、リアルタイム係数は約5%です。言い換えると、1時間の会話を処理するのに約3分かかります。

精度

このパイプラインは、増え続けるデータセットでベンチマークされています。処理は完全に自動化されています。

手動による音声アクティビティ検出は行われません（文献で時々見られるような場合）
手動による話者数の指定は不要です（ただし、パイプラインに指定することも可能）
内部モデルの微調整やパイプラインのハイパーパラメータの調整は、各データセットに対して行われません

... 最も厳格な話者分離誤差率（DER）設定（この論文で "Full" と呼ばれる）で:

許容範囲はありません
重複音声の評価を行います

ベンチマーク	DER%	FA%	Miss%	Conf%	期待される出力	ファイルレベルの評価
AISHELL-4	14.61	3.31	4.35	6.95	RTTM	eval
AMI Mix-Headset only_words	18.21	3.28	11.07	3.87	RTTM	eval
AMI Array1-01 only_words	29.00	2.71	21.61	4.68	RTTM	eval
CALLHOME Part2	30.24	3.71	16.86	9.66	RTTM	eval
DIHARD 3 Full	20.99	4.25	10.74	6.00	RTTM	eval
REPERE Phase 2	12.62	1.55	3.30	7.76	RTTM	eval
VoxConverse v0.0.2	12.76	3.45	3.85	5.46	RTTM	eval

サポート

商用のお問い合わせや科学的なコンサルティングについては、こちらまでご連絡ください。技術的な質問やバグ報告については、pyannote.audioのGitHubリポジトリをご確認ください。

引用

@inproceedings{Bredin2021,
  Title = {{End-to-end speaker segmentation for overlap-aware resegmentation}},
  Author = {{Bredin}, Herv{\'e} and {Laurent}, Antoine},
  Booktitle = {Proc. Interspeech 2021},
  Address = {Brno, Czech Republic},
  Month = {August},
  Year = {2021},
}

@inproceedings{Bredin2020,
  Title = {{pyannote.audio: neural building blocks for speaker diarization}},
  Author = {{Bredin}, Herv{\'e} and {Yin}, Ruiqing and {Coria}, Juan Manuel and {Gelly}, Gregory and {Korshunov}, Pavel and {Lavechin}, Marvin and {Fustes}, Diego and {Titeux}, Hadrien and {Bouaziz}, Wassim and {Gill}, Marie-Philippe},
  Booktitle = {ICASSP 2020, IEEE International Conference on Acoustics, Speech, and Signal Processing},
  Address = {Barcelona, Spain},
  Month = {May},
  Year = {2020},
}