S

Speaker Diarization 3.1

pyannoteによって開発
音声内の異なる話者を自動的に検出・分割する音声処理モデルです。
ダウンロード数 11.7M
リリース時間 : 11/16/2023

モデル概要

このモデルは16kHzサンプリングのモノラル音声を入力とし、スピーカー分割結果を出力します。自動ダウンミックスとリサンプリングをサポートし、手動の音声活動検出や話者数の指定は不要です。

モデル特徴

純PyTorch実装
問題のあるonnxruntimeの使用を排除し、デプロイを簡素化し推論を高速化する可能性があります。
自動処理
ステレオ/マルチチャンネル音声や異なるサンプルレートを自動処理し、手動前処理は不要です。
話者数制御
話者数を指定したり上下限を設定可能で、分割精度を向上させます。
進捗監視
フックを通じて処理進捗を監視できます。

モデル能力

スピーカー分割
スピーカー変更検出
音声活動検出
オーバーラップ音声検出
自動音声認識補助

使用事例

会議記録
会議記録分割
会議録音内の異なる発言者の時間帯を自動識別
AISHELL-4データセットで12.2%の分割誤り率を達成
メディア分析
放送番組分析
放送番組内の司会者とゲストの発話時間分布を分析
REPEREデータセットで7.8%の分割誤り率を達成
音声書き起こし
マルチスピーカー書き起こし補助
自動音声認識システムにスピーカー分割情報を提供
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase