S

Speaker Diarization 3.1

tensorlakeによって開発
話者分割と埋め込みのための音声処理モデルで、自動音声活動検出とオーバーラップ音声検出をサポートします。
ダウンロード数 393
リリース時間 : 7/25/2024

モデル概要

このモデルは16kHzサンプリングのモノラル音声を受け取り、話者分割結果を出力します。自動ダウンミキシングとリサンプリングをサポートし、手動の音声活動検出や話者数の指定は不要です。

モデル特徴

純粋なPyTorch実装
問題のあるonnxruntimeの使用を排除し、展開を簡素化し推論を高速化する可能性があります。
自動処理
ステレオ/マルチチャンネル音声や異なるサンプルレートを自動処理し、前処理は不要です。
話者数制御
話者数の指定や上限・下限の設定が可能です。
進捗監視
フックを通じてパイプライン処理の進捗を監視できます。

モデル能力

話者分割
音声活動検出
オーバーラップ音声検出
話者変化検出
自動音声認識補助

使用事例

会議記録
会議記録分析
会議中の異なる発言者の音声セグメントを自動識別
タイムスタンプ付きの話者分割結果を生成
メディア制作
ポッドキャスト/インタビュー分析
ポッドキャストやインタビュー中の異なる話者を自動分割
RTTM形式の分割ファイルを生成
音声分析
音声活動検出
音声中の音声活動領域を検出
音声と非音声セグメントを正確に識別
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase