Phil Pyannote Speaker Diarization Endpoint
pyannote.audio 2.0バージョンに基づくスピーカーダイアリゼーションモデルで、音声中の異なる話者を自動検出・分割します。
ダウンロード数 215
リリース時間 : 11/13/2022
モデル概要
このモデルは音声中の話者変化を自動検出し、異なる話者を識別、オーバーラップ音声検出をサポートします。会議記録、電話録音分析などのシナリオに適しています。
モデル特徴
完全自動処理
手動の音声活動検出や話者数の指定が不要で、モデルが全ての処理ステップを自動で完了します。
話者数制限サポート
パラメータで話者数の下限と上限を指定可能で、分割精度を向上させます。
高性能リアルタイム処理
GPUアクセラレーションを使用し、リアルタイムファクター約5%、1時間の音声処理に約3分かかります。
複数データセット検証
AMI、DIHARD、VoxConverseなど複数の公開データセットでベンチマークテストを実施しました。
モデル能力
スピーカー分割
音声活動検出
オーバーラップ音声検出
自動音声認識補助
使用事例
会議記録
会議発言分割
会議録音中の異なる発言者のセグメントを自動識別
異なるデータセットでDER%が12.62%-30.24%の精度
コールセンター録音分析
カスタマーサービス会話分析
カスタマーサービスと顧客の対話セグメントを自動分割
CALLHOMEデータセットでDER%が30.24%
メディアコンテンツ処理
インタビュー番組字幕生成
インタビュー番組で異なるゲストの発言時間を自動識別
VoxConverseデータセットでDER%が12.76%
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98