C

Crisperwhisper

由nyrahealth開發
CrisperWhisper 是 OpenAI Whisper 的高級變體,專為快速、精確且逐字的語音識別設計,提供準確(清晰)的詞級時間戳。
下載量 10.23k
發布時間 : 8/29/2024

模型概述

CrisperWhisper 是 OpenAI Whisper 的高級變體,專為快速、精確且逐字的語音識別設計,提供準確(清晰)的詞級時間戳。與原始 Whisper 傾向於省略不流暢部分並採用更偏向意譯的轉錄風格不同,CrisperWhisper 旨在精確轉錄每一個口語詞彙,包括填充詞、停頓、口吃和錯誤的開頭。

模型特點

精確的詞級時間戳
通過調整分詞器並在訓練中使用自定義注意力損失,即使在處理不流暢和停頓時也能提供精確的時間戳。
逐字轉錄
準確轉錄每一個口語詞彙,包括並區分填充詞如“um”和“uh”。
填充詞檢測
檢測並準確轉錄填充詞。
減少幻覺
最小化轉錄中的幻覺,提高準確性。

模型能力

語音識別
詞級時間戳生成
填充詞檢測
多語言支持

使用案例

語音轉錄
會議記錄
用於精確記錄會議內容,包括所有不流暢部分和填充詞。
提供逐字轉錄和精確的時間戳。
學術研究
用於轉錄訪談和研究數據,確保所有口語細節被準確記錄。
高準確率的逐字轉錄。
語音分析
語音行為分析
分析說話者的不流暢模式和填充詞使用情況。
提供詳細的語音行為數據。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase