S

Speechllm 2B

由skit-ai開發
SpeechLLM是一個多模態大型語言模型,訓練用於預測對話中說話者輪次的元數據,包括語音活動、轉錄文本、說話者性別、年齡、口音和情緒。
下載量 237
發布時間 : 6/4/2024

模型概述

基於HubertX音頻編碼器和TinyLlama LLM的多模態模型,能夠從音頻信號中提取豐富的元數據信息。

模型特點

多模態處理能力
同時處理音頻和文本信息,實現語音理解和元數據預測
豐富的元數據預測
可預測語音活動、轉錄文本、性別、年齡、口音和情緒等多種信息
高性能ASR
在LibriSpeech測試集上達到6.73-9.13的WER表現

模型能力

語音活動檢測
自動語音識別
說話者性別分類
說話者年齡分類
說話者口音分類
說話者情緒識別

使用案例

語音分析
客服對話分析
分析客服對話中的說話者特徵和情緒
可識別客戶情緒狀態和人口統計信息
語音轉錄增強
在語音轉錄基礎上增加豐富的元數據
提供更全面的對話分析維度
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase