S

Speechllm 1.5B

由skit-ai開發
SpeechLLM是一個多模態大型語言模型,用於預測對話中說話者輪次的元數據,包括語音活動、轉錄文本、性別、年齡、口音和情緒。
下載量 40
發布時間 : 6/20/2024

模型概述

SpeechLLM基於HubertX音頻編碼器和TinyLlama LLM,能夠處理語音信號並生成豐富的元數據信息。

模型特點

多模態處理能力
結合音頻信號處理和語言模型能力,能夠理解語音內容並生成元數據
豐富的元數據預測
可預測語音活動、轉錄文本、說話者性別、年齡、口音和情緒等多種信息
多樣化數據集訓練
在多種語音數據集上訓練,包括Common Voice、LibriSpeech等,提高了模型的泛化能力

模型能力

語音活動檢測
自動語音識別
說話者性別分類
說話者年齡分類
說話者口音分類
情緒識別

使用案例

語音分析
客服對話分析
分析客服對話中的說話者特徵和情緒狀態
可識別客戶情緒和人口統計信息,幫助改進服務質量
語音轉錄增強
在語音轉錄基礎上增加說話者元數據
提供更豐富的轉錄文本信息,包括說話者特徵
對話系統
智能語音助手
構建能夠理解說話者特徵的對話代理
可根據說話者特徵提供個性化響應
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase