Speechllm 1.5B
SpeechLLM是一個多模態大型語言模型,用於預測對話中說話者輪次的元數據,包括語音活動、轉錄文本、性別、年齡、口音和情緒。
下載量 40
發布時間 : 6/20/2024
模型概述
SpeechLLM基於HubertX音頻編碼器和TinyLlama LLM,能夠處理語音信號並生成豐富的元數據信息。
模型特點
多模態處理能力
結合音頻信號處理和語言模型能力,能夠理解語音內容並生成元數據
豐富的元數據預測
可預測語音活動、轉錄文本、說話者性別、年齡、口音和情緒等多種信息
多樣化數據集訓練
在多種語音數據集上訓練,包括Common Voice、LibriSpeech等,提高了模型的泛化能力
模型能力
語音活動檢測
自動語音識別
說話者性別分類
說話者年齡分類
說話者口音分類
情緒識別
使用案例
語音分析
客服對話分析
分析客服對話中的說話者特徵和情緒狀態
可識別客戶情緒和人口統計信息,幫助改進服務質量
語音轉錄增強
在語音轉錄基礎上增加說話者元數據
提供更豐富的轉錄文本信息,包括說話者特徵
對話系統
智能語音助手
構建能夠理解說話者特徵的對話代理
可根據說話者特徵提供個性化響應
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98