SpeechLLM - 1.5B開源模型，精準預測對話說話者元數據，含情緒口音等！

首頁

Speechllm 1.5B

由skit-ai開發

SpeechLLM是一個多模態大型語言模型，用於預測對話中說話者輪次的元數據，包括語音活動、轉錄文本、性別、年齡、口音和情緒。

文本生成音頻

Transformers

英語開源協議:Apache-2.0 #多模態語音理解 #說話者元數據預測 #低資源ASR

下載量 40

發布時間 : 6/20/2024

模型概述

SpeechLLM基於HubertX音頻編碼器和TinyLlama LLM，能夠處理語音信號並生成豐富的元數據信息。

模型特點

多模態處理能力

結合音頻信號處理和語言模型能力，能夠理解語音內容並生成元數據

豐富的元數據預測

可預測語音活動、轉錄文本、說話者性別、年齡、口音和情緒等多種信息

多樣化數據集訓練

在多種語音數據集上訓練，包括Common Voice、LibriSpeech等，提高了模型的泛化能力

模型能力

語音活動檢測

自動語音識別

說話者性別分類

說話者年齡分類

說話者口音分類

情緒識別

使用案例

語音分析

客服對話分析

分析客服對話中的說話者特徵和情緒狀態

可識別客戶情緒和人口統計信息，幫助改進服務質量

語音轉錄增強

在語音轉錄基礎上增加說話者元數據

提供更豐富的轉錄文本信息，包括說話者特徵

對話系統

智能語音助手

構建能夠理解說話者特徵的對話代理

可根據說話者特徵提供個性化響應

🚀 SpeechLLM

SpeechLLM是一個多模態大語言模型（LLM），經過訓練可預測對話中說話者輪次的元數據。它能有效處理語音相關信息，為語音理解和分析提供全面的解決方案，在語音識別、說話者特徵預測等方面具有重要價值。

🚀 快速開始

你可以通過以下步驟快速使用SpeechLLM模型：

從Hugging Face直接加載模型。
調用模型的generate_meta方法進行元數據生成。

# 從Hugging Face直接加載模型
from transformers import AutoModel
model = AutoModel.from_pretrained("skit-ai/speechllm-1.5B", trust_remote_code=True)

model.generate_meta(
    audio_path="path-to-audio.wav", # 16k Hz，單聲道
    audio_tensor=torchaudio.load("path-to-audio.wav")[1], # [可選] 可以是音頻路徑或直接傳入音頻張量
    instruction="Give me the following information about the audio [SpeechActivity, Transcript, Gender, Emotion, Age, Accent]",
    max_new_tokens=500, 
    return_special_tokens=False
)

# 模型生成結果
'''
{
    "SpeechActivity": "True",
    "Transcript": "Yes, I got it. I'll make the payment now.",
    "Gender": "Female",
    "Emotion": "Neutral",
    "Age": "Young",
    "Accent": "America"
}
'''

你可以在Google Colab Notebook中嘗試該模型。此外，還可以查看我們關於SpeechLLM用於端到端對話代理（用戶語音 -> 響應）的博客。

✨ 主要特性

SpeechLLM模型具有以下主要特性：

多模態預測：能夠預測語音信號的多種元數據，包括語音活動、轉錄文本、說話者的性別、年齡、口音和情感等。
基於強大架構：speechllm - 2B模型基於HubertX音頻編碼器和TinyLlama LLM構建。

📚 詳細文檔

模型詳情

屬性	詳情
開發者	Skit AI
作者	Shangeth Rajaa，Abhinav Tushar
語言	英語
微調基礎模型	WavLM，TinyLlama
模型大小	1.5B
檢查點	1200k步（bs = 1）
適配器	r = 8，alpha = 16
學習率	1e - 4
梯度累積步數	8

檢查點結果

數據集	類型	字錯誤率	性別準確率	年齡準確率	口音準確率
librispeech - test - clean	朗讀語音	11.51	0.9594
librispeech - test - other	朗讀語音	16.68	0.9297
CommonVoice test	多樣口音、年齡	26.02	0.9476	0.6498	0.8121

📄 許可證

本項目採用Apache 2.0許可證。

📚 引用

如果你使用了該模型，請按照以下格式進行引用：

@misc{Rajaa_SpeechLLM_Multi-Modal_LLM,
author = {Rajaa, Shangeth and Tushar, Abhinav},
title = {{SpeechLLM: Multi-Modal LLM for Speech Understanding}},
url = {https://github.com/skit-ai/SpeechLLM}
}