SpeechLLM-2B開源多模態語言模型 - 免費預測對話說話者多重元數據

首頁

Speechllm 2B

由skit-ai開發

SpeechLLM是一個多模態大型語言模型，訓練用於預測對話中說話者輪次的元數據，包括語音活動、轉錄文本、說話者性別、年齡、口音和情緒。

文本生成音頻

Transformers

英語開源協議:Apache-2.0 #多模態語音理解 #說話者元數據預測 #低詞錯誤率ASR

下載量 237

發布時間 : 6/4/2024

模型概述

基於HubertX音頻編碼器和TinyLlama LLM的多模態模型，能夠從音頻信號中提取豐富的元數據信息。

模型特點

多模態處理能力

同時處理音頻和文本信息，實現語音理解和元數據預測

豐富的元數據預測

可預測語音活動、轉錄文本、性別、年齡、口音和情緒等多種信息

高性能ASR

在LibriSpeech測試集上達到6.73-9.13的WER表現

模型能力

語音活動檢測

自動語音識別

說話者性別分類

說話者年齡分類

說話者口音分類

說話者情緒識別

使用案例

語音分析

客服對話分析

分析客服對話中的說話者特徵和情緒

可識別客戶情緒狀態和人口統計信息

語音轉錄增強

在語音轉錄基礎上增加豐富的元數據

提供更全面的對話分析維度

🚀 SpeechLLM

SpeechLLM是一個多模態大語言模型，經過訓練可預測對話中說話者話語的元數據。它能夠預測說話者的語音活動、轉錄內容、性別、年齡、口音和情感等信息，為語音理解和處理提供了強大的支持。

🚀 快速開始

SpeechLLM可直接從Hugging Face加載使用。以下是一個簡單的使用示例：

# Load model directly from huggingface
from transformers import AutoModel
model = AutoModel.from_pretrained("skit-ai/speechllm-2B", trust_remote_code=True)

model.generate_meta(
    audio_path="path-to-audio.wav", #16k Hz, mono
    audio_tensor=torchaudio.load("path-to-audio.wav")[1], # [Optional] either audio_path or audio_tensor directly
    instruction="Give me the following information about the audio [SpeechActivity, Transcript, Gender, Emotion, Age, Accent]",
    max_new_tokens=500, 
    return_special_tokens=False
)

# Model Generation
'''
{
  "SpeechActivity" : "True",
  "Transcript": "Yes, I got it. I'll make the payment now.",
  "Gender": "Female",
  "Emotion": "Neutral",
  "Age": "Young",
  "Accent" : "America",
}
'''

你可以在 Google Colab Notebook 中嘗試使用該模型。此外，還可以查看我們關於SpeechLLM的博客，瞭解其在端到端對話代理中的應用（用戶語音 -> 響應）。

✨ 主要特性

SpeechLLM基於HubertX音頻編碼器和TinyLlama大語言模型，能夠預測以下信息：

語音活動：判斷音頻信號中是否包含語音（是/否）
轉錄內容：音頻的自動語音識別轉錄結果
說話者性別（女/男）
說話者年齡（青年/中年/老年）
說話者口音（非洲/美洲/凱爾特/歐洲/大洋洲/南亞/東南亞）
說話者情感（高興/悲傷/憤怒/中立/沮喪）

📚 詳細文檔

模型詳情

開發者：Skit AI
作者：Shangeth Rajaa，Abhinav Tushar
語言：英語
微調基礎模型：HubertX，TinyLlama
模型大小：21億參數
檢查點：2000k步（批次大小 = 1）
適配器：r = 4，alpha = 8
學習率：1e - 4
梯度累積步數：8

檢查點結果

數據集	類型	單詞錯誤率	性別準確率	年齡準確率	口音準確率
librispeech-test-clean	朗讀語音	6.73	0.9496
librispeech-test-other	朗讀語音	9.13	0.9217
CommonVoice test	多樣口音和年齡	25.66	0.8680	0.6041	0.6959

引用

如果你使用了SpeechLLM，請引用以下文獻：

@misc{Rajaa_SpeechLLM_Multi-Modal_LLM,
author = {Rajaa, Shangeth and Tushar, Abhinav},
title = {{SpeechLLM: Multi-Modal LLM for Speech Understanding}},
url = {https://github.com/skit-ai/SpeechLLM}
}