Pathumma-llm-audio-1.0.0開源泰語大模型 - 免費部署處理多種音頻理解任務

首頁

Pathumma Llm Audio 1.0.0

由nectec開發

Pathumma-llm-audio-1.0.0是一個80億參數的泰語大語言模型，專為音頻理解任務設計，能夠處理語音、通用音頻和音樂等多種音頻輸入。

音頻生成文本

Transformers

支持多種語言開源協議:Apache-2.0 #泰語音頻理解 #多模態音頻處理 #短音頻轉錄

下載量 333

發布時間 : 10/24/2024

模型概述

該模型結合了OpenThaiLLM-DoodNiLT-V1.0.0-Beta-7B語言模型和Pathumma-whisper-th-large-v3語音編碼器，能夠將音頻轉換為有意義的文本表示。

模型特點

多類型音頻處理

能夠處理語音、通用音頻和音樂等多種類型的音頻輸入。

泰語優化

專為泰語設計，優化了泰語語音和文本的轉換能力。

高效推理

支持LoRA推理模式，適合在有限資源下運行。

模型能力

音頻轉錄

語音理解

文本生成

使用案例

語音轉錄

泰語語音轉文本

將泰語語音轉換為文本輸出。

音頻理解

通用音頻分析

分析通用音頻內容並生成描述性文本。

🚀 Pathumma-Audio

Pathumma-Audio是一個專為音頻理解任務設計的泰語大語言模型，能夠處理多種類型的音頻輸入，將其轉化為有意義的文本表示。

🚀 快速開始

若要使用Hugging Face Transformers庫加載模型並生成回覆，請遵循以下步驟：

1. 安裝所需依賴

運行以下命令確保安裝了必要的庫：

pip install librosa torch torchaudio transformers peft

2. 加載模型並生成回覆

可以使用以下代碼片段加載模型並生成回覆：

import torch
import librosa
from transformers import AutoModel

device = "cuda" if torch.cuda.is_available() else "cpu"
torch_dtype = torch.bfloat16 if torch.cuda.is_available() else torch.float32

model = AutoModel.from_pretrained(
    "nectec/Pathumma-llm-audio-1.0.0",
    torch_dtype=torch.bfloat16,
    lora_infer_mode=True,
    init_from_scratch=True,
    trust_remote_code=True
)
model = model.to(device)

prompt = "ถอดเสียงเป็นข้อความ"
audio_path = "audio_path.wav"
audio, sr = librosa.load(audio_path, sr=16000)

model.eval()
with torch.no_grad():
  response = model.generate(
        raw_wave=audio,
        prompts=prompt,
        device=device,
        max_new_tokens=200,
        repetition_penalty=1.0,
)
print(response[0])

✨ 主要特性

Pathumma-llm-audio-1.0.0 是一個擁有80億參數的泰語大語言模型，專為音頻理解任務而設計。該模型可以處理多種類型的音頻輸入，包括語音、普通音頻和音樂，並將其轉換為有意義的文本表示。

📚 詳細文檔

模型架構

該模型結合了兩個關鍵組件：

1. 基礎語言模型：OpenThaiLLM-DoodNiLT-V1.0.0-Beta-7B (Qwen2)
1. 基礎語音編碼器：Pathumma-whisper-th-large-v3 (Whisper)

評估性能

目前這部分還需要補充額外信息。

侷限性和未來工作

目前，我們的模型仍處於實驗研究階段，尚未完全適合作為助手用於實際應用。該模型目前存在輸入時長限制，最多隻能處理30秒的音頻輸入，這限制了其在較長音頻任務中的可用性。未來的工作將集中在將語言模型升級到新版本 Pathumma-llm-text-1.0.0，並精心策劃更精細、更強大的數據集以提高性能。此外，我們的目標是解決並優先考慮模型輸出的安全性和可靠性。

致謝

我們感謝泰國科學技術發展局超級計算機中心（ThaiSC）提供了用於模型訓練和微調的LANTA。此外，我們要感謝SALMONN團隊公開他們的代碼，以及SCB 10X的Typhoon Audio提供的Hugging Face項目、源代碼和技術論文，這些對我們來說是非常有價值的參考。許多其他開源項目也貢獻了有價值的信息、代碼、數據和模型權重，我們對它們都表示感謝。

Pathumma音頻團隊

Pattara Tipaksorn、Wayupuk Sommuang、Oatsada Chatthong、Kwanchiva Thangthai

引用

@misc{tipaksorn2024PathummaAudio,
    title        = { {Pathumma-Audio} },
    author       = { Pattara Tipaksorn and Wayupuk Sommuang and Kwanchiva Thangthai },
    url          = { https://huggingface.co/nectec/Pathumma-llm-audio-1.0.0 },
    publisher    = { Hugging Face },
    year         = { 2024 },
}