🚀 Pathumma-Audio
Pathumma-Audio是一個專為音頻理解任務設計的泰語大語言模型,能夠處理多種類型的音頻輸入,將其轉化為有意義的文本表示。
🚀 快速開始
若要使用Hugging Face Transformers庫加載模型並生成回覆,請遵循以下步驟:
1. 安裝所需依賴
運行以下命令確保安裝了必要的庫:
pip install librosa torch torchaudio transformers peft
2. 加載模型並生成回覆
可以使用以下代碼片段加載模型並生成回覆:
import torch
import librosa
from transformers import AutoModel
device = "cuda" if torch.cuda.is_available() else "cpu"
torch_dtype = torch.bfloat16 if torch.cuda.is_available() else torch.float32
model = AutoModel.from_pretrained(
"nectec/Pathumma-llm-audio-1.0.0",
torch_dtype=torch.bfloat16,
lora_infer_mode=True,
init_from_scratch=True,
trust_remote_code=True
)
model = model.to(device)
prompt = "ถอดเสียงเป็นข้อความ"
audio_path = "audio_path.wav"
audio, sr = librosa.load(audio_path, sr=16000)
model.eval()
with torch.no_grad():
response = model.generate(
raw_wave=audio,
prompts=prompt,
device=device,
max_new_tokens=200,
repetition_penalty=1.0,
)
print(response[0])
✨ 主要特性
Pathumma-llm-audio-1.0.0 是一個擁有80億參數的泰語大語言模型,專為音頻理解任務而設計。該模型可以處理多種類型的音頻輸入,包括語音、普通音頻和音樂,並將其轉換為有意義的文本表示。
📚 詳細文檔
模型架構
該模型結合了兩個關鍵組件:
評估性能
目前這部分還需要補充額外信息。
侷限性和未來工作
目前,我們的模型仍處於實驗研究階段,尚未完全適合作為助手用於實際應用。該模型目前存在輸入時長限制,最多隻能處理30秒的音頻輸入,這限制了其在較長音頻任務中的可用性。未來的工作將集中在將語言模型升級到新版本 Pathumma-llm-text-1.0.0,並精心策劃更精細、更強大的數據集以提高性能。此外,我們的目標是解決並優先考慮模型輸出的安全性和可靠性。
致謝
我們感謝泰國科學技術發展局超級計算機中心(ThaiSC)提供了用於模型訓練和微調的LANTA。此外,我們要感謝SALMONN團隊公開他們的代碼,以及SCB 10X的Typhoon Audio提供的Hugging Face項目、源代碼和技術論文,這些對我們來說是非常有價值的參考。許多其他開源項目也貢獻了有價值的信息、代碼、數據和模型權重,我們對它們都表示感謝。
Pathumma音頻團隊
Pattara Tipaksorn、Wayupuk Sommuang、Oatsada Chatthong、Kwanchiva Thangthai
引用
@misc{tipaksorn2024PathummaAudio,
title = { {Pathumma-Audio} },
author = { Pattara Tipaksorn and Wayupuk Sommuang and Kwanchiva Thangthai },
url = { https://huggingface.co/nectec/Pathumma-llm-audio-1.0.0 },
publisher = { Hugging Face },
year = { 2024 },
}
📄 許可證
本項目採用Apache-2.0許可證。