🚀 Pathumma-Audio
Pathumma-Audio是一个专为音频理解任务设计的泰语大语言模型,能够处理多种类型的音频输入,将其转化为有意义的文本表示。
🚀 快速开始
若要使用Hugging Face Transformers库加载模型并生成回复,请遵循以下步骤:
1. 安装所需依赖
运行以下命令确保安装了必要的库:
pip install librosa torch torchaudio transformers peft
2. 加载模型并生成回复
可以使用以下代码片段加载模型并生成回复:
import torch
import librosa
from transformers import AutoModel
device = "cuda" if torch.cuda.is_available() else "cpu"
torch_dtype = torch.bfloat16 if torch.cuda.is_available() else torch.float32
model = AutoModel.from_pretrained(
"nectec/Pathumma-llm-audio-1.0.0",
torch_dtype=torch.bfloat16,
lora_infer_mode=True,
init_from_scratch=True,
trust_remote_code=True
)
model = model.to(device)
prompt = "ถอดเสียงเป็นข้อความ"
audio_path = "audio_path.wav"
audio, sr = librosa.load(audio_path, sr=16000)
model.eval()
with torch.no_grad():
response = model.generate(
raw_wave=audio,
prompts=prompt,
device=device,
max_new_tokens=200,
repetition_penalty=1.0,
)
print(response[0])
✨ 主要特性
Pathumma-llm-audio-1.0.0 是一个拥有80亿参数的泰语大语言模型,专为音频理解任务而设计。该模型可以处理多种类型的音频输入,包括语音、普通音频和音乐,并将其转换为有意义的文本表示。
📚 详细文档
模型架构
该模型结合了两个关键组件:
评估性能
目前这部分还需要补充额外信息。
局限性和未来工作
目前,我们的模型仍处于实验研究阶段,尚未完全适合作为助手用于实际应用。该模型目前存在输入时长限制,最多只能处理30秒的音频输入,这限制了其在较长音频任务中的可用性。未来的工作将集中在将语言模型升级到新版本 Pathumma-llm-text-1.0.0,并精心策划更精细、更强大的数据集以提高性能。此外,我们的目标是解决并优先考虑模型输出的安全性和可靠性。
致谢
我们感谢泰国科学技术发展局超级计算机中心(ThaiSC)提供了用于模型训练和微调的LANTA。此外,我们要感谢SALMONN团队公开他们的代码,以及SCB 10X的Typhoon Audio提供的Hugging Face项目、源代码和技术论文,这些对我们来说是非常有价值的参考。许多其他开源项目也贡献了有价值的信息、代码、数据和模型权重,我们对它们都表示感谢。
Pathumma音频团队
Pattara Tipaksorn、Wayupuk Sommuang、Oatsada Chatthong、Kwanchiva Thangthai
引用
@misc{tipaksorn2024PathummaAudio,
title = { {Pathumma-Audio} },
author = { Pattara Tipaksorn and Wayupuk Sommuang and Kwanchiva Thangthai },
url = { https://huggingface.co/nectec/Pathumma-llm-audio-1.0.0 },
publisher = { Hugging Face },
year = { 2024 },
}
📄 许可证
本项目采用Apache-2.0许可证。