Pathumma-llm-audio-1.0.0开源泰语大模型 - 免费部署处理多种音频理解任务

首页

Pathumma Llm Audio 1.0.0

由 nectec 开发

Pathumma-llm-audio-1.0.0是一个80亿参数的泰语大语言模型，专为音频理解任务设计，能够处理语音、通用音频和音乐等多种音频输入。

音频生成文本

Transformers

支持多种语言开源协议:Apache-2.0 #泰语音频理解 #多模态音频处理 #短音频转录

下载量 333

发布时间 : 10/24/2024

模型简介

该模型结合了OpenThaiLLM-DoodNiLT-V1.0.0-Beta-7B语言模型和Pathumma-whisper-th-large-v3语音编码器，能够将音频转换为有意义的文本表示。

模型特点

多类型音频处理

能够处理语音、通用音频和音乐等多种类型的音频输入。

泰语优化

专为泰语设计，优化了泰语语音和文本的转换能力。

高效推理

支持LoRA推理模式，适合在有限资源下运行。

模型能力

音频转录

语音理解

文本生成

使用案例

语音转录

泰语语音转文本

将泰语语音转换为文本输出。

音频理解

通用音频分析

分析通用音频内容并生成描述性文本。

🚀 Pathumma-Audio

Pathumma-Audio是一个专为音频理解任务设计的泰语大语言模型，能够处理多种类型的音频输入，将其转化为有意义的文本表示。

🚀 快速开始

若要使用Hugging Face Transformers库加载模型并生成回复，请遵循以下步骤：

1. 安装所需依赖

运行以下命令确保安装了必要的库：

pip install librosa torch torchaudio transformers peft

2. 加载模型并生成回复

可以使用以下代码片段加载模型并生成回复：

import torch
import librosa
from transformers import AutoModel

device = "cuda" if torch.cuda.is_available() else "cpu"
torch_dtype = torch.bfloat16 if torch.cuda.is_available() else torch.float32

model = AutoModel.from_pretrained(
    "nectec/Pathumma-llm-audio-1.0.0",
    torch_dtype=torch.bfloat16,
    lora_infer_mode=True,
    init_from_scratch=True,
    trust_remote_code=True
)
model = model.to(device)

prompt = "ถอดเสียงเป็นข้อความ"
audio_path = "audio_path.wav"
audio, sr = librosa.load(audio_path, sr=16000)

model.eval()
with torch.no_grad():
  response = model.generate(
        raw_wave=audio,
        prompts=prompt,
        device=device,
        max_new_tokens=200,
        repetition_penalty=1.0,
)
print(response[0])

✨ 主要特性

Pathumma-llm-audio-1.0.0 是一个拥有80亿参数的泰语大语言模型，专为音频理解任务而设计。该模型可以处理多种类型的音频输入，包括语音、普通音频和音乐，并将其转换为有意义的文本表示。

📚 详细文档

模型架构

该模型结合了两个关键组件：

1. 基础语言模型：OpenThaiLLM-DoodNiLT-V1.0.0-Beta-7B (Qwen2)
1. 基础语音编码器：Pathumma-whisper-th-large-v3 (Whisper)

评估性能

目前这部分还需要补充额外信息。

局限性和未来工作

目前，我们的模型仍处于实验研究阶段，尚未完全适合作为助手用于实际应用。该模型目前存在输入时长限制，最多只能处理30秒的音频输入，这限制了其在较长音频任务中的可用性。未来的工作将集中在将语言模型升级到新版本 Pathumma-llm-text-1.0.0，并精心策划更精细、更强大的数据集以提高性能。此外，我们的目标是解决并优先考虑模型输出的安全性和可靠性。

致谢

我们感谢泰国科学技术发展局超级计算机中心（ThaiSC）提供了用于模型训练和微调的LANTA。此外，我们要感谢SALMONN团队公开他们的代码，以及SCB 10X的Typhoon Audio提供的Hugging Face项目、源代码和技术论文，这些对我们来说是非常有价值的参考。许多其他开源项目也贡献了有价值的信息、代码、数据和模型权重，我们对它们都表示感谢。

Pathumma音频团队

Pattara Tipaksorn、Wayupuk Sommuang、Oatsada Chatthong、Kwanchiva Thangthai

引用

@misc{tipaksorn2024PathummaAudio,
    title        = { {Pathumma-Audio} },
    author       = { Pattara Tipaksorn and Wayupuk Sommuang and Kwanchiva Thangthai },
    url          = { https://huggingface.co/nectec/Pathumma-llm-audio-1.0.0 },
    publisher    = { Hugging Face },
    year         = { 2024 },
}