🚀 Pathumma-Audio
Pathumma-Audioは、音声理解タスクに特化したタイ語の大規模言語モデルです。このモデルは、音声、一般的なオーディオ、音楽など、複数のタイプのオーディオ入力を処理し、それを意味のあるテキスト表現に変換することができます。
🚀 クイックスタート
Hugging Face Transformersライブラリを使用してモデルをロードし、応答を生成するには、以下の手順に従ってください。
1. 必要な依存関係をインストールする
以下のコマンドを実行して、必要なライブラリがインストールされていることを確認してください。
pip install librosa torch torchaudio transformers peft
2. モデルをロードして応答を生成する
以下のコードスニペットを使用して、モデルをロードし、応答を生成することができます。
import torch
import librosa
from transformers import AutoModel
device = "cuda" if torch.cuda.is_available() else "cpu"
torch_dtype = torch.bfloat16 if torch.cuda.is_available() else torch.float32
model = AutoModel.from_pretrained(
"nectec/Pathumma-llm-audio-1.0.0",
torch_dtype=torch.bfloat16,
lora_infer_mode=True,
init_from_scratch=True,
trust_remote_code=True
)
model = model.to(device)
prompt = "ถอดเสียงเป็นข้อความ"
audio_path = "audio_path.wav"
audio, sr = librosa.load(audio_path, sr=16000)
model.eval()
with torch.no_grad():
response = model.generate(
raw_wave=audio,
prompts=prompt,
device=device,
max_new_tokens=200,
repetition_penalty=1.0,
)
print(response[0])
✨ 主な機能
Pathumma-llm-audio-1.0.0は、80億パラメータのタイ語の大規模言語モデルで、音声理解タスクに設計されています。このモデルは、音声、一般的なオーディオ、音楽など、複数のタイプのオーディオ入力を処理し、それを意味のあるテキスト表現に変換することができます。
🔧 技術詳細
モデルアーキテクチャ
このモデルは、2つの主要なコンポーネントを組み合わせています。
📄 ライセンス
このモデルは、Apache-2.0ライセンスの下で提供されています。
制限事項と今後の予定
現在、当社のモデルは実験的な研究段階にあり、アシスタントとしての実用的なアプリケーションにはまだ完全には適していません。現在、このモデルには入力時間の制限があり、最大30秒のオーディオ入力を処理することができるため、長いオーディオタスクでの使用性が制限されています。今後の作業では、言語モデルを新しいバージョンPathumma-llm-text-1.0.0にアップグレードし、より洗練された堅牢なデータセットを作成してパフォーマンスを向上させることに焦点を当てます。さらに、モデルの出力の安全性と信頼性に対処し、優先順位を付けることを目指しています。
謝辞
モデルのトレーニングと微調整に使用されたLANTAを提供してくれたThaiSC(NSTDA Supercomputer Centre)に感謝します。また、コードを公開してくれたSALMONNチーム、およびhuggingfaceプロジェクト、ソースコード、技術論文を提供してくれたSCB 10XのTyphoon Audioに感謝します。多くのオープンソースプロジェクトが貴重な情報、コード、データ、モデルの重みを提供してくれており、皆さんに感謝します。
Pathumma Audioチーム
Pattara Tipaksorn、Wayupuk Sommuang、Oatsada Chatthong、Kwanchiva Thangthai
引用
@misc{tipaksorn2024PathummaAudio,
title = { {Pathumma-Audio} },
author = { Pattara Tipaksorn and Wayupuk Sommuang and Kwanchiva Thangthai },
url = { https://huggingface.co/nectec/Pathumma-llm-audio-1.0.0 },
publisher = { Hugging Face },
year = { 2024 },
}