Pathumma-llm-audio-1.0.0オープンソースタイ語大規模モデル - 無料でデプロイして多種の音声理解タスクを処理可能

ホーム

Pathumma Llm Audio 1.0.0

nectecによって開発

Pathumma-llm-audio-1.0.0は80億パラメータのタイ語大規模言語モデルで、音声理解タスク向けに設計されており、音声、汎用音声、音楽など様々な音声入力を処理できます。

音声生成テキスト

Transformers

複数言語対応オープンソースライセンス:Apache-2.0 #タイ語音声理解 #マルチモーダル音声処理 #短い音声の書き起こし

ダウンロード数 333

リリース時間 : 10/24/2024

モデル概要

このモデルはOpenThaiLLM-DoodNiLT-V1.0.0-Beta-7B言語モデルとPathumma-whisper-th-large-v3音声エンコーダを組み合わせており、音声を意味のあるテキスト表現に変換できます。

モデル特徴

多種音声処理

音声、汎用音声、音楽など様々な種類の音声入力を処理できます。

タイ語最適化

タイ語向けに設計され、タイ語音声とテキストの変換能力を最適化しています。

効率的な推論

LoRA推論モードをサポートし、限られたリソースでの実行に適しています。

モデル能力

音声書き起こし

音声理解

テキスト生成

使用事例

音声書き起こし

タイ語音声からテキストへ

タイ語音声をテキスト出力に変換します。

音声理解

汎用音声分析

汎用音声内容を分析し、記述的なテキストを生成します。

🚀 Pathumma-Audio

Pathumma-Audioは、音声理解タスクに特化したタイ語の大規模言語モデルです。このモデルは、音声、一般的なオーディオ、音楽など、複数のタイプのオーディオ入力を処理し、それを意味のあるテキスト表現に変換することができます。

🚀 クイックスタート

Hugging Face Transformersライブラリを使用してモデルをロードし、応答を生成するには、以下の手順に従ってください。

1. 必要な依存関係をインストールする

以下のコマンドを実行して、必要なライブラリがインストールされていることを確認してください。

pip install librosa torch torchaudio transformers peft

2. モデルをロードして応答を生成する

以下のコードスニペットを使用して、モデルをロードし、応答を生成することができます。

import torch
import librosa
from transformers import AutoModel

device = "cuda" if torch.cuda.is_available() else "cpu"
torch_dtype = torch.bfloat16 if torch.cuda.is_available() else torch.float32

model = AutoModel.from_pretrained(
    "nectec/Pathumma-llm-audio-1.0.0",
    torch_dtype=torch.bfloat16,
    lora_infer_mode=True,
    init_from_scratch=True,
    trust_remote_code=True
)
model = model.to(device)

prompt = "ถอดเสียงเป็นข้อความ"
audio_path = "audio_path.wav"
audio, sr = librosa.load(audio_path, sr=16000)

model.eval()
with torch.no_grad():
  response = model.generate(
        raw_wave=audio,
        prompts=prompt,
        device=device,
        max_new_tokens=200,
        repetition_penalty=1.0,
)
print(response[0])

✨ 主な機能

Pathumma-llm-audio-1.0.0は、80億パラメータのタイ語の大規模言語モデルで、音声理解タスクに設計されています。このモデルは、音声、一般的なオーディオ、音楽など、複数のタイプのオーディオ入力を処理し、それを意味のあるテキスト表現に変換することができます。

🔧 技術詳細

モデルアーキテクチャ

このモデルは、2つの主要なコンポーネントを組み合わせています。

1. 基本言語モデル: OpenThaiLLM-DoodNiLT-V1.0.0-Beta-7B (Qwen2)
1. 基本音声エンコーダ: Pathumma-whisper-th-large-v3 (Whisper)

📄 ライセンス

このモデルは、Apache-2.0ライセンスの下で提供されています。

制限事項と今後の予定

現在、当社のモデルは実験的な研究段階にあり、アシスタントとしての実用的なアプリケーションにはまだ完全には適していません。現在、このモデルには入力時間の制限があり、最大30秒のオーディオ入力を処理することができるため、長いオーディオタスクでの使用性が制限されています。今後の作業では、言語モデルを新しいバージョンPathumma-llm-text-1.0.0にアップグレードし、より洗練された堅牢なデータセットを作成してパフォーマンスを向上させることに焦点を当てます。さらに、モデルの出力の安全性と信頼性に対処し、優先順位を付けることを目指しています。

謝辞

モデルのトレーニングと微調整に使用されたLANTAを提供してくれたThaiSC（NSTDA Supercomputer Centre）に感謝します。また、コードを公開してくれたSALMONNチーム、およびhuggingfaceプロジェクト、ソースコード、技術論文を提供してくれたSCB 10XのTyphoon Audioに感謝します。多くのオープンソースプロジェクトが貴重な情報、コード、データ、モデルの重みを提供してくれており、皆さんに感謝します。

Pathumma Audioチーム

Pattara Tipaksorn、Wayupuk Sommuang、Oatsada Chatthong、Kwanchiva Thangthai

引用

@misc{tipaksorn2024PathummaAudio,
    title        = { {Pathumma-Audio} },
    author       = { Pattara Tipaksorn and Wayupuk Sommuang and Kwanchiva Thangthai },
    url          = { https://huggingface.co/nectec/Pathumma-llm-audio-1.0.0 },
    publisher    = { Hugging Face },
    year         = { 2024 },
}