ThaiT5-Instructオープンソースタイ語命令モデル - 無料でデプロイ可能、会話、質疑応答、要約タスクをサポート

ホーム

Thait5 Instruct

Peenipatによって開発

kobkrit/thai-t5-baseを微調整したタイ語命令モデルで、会話、質問応答、要約などのタスクをサポート

大規模言語モデル

Transformers

その他オープンソースライセンス:MIT #タイ語命令微調整 #マルチタスクテキスト生成 #低リソース最適化

ダウンロード数 41

リリース時間 : 2/14/2025

モデル概要

ThaiT5-Instructはタイ語T5モデルを微調整した命令追従モデルで、タイ語自然言語処理タスクに特化して最適化されており、様々なテキスト生成・理解タスクをサポートします。

モデル特徴

タイ語最適化

タイ語に特化して微調整されており、タイ語テキスト生成・理解タスクで優れた性能を発揮

マルチタスクサポート

会話、質問応答、要約など様々な自然言語処理タスクをサポート

命令追従

自然言語命令を理解し実行可能

モデル能力

テキスト生成

質問応答システム

対話システム

要約生成

ブレインストーミング

多肢選択推論

使用事例

カスタマーサービス

タイ語カスタマーサービスボット

タイ語の顧客からの一般的な質問に対応

タイ語の質問を理解し関連する回答を提供可能

教育

タイ語学習アシスタント

学習者がタイ語の語彙や文法を理解するのを支援

タイ語の語彙の意味を説明し例文を提供可能

🚀 ThaiT5-Instruct

ThaiT5-Instructは、kobkrit/thai-t5-baseを微調整したバージョンで、WangchanX Seed-Free Synthetic Instruct Thai 120kデータセットで訓練されています。このモデルは、会話、選択式推論、アイデア出し、質問応答、要約など、様々な自然言語処理タスクをサポートしています。

🚀 クイックスタート

ThaiT5-Instructは、kobkrit/thai-t5-baseをWangchanX Seed-Free Synthetic Instruct Thai 120kデータセットで13エポック訓練したモデルです。このモデルは、以下のような様々な自然言語処理タスクをサポートしています。

会話
選択式推論
アイデア出し
質問応答
要約

このモデルは、さらに多くのリソースを投入することで性能を向上させることができます。

✨ 主な機能

様々な自然言語処理タスクをサポート
13エポックの訓練を行い、性能を向上させています
さらなるリソースの投入により、性能を向上させることが可能

📦 インストール

このモデルはtransformersライブラリを使用しています。以下のコマンドでインストールできます。

pip install transformers

💻 使用例

基本的な使用法

from transformers import AutoModelForSeq2SeqLM, AutoTokenizer

model = AutoModelForSeq2SeqLM.from_pretrained("Peenipat/ThaiT5-Instruct", trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained("Peenipat/ThaiT5-Instruct")

input_text = "หวัดดี"

inputs = tokenizer(input_text, return_tensors="pt")
outputs = model.generate(input_ids=inputs["input_ids"])
output_text = tokenizer.decode(outputs[0], skip_special_tokens=True)

print(output_text)

高度な使用法

from transformers import AutoModelForSeq2SeqLM, AutoTokenizer, pipeline

model = AutoModelForSeq2SeqLM.from_pretrained("Peenipat/ThaiT5-Instruct", trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained("Peenipat/ThaiT5-Instruct")

model.eval()
qa_pipeline = pipeline("text2text-generation", model=model, tokenizer=tokenizer)

def ask_question():
    context = input("Input Context: ")
    question = input("Input Question: ")
    input_text = f"Context: {context} Question: {question}"
    output = qa_pipeline(input_text,
                         max_length=60,
                         min_length=20,
                         no_repeat_ngram_size=3,
                         num_beams=5,
                         early_stopping=True)
    output_text = output[0]['generated_text']
    print("\nOutput:")
    print(output_text)

📚 ドキュメント

モデルの詳細

ThaiT5-Instructは、kobkrit/thai-t5-baseを微調整したバージョンで、WangchanX Seed-Free Synthetic Instruct Thai 120kデータセットで訓練されています。このモデルは、以下のような様々な自然言語処理タスクをサポートしています。

会話
選択式推論
アイデア出し
質問応答
要約

訓練の詳細

項目	詳細
ベースモデル	`kobkrit/thai-t5-base`
エポック数	`13`
デバイスごとのバッチサイズ	`32`
勾配累積ステップ	`2`
オプティマイザ	AdamW
使用ハードウェア	`A100`

訓練損失 (エポックごと)

[2.2463, 1.7010, 1.5261, 1.4626, 1.4085, 1.3844, 1.3647, 1.3442, 1.3373, 1.3182, 1.3169, 1.3016]

検証損失 (エポックごと)

[1.4781, 1.3761, 1.3131, 1.2775, 1.2549, 1.2364, 1.2226, 1.2141, 1.2043, 1.1995, 1.1954, 1.1929]

評価結果

このモデルは、いくつかの自然言語処理指標を使用して評価されています。以下は評価結果です。

指標	スコア
ROUGE-1	0.0617
ROUGE-2	0.0291
ROUGE-L	0.061
BLEU	0.0093
完全一致率	0.2516
F1スコア	27.8984

🔧 技術詳細

このモデルは、transformersライブラリを使用して訓練されています。
訓練には、A100ハードウェアを使用しています。
オプティマイザには、AdamWを使用しています。

📄 ライセンス

このモデルは、MITライセンスの下で公開されています。

引用

このモデルを使用する場合は、以下のように引用してください。

@misc{PeenipatThaiT5Instruct,
  title={ThaiT5-Instruct},
  author={Peenipat},
  year={2025},
  publisher={Hugging Face},
  url={https://huggingface.co/Peenipat/ThaiT5-Instruct}
}