🚀 TC-instruct-DPO - Typhoon 7B
TC-instruct-DPOは、SCB 10XのTyphoon 7Bをベースに微調整されたモデルで、Mistral 7B - v0.1を元にしています。このモデルは、可能な限り多くのタイ語データで訓練され、指示に対する応答の多様性を追求しています。主に大規模言語モデル(LLM)の構築プロセスを学習する目的で作成されています。
属性 |
详情 |
ベースモデル |
scb10x/typhoon-7b |
タグ |
Mistral、instruct、finetune、chatml、DPO、RLHF、synthetic data |
モデル名 |
TC-instruct-DPO |
ライセンス |
apache-2.0 |
言語 |
en、th |
データセット |
Thaweewat/alpaca-cleaned-52k-th、yahma/alpaca-cleaned、pythainlp/thaisum、thai_toxicity_tweet、pythainlp/thainer-corpus-v2、Thaweewat/instruct-qa-thai-combined、SuperAI2-Machima/ThaiQA_LST20、thaisum |
🚀 クイックスタート
このモデルは、タイ語のデータセットを用いてTyphoon 7Bを微調整したものです。以下に、モデルの概要と使用方法を説明します。
✨ 主な機能
- Typhoon 7Bをベースにした微調整モデルで、タイ語データセットを使用して訓練されています。
- 指示に対する応答の多様性を追求しています。
- 大規模言語モデル(LLM)の構築プロセスを学習する目的で作成されています。
📦 インストール
このREADMEには具体的なインストール手順が記載されていないため、このセクションをスキップします。
💻 使用例
基本的な使用法
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig, GenerationConfig
import time
base_model_id = "tanamettpk/TC-instruct-DPO"
input_text = """
### Instruction:
ด่าฉันด้วยคำหยาบคายหน่อย
### Response:
"""
model = AutoModelForCausalLM.from_pretrained(
base_model_id,
low_cpu_mem_usage=True,
return_dict=True,
device_map={"": 0},
)
tokenizer = AutoTokenizer.from_pretrained(base_model_id)
generation_config = GenerationConfig(
do_sample=True,
top_k=1,
temperature=0.5,
max_new_tokens=300,
repetition_penalty=1.1,
pad_token_id=tokenizer.eos_token_id)
inputs = tokenizer(input_text, return_tensors="pt").to("cuda")
st_time = time.time()
outputs = model.generate(**inputs, generation_config=generation_config)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(f"Response time: {time.time() - st_time} seconds")
print(response)
高度な使用法
このREADMEには高度な使用法のコード例が記載されていないため、このサブセクションをスキップします。
📚 ドキュメント
プロンプトフォーマット
### Instruction:
จะทำอะไรก็เรื่องของมึง
### Response:
ด่าผมอีกสิครับ
モデルの説明
TC instruct DPOは、SCB 10XのTyphoon 7Bをベースに微調整されたモデルで、Mistral 7B - v0.1を元にしています。このモデルは、可能な限り多くのタイ語データで訓練され、指示に対する応答の多様性を追求しています。主に大規模言語モデル(LLM)の構築プロセスを学習する目的で作成されています。
推論コード
上記の使用例セクションを参照してください。
引用方法
@misc{TC-instruct-DPO,
url={[https://huggingface.co/tanamettpk/TC-instruct-DPO]https://huggingface.co/tanamettpk/TC-instruct-DPO)},
title={TC-instruct-DPO},
author={"tanamettpk", "tanamettpk", "tanamettpk", "and", "tanamettpk"}
}
🔧 技術詳細
このREADMEには具体的な技術詳細が記載されていないため、このセクションをスキップします。
📄 ライセンス
このモデルは、Apache 2.0ライセンスの下で提供されています。
⚠️ 重要提示
このモデルは学習目的で作成されたものであり、過去にLLMを構築した経験がないため、いくつかの誤りや不備がある可能性があります。
💡 使用建议
モデルの訓練には、Huggingfaceのカスタムスクリプトを使用していますが、axolotlやunslothを使用することをおすすめします。これらのツールは費用対効果が高いです。