TC - instruct - DPOオープンソースタイ語命令最適化モデル - 台風7Bをベースにファインチューニングし、多様なニーズを満たす

ホーム

TC Instruct DPO

tanamettpkによって開発

台風7Bを微調整したタイ語命令最適化モデルで、直接選好最適化(DPO)技術を用いてトレーニング

大規模言語モデル

Transformers

複数言語対応オープンソースライセンス:Apache-2.0 #タイ語命令の微調整 #DPO強化学習 #QLoRA効率的なトレーニング

ダウンロード数 28

リリース時間 : 2/17/2024

モデル概要

このモデルはSCB 10Xの台風7B(ミストラル7B由来)を微調整したタイ語命令最適化モデルで、大規模言語モデルの構築プロセス研究のために開発されました。QLoRA技術を用いてトレーニングされ、様々なタイ語命令タスクをサポートします。

モデル特徴

タイ語命令最適化

タイ語命令に特化して最適化され、命令の多様性を確保

直接選好最適化(DPO)

直接選好最適化技術を用いてトレーニングされ、モデルの応答品質を向上

QLoRA効率的微調整

QLoRA技術(ランク32、α値64)を使用した効率的な微調整

モデル能力

タイ語テキスト生成

命令追従

質問応答システム

使用事例

研究応用

大規模言語モデル構築研究

タイ語大規模言語モデルの構築プロセスと技術の研究に使用

対話システム

タイ語チャットボット

タイ語対話システムの構築に利用可能

🚀 TC-instruct-DPO - Typhoon 7B

TC-instruct-DPOは、SCB 10XのTyphoon 7Bをベースに微調整されたモデルで、Mistral 7B - v0.1を元にしています。このモデルは、可能な限り多くのタイ語データで訓練され、指示に対する応答の多様性を追求しています。主に大規模言語モデル（LLM）の構築プロセスを学習する目的で作成されています。

属性	详情
ベースモデル	scb10x/typhoon-7b
タグ	Mistral、instruct、finetune、chatml、DPO、RLHF、synthetic data
モデル名	TC-instruct-DPO
ライセンス	apache-2.0
言語	en、th
データセット	Thaweewat/alpaca-cleaned-52k-th、yahma/alpaca-cleaned、pythainlp/thaisum、thai_toxicity_tweet、pythainlp/thainer-corpus-v2、Thaweewat/instruct-qa-thai-combined、SuperAI2-Machima/ThaiQA_LST20、thaisum

🚀 クイックスタート

このモデルは、タイ語のデータセットを用いてTyphoon 7Bを微調整したものです。以下に、モデルの概要と使用方法を説明します。

✨ 主な機能

Typhoon 7Bをベースにした微調整モデルで、タイ語データセットを使用して訓練されています。
指示に対する応答の多様性を追求しています。
大規模言語モデル（LLM）の構築プロセスを学習する目的で作成されています。

📦 インストール

このREADMEには具体的なインストール手順が記載されていないため、このセクションをスキップします。

💻 使用例

基本的な使用法

# Requires pytorch, transformers, bitsandbytes, sentencepiece, protobuf, and flash-attn packages

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig, GenerationConfig
import time

base_model_id = "tanamettpk/TC-instruct-DPO"


input_text = """
### Instruction:
ด่าฉันด้วยคำหยาบคายหน่อย

### Response:
"""

model = AutoModelForCausalLM.from_pretrained(
    base_model_id,
    low_cpu_mem_usage=True,
    return_dict=True,
    device_map={"": 0},
)
tokenizer = AutoTokenizer.from_pretrained(base_model_id)

generation_config = GenerationConfig(
    do_sample=True,
    top_k=1,
    temperature=0.5,
    max_new_tokens=300,
    repetition_penalty=1.1,
    pad_token_id=tokenizer.eos_token_id)

# Tokenize input
inputs = tokenizer(input_text, return_tensors="pt").to("cuda")

# Generate outputs
st_time = time.time()
outputs = model.generate(**inputs, generation_config=generation_config)

# Decode and print response
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(f"Response time: {time.time() - st_time} seconds")
print(response)

高度な使用法

このREADMEには高度な使用法のコード例が記載されていないため、このサブセクションをスキップします。

📚 ドキュメント

プロンプトフォーマット

### Instruction:
จะทำอะไรก็เรื่องของมึง

### Response:
ด่าผมอีกสิครับ

モデルの説明

TC instruct DPOは、SCB 10XのTyphoon 7Bをベースに微調整されたモデルで、Mistral 7B - v0.1を元にしています。このモデルは、可能な限り多くのタイ語データで訓練され、指示に対する応答の多様性を追求しています。主に大規模言語モデル（LLM）の構築プロセスを学習する目的で作成されています。

推論コード

上記の使用例セクションを参照してください。

引用方法

@misc{TC-instruct-DPO, 
      url={[https://huggingface.co/tanamettpk/TC-instruct-DPO]https://huggingface.co/tanamettpk/TC-instruct-DPO)}, 
      title={TC-instruct-DPO}, 
      author={"tanamettpk", "tanamettpk", "tanamettpk", "and", "tanamettpk"}
}