🚀 T-lite-instruct-0.1
T-liteは、さらなる微調整用に設計されており、すぐに使用できる会話アシスタントとしては意図されていません。ユーザーは注意を払い、モデルの応答が許容可能な倫理的および安全基準を満たすように、必要な追加のトレーニングと監視に責任を負う必要があります。このモデルを産業または商業ソリューションに組み込む責任は、それをデプロイすることを選択した者に完全にあります。
📚 ドキュメント
概要
T-lite-instruct-0.1は、T-lite-0.1モデルの命令対応バージョンです。
T-lite-instruct-0.1はbf16でトレーニングされています。
データセット
コンテキスト
命令データセットのコンテキストは、以下から取得されています。
- オープンソースの英語データセット(UltraFeedback、HelpSteer、SHPなど)
- 英語データセットの機械翻訳による翻訳
- 事前学習データセットから生成された合成接地QAコンテキスト
翻訳されたコンテキストは、分類器を使用してフィルタリングされています。
SFT
コンテキストに対する応答は強力なモデルによって生成され、トレーニングはこれらの応答のみで行われます。これにより、低品質の翻訳でモデルをトレーニングすることを避けています。
報酬モデリング
RMは、以下のペアでトレーニングされています。
- 強力なモデル > 当社モデル
- より強力なモデル > より弱いモデル
- 選択された翻訳応答 > 拒否された翻訳応答
- 元の英語データセットからのペア
翻訳された嗜好データは、RMアンサンブルによって事前にフィルタリングされています。
嗜好微調整
嗜好微調整には2つの段階が使用されています。
- 段階1:教師モデルの応答に対するSPiN(強力なモデル > 当社モデル)
- 段階2:当社のRMを使用したSLiC-HF
🔍 ベンチマーク
ここでは、T-lite-instruct-0.1の自動ベンチマーク結果を提示します。
このベンチマークは丁寧にロシア語に翻訳され、LLM Judgeコードベースを使用して測定され、ジャッジとしてgpt-4-1106-previewが使用されています。
MT-Bench |
合計 |
ターン1 |
ターン2 |
コーディング |
人文科学 |
数学 |
推論 |
ロールプレイ |
STEM |
ライティング |
T-lite-instruct-0.1 |
6.458 |
6.833 |
6.078 |
4.136 |
8.45 |
4.25 |
4.5 |
7.667 |
7.7 |
7.706 |
gpt3.5-turbo-0125 |
6.373 |
6.423 |
6.320 |
6.519 |
7.474 |
4.75 |
4.15 |
6.333 |
6.7 |
7.588 |
suzume-llama-3-8B-multilingual-orpo-borda-half |
6.051 |
6.577 |
5.526 |
4.318 |
8.0 |
4.0 |
3.6 |
7.056 |
6.7 |
7.889 |
Qwen2-7b-Instruct |
6.026 |
6.449 |
5.603 |
5.0 |
6.95 |
5.8 |
4.15 |
7.167 |
5.85 |
7.278 |
Llama-3-8b-Instruct |
5.948 |
6.662 |
5.224 |
4.727 |
7.8 |
3.9 |
2.8 |
7.333 |
6.053 |
7.0 |
suzume-llama-3-8B-multilingual |
5.808 |
6.167 |
5.449 |
5.409 |
6.4 |
5.05 |
3.8 |
6.556 |
5.0 |
7.056 |
saiga_llama3_8b |
5.471 |
5.896 |
5.039 |
3.0 |
7.4 |
3.55 |
3.5 |
6.444 |
5.15 |
7.812 |
Mistral-7B-Instruct-v0.3 |
5.135 |
5.679 |
4.584 |
4.045 |
6.35 |
3.15 |
3.2 |
5.765 |
5.2 |
7.333 |
Vikhrmodelsのロシア語版ArenaベンチマークとArena Hard Autoコードベースを使用して評価を行いました。ベースラインモデルとしてgpt3.5-turbo-0125を選択し、ジャッジとしてgpt-4-1106-previewを使用しました。
Arena General |
スコア |
95%信頼区間 |
平均トークン数 |
T-lite-instruct-0.1 |
57.26 |
-2.9/2 |
870 |
gpt3.5-turbo-0125 |
50 |
0/0 |
254 |
suzume-llama-3-8B-multilingual-orpo-borda-half |
47.17 |
-2.6/2.4 |
735 |
Llama-3-8b-Instruct |
42.16 |
-2.1/2.1 |
455 |
saiga_llama3_8b |
39.88 |
-2.3/2.5 |
616 |
suzume-llama-3-8B-multilingual |
38.25 |
-1.7/1.7 |
625 |
Qwen2-7b-Instruct |
33.42 |
-1.9/2.2 |
365 |
Mistral-7B-Instruct-v0.3 |
28.11 |
-2/2.2 |
570 |
💻 使用例
基本的な使用法
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
torch.manual_seed(42)
model_name = "t-bank-ai/T-lite-instruct-0.1"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto")
messages = [
{"role": "user", "content": "–ù–∞–ø–∏—à–∏ —Ä–µ—Ü–µ–ø—Ç –∫–ª–∞—Å—Å–Ω–æ–π –ø–∏—Ü—Ü—ã!"},
]
input_ids = tokenizer.apply_chat_template(
messages,
add_generation_prompt=True,
return_tensors="pt"
).to(model.device)
terminators = [
tokenizer.eos_token_id,
tokenizer.convert_tokens_to_ids("<|eot_id|>")
]
outputs = model.generate(
input_ids,
max_new_tokens=256,
eos_token_id=terminators,
)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
出力:
Конечно, вот рецепт для вкусной домашней пиццы, который можно адаптировать под разные вкусы и предпочтения. Важно, чтобы тесто было мягким и воздушным, а начинка — сочной и ароматной.
### –ò–Ω–≥—Ä–µ–¥–∏–µ–Ω—Ç—ã –¥–ª—è —Ç–µ—Å—Ç–∞:
- 500 –≥ –º—É–∫–∏ (–ª—É—á—à–µ –∏—Å–ø–æ–ª—å–∑–æ–≤–∞—Ç—å —Å–º–µ—Å—å –ø—à–µ–Ω–∏—á–Ω–æ–π –∏ —Ü–µ–ª—å–Ω–æ–∑–µ—Ä–Ω–æ–≤–æ–π)
- 1 —á. –ª. —Å—É—Ö–∏—Ö –¥—Ä–æ–∂–∂–µ–π (–∏–ª–∏ 7 –≥ —Å–≤–µ–∂–∏—Ö)
- 1 —á. –ª. —Å–∞—Ö–∞—Ä–∞
- 1 —á. –ª. —Å–æ–ª–∏
- 1 —Å—Ç. –ª. –æ–ª–∏–≤–∫–æ–≤–æ–≥–æ –º–∞—Å–ª–∞
- 300 –º–ª —Ç—ë–ø–ª–æ–π –≤–æ–¥—ã
- 1 —è–π—Ü–æ (–¥–ª—è —Å–º–∞–∑–∫–∏)
### –ò–Ω–≥—Ä–µ–¥–∏–µ–Ω—Ç—ã –¥–ª—è –Ω–∞—á–∏–Ω–∫–∏ (–ø—Ä–∏–º–µ—Ä–Ω—ã–π –Ω–∞–±–æ—Ä):
- 200 –≥ —Ç–æ–º–∞—Ç–Ω–æ–≥–æ —Å–æ—É—Å–∞ (–º–æ–∂–Ω–æ —Å–¥–µ–ª–∞—Ç—å —Å–∞–º–æ–º—É –∏–∑ —Å–≤–µ–∂–∏—Ö –ø–æ–º–∏–¥–æ—Ä–æ–≤ –∏–ª–∏ –∏—Å–ø–æ–ª—å–∑–æ–≤–∞—Ç—å –≥–æ—Ç–æ–≤—ã–π)
- 200 –≥ –º–æ—Ü–∞—Ä–µ–ª–ª—ã, –Ω–∞—Ä–µ–∑–∞–Ω–Ω–æ–π –ª–æ–º—Ç–∏–∫–∞–º–∏
- 100 –≥ —Å—ã—Ä–∞ –ø–∞—Ä–º–µ–∑–∞–Ω (—Ç–µ—Ä—Ç—ã–π)
- 100 –≥ –≤–µ—Ç—á–∏–Ω—ã –∏–ª–∏ –∫–æ–ª–±–∞—Å—ã
- 100 –≥ –≥—Ä–∏–±–æ–≤ (—à–∞–º–ø–∏–Ω