🚀 T-lite-instruct-0.1
T-lite 專為進一步微調而設計,並非可直接使用的對話助手。建議用戶謹慎使用,並負責進行必要的額外訓練和監督,以確保模型的回覆符合可接受的道德和安全標準。將此模型集成到工業或商業解決方案中的責任完全由選擇部署它的人承擔。
📚 詳細文檔
模型描述
T-lite-instruct-0.1 是 T-lite-0.1 模型的指令版本,該模型以 bf16 格式進行訓練。
數據集
上下文
指令數據集的上下文來源如下:
- 開源英文數據集(如 UltraFeedback、HelpSteer、SHP 等)
- 通過機器翻譯得到的英文數據集譯文
- 由預訓練數據集生成的合成問答上下文
翻譯後的上下文會使用分類器進行過濾。
監督微調(SFT)
上下文中的回覆由強大的模型生成,並且僅針對這些回覆進行訓練,這樣可以避免在低質量翻譯上訓練模型。
獎勵建模
獎勵模型(RM)在以下類型的對數據上進行訓練:
- 強大模型 > 本模型
- 更強模型 > 較弱模型
- 選中的翻譯回覆 > 拒絕的翻譯回覆
- 原始英文數據集中的對
翻譯後的偏好數據會先由 RM 集成進行過濾。
偏好調優
偏好調優分為兩個階段:
- 階段 1:在教師模型的回覆上進行 SPiN(Strong Model > Our Model)
- 階段 2:使用我們的 RM 進行 SLiC-HF
🔍 基準測試
此基準測試已被仔細翻譯成俄語,並使用 LLM Judge 代碼庫進行評估,使用 gpt-4-1106-preview 作為評判模型。
MT-Bench |
總分 |
第一輪得分 |
第二輪得分 |
編碼 |
人文 |
數學 |
推理 |
角色扮演 |
科學技術 |
寫作 |
T-lite-instruct-0.1 |
6.458 |
6.833 |
6.078 |
4.136 |
8.45 |
4.25 |
4.5 |
7.667 |
7.7 |
7.706 |
gpt3.5-turbo-0125 |
6.373 |
6.423 |
6.320 |
6.519 |
7.474 |
4.75 |
4.15 |
6.333 |
6.7 |
7.588 |
suzume-llama-3-8B-multilingual-orpo-borda-half |
6.051 |
6.577 |
5.526 |
4.318 |
8.0 |
4.0 |
3.6 |
7.056 |
6.7 |
7.889 |
Qwen2-7b-Instruct |
6.026 |
6.449 |
5.603 |
5.0 |
6.95 |
5.8 |
4.15 |
7.167 |
5.85 |
7.278 |
Llama-3-8b-Instruct |
5.948 |
6.662 |
5.224 |
4.727 |
7.8 |
3.9 |
2.8 |
7.333 |
6.053 |
7.0 |
suzume-llama-3-8B-multilingual |
5.808 |
6.167 |
5.449 |
5.409 |
6.4 |
5.05 |
3.8 |
6.556 |
5.0 |
7.056 |
saiga_llama3_8b |
5.471 |
5.896 |
5.039 |
3.0 |
7.4 |
3.55 |
3.5 |
6.444 |
5.15 |
7.812 |
Mistral-7B-Instruct-v0.3 |
5.135 |
5.679 |
4.584 |
4.045 |
6.35 |
3.15 |
3.2 |
5.765 |
5.2 |
7.333 |
我們使用了來自 Vikhrmodels 的俄語版 Arena 基準測試和 Arena Hard Auto 代碼庫進行評估。我們選擇 gpt3.5-turbo-0125 作為基線模型,評判模型為 gpt-4-1106-preview。
Arena 通用測試 |
得分 |
95% 置信區間 |
平均令牌數 |
T-lite-instruct-0.1 |
57.26 |
-2.9/2 |
870 |
gpt3.5-turbo-0125 |
50 |
0/0 |
254 |
suzume-llama-3-8B-multilingual-orpo-borda-half |
47.17 |
-2.6/2.4 |
735 |
Llama-3-8b-Instruct |
42.16 |
-2.1/2.1 |
455 |
saiga_llama3_8b |
39.88 |
-2.3/2.5 |
616 |
suzume-llama-3-8B-multilingual |
38.25 |
-1.7/1.7 |
625 |
Qwen2-7b-Instruct |
33.42 |
-1.9/2.2 |
365 |
Mistral-7B-Instruct-v0.3 |
28.11 |
-2/2.2 |
570 |
💻 使用示例
基礎用法
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
torch.manual_seed(42)
model_name = "t-bank-ai/T-lite-instruct-0.1"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto")
messages = [
{"role": "user", "content": "–ù–∞–ø–∏—à–∏ —Ä–µ—Ü–µ–ø—Ç –∫–ª–∞—Å—Å–Ω–æ–π –ø–∏—Ü—Ü—ã!"},
]
input_ids = tokenizer.apply_chat_template(
messages,
add_generation_prompt=True,
return_tensors="pt"
).to(model.device)
terminators = [
tokenizer.eos_token_id,
tokenizer.convert_tokens_to_ids("<|eot_id|>")
]
outputs = model.generate(
input_ids,
max_new_tokens=256,
eos_token_id=terminators,
)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
輸出:
Конечно, вот рецепт для вкусной домашней пиццы, который можно адаптировать под разные вкусы и предпочтения. Важно, чтобы тесто было мягким и воздушным, а начинка — сочной и ароматной.
### –ò–Ω–≥—Ä–µ–¥–∏–µ–Ω—Ç—ã –¥–ª—è —Ç–µ—Å—Ç–∞:
- 500 –≥ –º—É–∫–∏ (–ª—É—á—à–µ –∏—Å–ø–æ–ª—å–∑–æ–≤–∞—Ç—å —Å–º–µ—Å—å –ø—à–µ–Ω–∏—á–Ω–æ–π –∏ —Ü–µ–ª—å–Ω–æ–∑–µ—Ä–Ω–æ–≤–æ–π)
- 1 —á. –ª. —Å—É—Ö–∏—Ö –¥—Ä–æ–∂–∂–µ–π (–∏–ª–∏ 7 –≥ —Å–≤–µ–∂–∏—Ö)
- 1 —á. –ª. —Å–∞—Ö–∞—Ä–∞
- 1 —á. –ª. —Å–æ–ª–∏
- 1 —Å—Ç. –ª. –æ–ª–∏–≤–∫–æ–≤–æ–≥–æ –º–∞—Å–ª–∞
- 300 –º–ª —Ç—ë–ø–ª–æ–π –≤–æ–¥—ã
- 1 —è–π—Ü–æ (–¥–ª—è —Å–º–∞–∑–∫–∏)
### –ò–Ω–≥—Ä–µ–¥–∏–µ–Ω—Ç—ã –¥–ª—è –Ω–∞—á–∏–Ω–∫–∏ (–ø—Ä–∏–º–µ—Ä–Ω—ã–π –Ω–∞–±–æ—Ä):
- 200 –≥ —Ç–æ–º–∞—Ç–Ω–æ–≥–æ —Å–æ—É—Å–∞ (–º–æ–∂–Ω–æ —Å–¥–µ–ª–∞—Ç—å —Å–∞–º–æ–º—É –∏–∑ —Å–≤–µ–∂–∏—Ö –ø–æ–º–∏–¥–æ—Ä–æ–≤ –∏–ª–∏ –∏—Å–ø–æ–ª—å–∑–æ–≤–∞—Ç—å –≥–æ—Ç–æ–≤—ã–π)
- 200 –≥ –º–æ—Ü–∞—Ä–µ–ª–ª—ã, –Ω–∞—Ä–µ–∑–∞–Ω–Ω–æ–π –ª–æ–º—Ç–∏–∫–∞–º–∏
- 100 –≥ —Å—ã—Ä–∞ –ø–∞—Ä–º–µ–∑–∞–Ω (—Ç–µ—Ä—Ç—ã–π)
- 100 –≥ –≤–µ—Ç—á–∏–Ω—ã –∏–ª–∏ –∫–æ–ª–±–∞—Å—ã
- 100 –≥ –≥—Ä–∏–±–æ–≤ (—à–∞–º–ø–∏–Ω