🚀 T-lite-instruct-0.1
T-lite 专为进一步微调而设计,并非可直接使用的对话助手。建议用户谨慎使用,并负责进行必要的额外训练和监督,以确保模型的回复符合可接受的道德和安全标准。将此模型集成到工业或商业解决方案中的责任完全由选择部署它的人承担。
📚 详细文档
模型描述
T-lite-instruct-0.1 是 T-lite-0.1 模型的指令版本,该模型以 bf16 格式进行训练。
数据集
上下文
指令数据集的上下文来源如下:
- 开源英文数据集(如 UltraFeedback、HelpSteer、SHP 等)
- 通过机器翻译得到的英文数据集译文
- 由预训练数据集生成的合成问答上下文
翻译后的上下文会使用分类器进行过滤。
监督微调(SFT)
上下文中的回复由强大的模型生成,并且仅针对这些回复进行训练,这样可以避免在低质量翻译上训练模型。
奖励建模
奖励模型(RM)在以下类型的对数据上进行训练:
- 强大模型 > 本模型
- 更强模型 > 较弱模型
- 选中的翻译回复 > 拒绝的翻译回复
- 原始英文数据集中的对
翻译后的偏好数据会先由 RM 集成进行过滤。
偏好调优
偏好调优分为两个阶段:
- 阶段 1:在教师模型的回复上进行 SPiN(Strong Model > Our Model)
- 阶段 2:使用我们的 RM 进行 SLiC-HF
🔍 基准测试
此基准测试已被仔细翻译成俄语,并使用 LLM Judge 代码库进行评估,使用 gpt-4-1106-preview 作为评判模型。
MT-Bench |
总分 |
第一轮得分 |
第二轮得分 |
编码 |
人文 |
数学 |
推理 |
角色扮演 |
科学技术 |
写作 |
T-lite-instruct-0.1 |
6.458 |
6.833 |
6.078 |
4.136 |
8.45 |
4.25 |
4.5 |
7.667 |
7.7 |
7.706 |
gpt3.5-turbo-0125 |
6.373 |
6.423 |
6.320 |
6.519 |
7.474 |
4.75 |
4.15 |
6.333 |
6.7 |
7.588 |
suzume-llama-3-8B-multilingual-orpo-borda-half |
6.051 |
6.577 |
5.526 |
4.318 |
8.0 |
4.0 |
3.6 |
7.056 |
6.7 |
7.889 |
Qwen2-7b-Instruct |
6.026 |
6.449 |
5.603 |
5.0 |
6.95 |
5.8 |
4.15 |
7.167 |
5.85 |
7.278 |
Llama-3-8b-Instruct |
5.948 |
6.662 |
5.224 |
4.727 |
7.8 |
3.9 |
2.8 |
7.333 |
6.053 |
7.0 |
suzume-llama-3-8B-multilingual |
5.808 |
6.167 |
5.449 |
5.409 |
6.4 |
5.05 |
3.8 |
6.556 |
5.0 |
7.056 |
saiga_llama3_8b |
5.471 |
5.896 |
5.039 |
3.0 |
7.4 |
3.55 |
3.5 |
6.444 |
5.15 |
7.812 |
Mistral-7B-Instruct-v0.3 |
5.135 |
5.679 |
4.584 |
4.045 |
6.35 |
3.15 |
3.2 |
5.765 |
5.2 |
7.333 |
我们使用了来自 Vikhrmodels 的俄语版 Arena 基准测试和 Arena Hard Auto 代码库进行评估。我们选择 gpt3.5-turbo-0125 作为基线模型,评判模型为 gpt-4-1106-preview。
Arena 通用测试 |
得分 |
95% 置信区间 |
平均令牌数 |
T-lite-instruct-0.1 |
57.26 |
-2.9/2 |
870 |
gpt3.5-turbo-0125 |
50 |
0/0 |
254 |
suzume-llama-3-8B-multilingual-orpo-borda-half |
47.17 |
-2.6/2.4 |
735 |
Llama-3-8b-Instruct |
42.16 |
-2.1/2.1 |
455 |
saiga_llama3_8b |
39.88 |
-2.3/2.5 |
616 |
suzume-llama-3-8B-multilingual |
38.25 |
-1.7/1.7 |
625 |
Qwen2-7b-Instruct |
33.42 |
-1.9/2.2 |
365 |
Mistral-7B-Instruct-v0.3 |
28.11 |
-2/2.2 |
570 |
💻 使用示例
基础用法
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
torch.manual_seed(42)
model_name = "t-bank-ai/T-lite-instruct-0.1"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto")
messages = [
{"role": "user", "content": "–ù–∞–ø–∏—à–∏ —Ä–µ—Ü–µ–ø—Ç –∫–ª–∞—Å—Å–Ω–æ–π –ø–∏—Ü—Ü—ã!"},
]
input_ids = tokenizer.apply_chat_template(
messages,
add_generation_prompt=True,
return_tensors="pt"
).to(model.device)
terminators = [
tokenizer.eos_token_id,
tokenizer.convert_tokens_to_ids("<|eot_id|>")
]
outputs = model.generate(
input_ids,
max_new_tokens=256,
eos_token_id=terminators,
)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
输出:
Конечно, вот рецепт для вкусной домашней пиццы, который можно адаптировать под разные вкусы и предпочтения. Важно, чтобы тесто было мягким и воздушным, а начинка — сочной и ароматной.
### –ò–Ω–≥—Ä–µ–¥–∏–µ–Ω—Ç—ã –¥–ª—è —Ç–µ—Å—Ç–∞:
- 500 –≥ –º—É–∫–∏ (–ª—É—á—à–µ –∏—Å–ø–æ–ª—å–∑–æ–≤–∞—Ç—å —Å–º–µ—Å—å –ø—à–µ–Ω–∏—á–Ω–æ–π –∏ —Ü–µ–ª—å–Ω–æ–∑–µ—Ä–Ω–æ–≤–æ–π)
- 1 —á. –ª. —Å—É—Ö–∏—Ö –¥—Ä–æ–∂–∂–µ–π (–∏–ª–∏ 7 –≥ —Å–≤–µ–∂–∏—Ö)
- 1 —á. –ª. —Å–∞—Ö–∞—Ä–∞
- 1 —á. –ª. —Å–æ–ª–∏
- 1 —Å—Ç. –ª. –æ–ª–∏–≤–∫–æ–≤–æ–≥–æ –º–∞—Å–ª–∞
- 300 –º–ª —Ç—ë–ø–ª–æ–π –≤–æ–¥—ã
- 1 —è–π—Ü–æ (–¥–ª—è —Å–º–∞–∑–∫–∏)
### –ò–Ω–≥—Ä–µ–¥–∏–µ–Ω—Ç—ã –¥–ª—è –Ω–∞—á–∏–Ω–∫–∏ (–ø—Ä–∏–º–µ—Ä–Ω—ã–π –Ω–∞–±–æ—Ä):
- 200 –≥ —Ç–æ–º–∞—Ç–Ω–æ–≥–æ —Å–æ—É—Å–∞ (–º–æ–∂–Ω–æ —Å–¥–µ–ª–∞—Ç—å —Å–∞–º–æ–º—É –∏–∑ —Å–≤–µ–∂–∏—Ö –ø–æ–º–∏–¥–æ—Ä–æ–≤ –∏–ª–∏ –∏—Å–ø–æ–ª—å–∑–æ–≤–∞—Ç—å –≥–æ—Ç–æ–≤—ã–π)
- 200 –≥ –º–æ—Ü–∞—Ä–µ–ª–ª—ã, –Ω–∞—Ä–µ–∑–∞–Ω–Ω–æ–π –ª–æ–º—Ç–∏–∫–∞–º–∏
- 100 –≥ —Å—ã—Ä–∞ –ø–∞—Ä–º–µ–∑–∞–Ω (—Ç–µ—Ä—Ç—ã–π)
- 100 –≥ –≤–µ—Ç—á–∏–Ω—ã –∏–ª–∏ –∫–æ–ª–±–∞—Å—ã
- 100 –≥ –≥—Ä–∏–±–æ–≤ (—à–∞–º–ø–∏–Ω