T-lite-instruct-0.1开源AI模型 - 专为俄语任务优化，微调后适用

首页

T Lite Instruct 0.1

由 AnatoliiPotapov 开发

T-lite-instruct-0.1是基于T-lite-0.1模型的指令微调版本，专为俄语任务优化设计，需进一步微调后使用

大型语言模型

Transformers

#俄语指令优化 #多阶段偏好调优 #翻译数据增强

下载量 4,141

发布时间 : 7/16/2024

模型简介

该模型是面向俄语任务的指令微调模型，采用bf16格式训练，强调需二次微调以确保安全合规，不适合直接部署

模型特点

多阶段微调

采用两阶段偏好调优（SPiN+SLiC-HF）和奖励建模，优化模型输出质量

数据过滤机制

通过分类器和奖励模型对翻译数据进行双重过滤，确保训练数据质量

俄语优化

基准测试显示在俄语任务中优于GPT-3.5-turbo等通用模型

模型能力

俄语文本生成

指令理解与执行

多轮对话

食谱生成（示例展示）

使用案例

内容创作

食谱生成

根据用户请求生成详细烹饪步骤和食材清单

示例显示能输出结构化菜谱，含配料表和制作说明

智能助手

俄语对话系统

构建需二次微调的俄语对话助手基础模型

MT-Bench测试显示其对话能力优于多个8B参数模型

🚀 T-lite-instruct-0.1

T-lite 专为进一步微调而设计，并非可直接使用的对话助手。建议用户谨慎使用，并负责进行必要的额外训练和监督，以确保模型的回复符合可接受的道德和安全标准。将此模型集成到工业或商业解决方案中的责任完全由选择部署它的人承担。

📚 详细文档

模型描述

T-lite-instruct-0.1 是 T-lite-0.1 模型的指令版本，该模型以 bf16 格式进行训练。

数据集

上下文

指令数据集的上下文来源如下：

开源英文数据集（如 UltraFeedback、HelpSteer、SHP 等）
通过机器翻译得到的英文数据集译文
由预训练数据集生成的合成问答上下文

翻译后的上下文会使用分类器进行过滤。

监督微调（SFT）

上下文中的回复由强大的模型生成，并且仅针对这些回复进行训练，这样可以避免在低质量翻译上训练模型。

奖励建模

奖励模型（RM）在以下类型的对数据上进行训练：

强大模型 > 本模型
更强模型 > 较弱模型
选中的翻译回复 > 拒绝的翻译回复
原始英文数据集中的对

翻译后的偏好数据会先由 RM 集成进行过滤。

偏好调优

偏好调优分为两个阶段：

阶段 1：在教师模型的回复上进行 SPiN（Strong Model > Our Model）
阶段 2：使用我们的 RM 进行 SLiC-HF

🔍 基准测试

MT-Bench

此基准测试已被仔细翻译成俄语，并使用 LLM Judge 代码库进行评估，使用 gpt-4-1106-preview 作为评判模型。

MT-Bench	总分	第一轮得分	第二轮得分	编码	人文	数学	推理	角色扮演	科学技术	写作
T-lite-instruct-0.1	6.458	6.833	6.078	4.136	8.45	4.25	4.5	7.667	7.7	7.706
gpt3.5-turbo-0125	6.373	6.423	6.320	6.519	7.474	4.75	4.15	6.333	6.7	7.588
suzume-llama-3-8B-multilingual-orpo-borda-half	6.051	6.577	5.526	4.318	8.0	4.0	3.6	7.056	6.7	7.889
Qwen2-7b-Instruct	6.026	6.449	5.603	5.0	6.95	5.8	4.15	7.167	5.85	7.278
Llama-3-8b-Instruct	5.948	6.662	5.224	4.727	7.8	3.9	2.8	7.333	6.053	7.0
suzume-llama-3-8B-multilingual	5.808	6.167	5.449	5.409	6.4	5.05	3.8	6.556	5.0	7.056
saiga_llama3_8b	5.471	5.896	5.039	3.0	7.4	3.55	3.5	6.444	5.15	7.812
Mistral-7B-Instruct-v0.3	5.135	5.679	4.584	4.045	6.35	3.15	3.2	5.765	5.2	7.333

Arena

我们使用了来自 Vikhrmodels 的俄语版 Arena 基准测试和 Arena Hard Auto 代码库进行评估。我们选择 gpt3.5-turbo-0125 作为基线模型，评判模型为 gpt-4-1106-preview。

Arena 通用测试	得分	95% 置信区间	平均令牌数
T-lite-instruct-0.1	57.26	-2.9/2	870
gpt3.5-turbo-0125	50	0/0	254
suzume-llama-3-8B-multilingual-orpo-borda-half	47.17	-2.6/2.4	735
Llama-3-8b-Instruct	42.16	-2.1/2.1	455
saiga_llama3_8b	39.88	-2.3/2.5	616
suzume-llama-3-8B-multilingual	38.25	-1.7/1.7	625
Qwen2-7b-Instruct	33.42	-1.9/2.2	365
Mistral-7B-Instruct-v0.3	28.11	-2/2.2	570

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
torch.manual_seed(42)

model_name = "t-bank-ai/T-lite-instruct-0.1"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto")

messages = [
    {"role": "user", "content": "–ù–∞–ø–∏—à–∏ —Ä–µ—Ü–µ–ø—Ç –∫–ª–∞—Å—Å–Ω–æ–π –ø–∏—Ü—Ü—ã!"},
]

input_ids = tokenizer.apply_chat_template(
    messages,
    add_generation_prompt=True,
    return_tensors="pt"
).to(model.device)

terminators = [
    tokenizer.eos_token_id,
    tokenizer.convert_tokens_to_ids("<|eot_id|>")
]

outputs = model.generate(
    input_ids,
    max_new_tokens=256,
    eos_token_id=terminators,
)

print(tokenizer.decode(outputs[0], skip_special_tokens=True))

输出:

–ö–æ–Ω–µ—á–Ω–æ, –≤–æ—Ç —Ä–µ—Ü–µ–ø—Ç –¥–ª—è –≤–∫—É—Å–Ω–æ–π –¥–æ–º–∞—à–Ω–µ–π –ø–∏—Ü—Ü—ã, –∫–æ—Ç–æ—Ä—ã–π –º–æ–∂–Ω–æ –∞–¥–∞–ø—Ç–∏—Ä–æ–≤–∞—Ç—å –ø–æ–¥ —Ä–∞–∑–Ω—ã–µ –≤–∫—É—Å—ã –∏ –ø—Ä–µ–¥–ø–æ—á—Ç–µ–Ω–∏—è. –í–∞–∂–Ω–æ, —á—Ç–æ–±—ã —Ç–µ—Å—Ç–æ –±—ã–ª–æ –º—è–≥–∫–∏–º –∏ –≤–æ–∑–¥—É—à–Ω—ã–º, –∞ –Ω–∞—á–∏–Ω–∫–∞ ‚Äî —Å–æ—á–Ω–æ–π –∏ –∞—Ä–æ–º–∞—Ç–Ω–æ–π.

### –ò–Ω–≥—Ä–µ–¥–∏–µ–Ω—Ç—ã –¥–ª—è —Ç–µ—Å—Ç–∞:
- 500 –≥ –º—É–∫–∏ (–ª—É—á—à–µ –∏—Å–ø–æ–ª—å–∑–æ–≤–∞—Ç—å —Å–º–µ—Å—å –ø—à–µ–Ω–∏—á–Ω–æ–π –∏ —Ü–µ–ª—å–Ω–æ–∑–µ—Ä–Ω–æ–≤–æ–π)
- 1 —á. –ª. —Å—É—Ö–∏—Ö –¥—Ä–æ–∂–∂–µ–π (–∏–ª–∏ 7 –≥ —Å–≤–µ–∂–∏—Ö)
- 1 —á. –ª. —Å–∞—Ö–∞—Ä–∞
- 1 —á. –ª. —Å–æ–ª–∏
- 1 —Å—Ç. –ª. –æ–ª–∏–≤–∫–æ–≤–æ–≥–æ –º–∞—Å–ª–∞
- 300 –º–ª —Ç—ë–ø–ª–æ–π –≤–æ–¥—ã
- 1 —è–π—Ü–æ (–¥–ª—è —Å–º–∞–∑–∫–∏)

### –ò–Ω–≥—Ä–µ–¥–∏–µ–Ω—Ç—ã –¥–ª—è –Ω–∞—á–∏–Ω–∫–∏ (–ø—Ä–∏–º–µ—Ä–Ω—ã–π –Ω–∞–±–æ—Ä):
- 200 –≥ —Ç–æ–º–∞—Ç–Ω–æ–≥–æ —Å–æ—É—Å–∞ (–º–æ–∂–Ω–æ —Å–¥–µ–ª–∞—Ç—å —Å–∞–º–æ–º—É –∏–∑ —Å–≤–µ–∂–∏—Ö –ø–æ–º–∏–¥–æ—Ä–æ–≤ –∏–ª–∏ –∏—Å–ø–æ–ª—å–∑–æ–≤–∞—Ç—å –≥–æ—Ç–æ–≤—ã–π)
- 200 –≥ –º–æ—Ü–∞—Ä–µ–ª–ª—ã, –Ω–∞—Ä–µ–∑–∞–Ω–Ω–æ–π –ª–æ–º—Ç–∏–∫–∞–º–∏
- 100 –≥ —Å—ã—Ä–∞ –ø–∞—Ä–º–µ–∑–∞–Ω (—Ç–µ—Ä—Ç—ã–π)
- 100 –≥ –≤–µ—Ç—á–∏–Ω—ã –∏–ª–∏ –∫–æ–ª–±–∞—Å—ã
- 100 –≥ –≥—Ä–∏–±–æ–≤ (—à–∞–º–ø–∏–Ω