T-lite-instruct-0.1開源AI模型 - 專為俄語任務優化，微調後適用

首頁

T Lite Instruct 0.1

由AnatoliiPotapov開發

T-lite-instruct-0.1是基於T-lite-0.1模型的指令微調版本，專為俄語任務優化設計，需進一步微調後使用

大型語言模型

Transformers

#俄語指令優化 #多階段偏好調優 #翻譯數據增強

下載量 4,141

發布時間 : 7/16/2024

模型概述

該模型是面向俄語任務的指令微調模型，採用bf16格式訓練，強調需二次微調以確保安全合規，不適合直接部署

模型特點

多階段微調

採用兩階段偏好調優（SPiN+SLiC-HF）和獎勵建模，優化模型輸出質量

數據過濾機制

通過分類器和獎勵模型對翻譯數據進行雙重過濾，確保訓練數據質量

俄語優化

基準測試顯示在俄語任務中優於GPT-3.5-turbo等通用模型

模型能力

俄語文本生成

指令理解與執行

多輪對話

食譜生成（示例展示）

使用案例

內容創作

食譜生成

根據用戶請求生成詳細烹飪步驟和食材清單

示例顯示能輸出結構化菜譜，含配料表和製作說明

智能助手

俄語對話系統

構建需二次微調的俄語對話助手基礎模型

MT-Bench測試顯示其對話能力優於多個8B參數模型

🚀 T-lite-instruct-0.1

T-lite 專為進一步微調而設計，並非可直接使用的對話助手。建議用戶謹慎使用，並負責進行必要的額外訓練和監督，以確保模型的回覆符合可接受的道德和安全標準。將此模型集成到工業或商業解決方案中的責任完全由選擇部署它的人承擔。

📚 詳細文檔

模型描述

T-lite-instruct-0.1 是 T-lite-0.1 模型的指令版本，該模型以 bf16 格式進行訓練。

數據集

上下文

指令數據集的上下文來源如下：

開源英文數據集（如 UltraFeedback、HelpSteer、SHP 等）
通過機器翻譯得到的英文數據集譯文
由預訓練數據集生成的合成問答上下文

翻譯後的上下文會使用分類器進行過濾。

監督微調（SFT）

上下文中的回覆由強大的模型生成，並且僅針對這些回覆進行訓練，這樣可以避免在低質量翻譯上訓練模型。

獎勵建模

獎勵模型（RM）在以下類型的對數據上進行訓練：

強大模型 > 本模型
更強模型 > 較弱模型
選中的翻譯回覆 > 拒絕的翻譯回覆
原始英文數據集中的對

翻譯後的偏好數據會先由 RM 集成進行過濾。

偏好調優

偏好調優分為兩個階段：

階段 1：在教師模型的回覆上進行 SPiN（Strong Model > Our Model）
階段 2：使用我們的 RM 進行 SLiC-HF

🔍 基準測試

MT-Bench

此基準測試已被仔細翻譯成俄語，並使用 LLM Judge 代碼庫進行評估，使用 gpt-4-1106-preview 作為評判模型。

MT-Bench	總分	第一輪得分	第二輪得分	編碼	人文	數學	推理	角色扮演	科學技術	寫作
T-lite-instruct-0.1	6.458	6.833	6.078	4.136	8.45	4.25	4.5	7.667	7.7	7.706
gpt3.5-turbo-0125	6.373	6.423	6.320	6.519	7.474	4.75	4.15	6.333	6.7	7.588
suzume-llama-3-8B-multilingual-orpo-borda-half	6.051	6.577	5.526	4.318	8.0	4.0	3.6	7.056	6.7	7.889
Qwen2-7b-Instruct	6.026	6.449	5.603	5.0	6.95	5.8	4.15	7.167	5.85	7.278
Llama-3-8b-Instruct	5.948	6.662	5.224	4.727	7.8	3.9	2.8	7.333	6.053	7.0
suzume-llama-3-8B-multilingual	5.808	6.167	5.449	5.409	6.4	5.05	3.8	6.556	5.0	7.056
saiga_llama3_8b	5.471	5.896	5.039	3.0	7.4	3.55	3.5	6.444	5.15	7.812
Mistral-7B-Instruct-v0.3	5.135	5.679	4.584	4.045	6.35	3.15	3.2	5.765	5.2	7.333

Arena

我們使用了來自 Vikhrmodels 的俄語版 Arena 基準測試和 Arena Hard Auto 代碼庫進行評估。我們選擇 gpt3.5-turbo-0125 作為基線模型，評判模型為 gpt-4-1106-preview。

Arena 通用測試	得分	95% 置信區間	平均令牌數
T-lite-instruct-0.1	57.26	-2.9/2	870
gpt3.5-turbo-0125	50	0/0	254
suzume-llama-3-8B-multilingual-orpo-borda-half	47.17	-2.6/2.4	735
Llama-3-8b-Instruct	42.16	-2.1/2.1	455
saiga_llama3_8b	39.88	-2.3/2.5	616
suzume-llama-3-8B-multilingual	38.25	-1.7/1.7	625
Qwen2-7b-Instruct	33.42	-1.9/2.2	365
Mistral-7B-Instruct-v0.3	28.11	-2/2.2	570

💻 使用示例

基礎用法

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
torch.manual_seed(42)

model_name = "t-bank-ai/T-lite-instruct-0.1"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto")

messages = [
    {"role": "user", "content": "–ù–∞–ø–∏—à–∏ —Ä–µ—Ü–µ–ø—Ç –∫–ª–∞—Å—Å–Ω–æ–π –ø–∏—Ü—Ü—ã!"},
]

input_ids = tokenizer.apply_chat_template(
    messages,
    add_generation_prompt=True,
    return_tensors="pt"
).to(model.device)

terminators = [
    tokenizer.eos_token_id,
    tokenizer.convert_tokens_to_ids("<|eot_id|>")
]

outputs = model.generate(
    input_ids,
    max_new_tokens=256,
    eos_token_id=terminators,
)

print(tokenizer.decode(outputs[0], skip_special_tokens=True))

輸出:

–ö–æ–Ω–µ—á–Ω–æ, –≤–æ—Ç —Ä–µ—Ü–µ–ø—Ç –¥–ª—è –≤–∫—É—Å–Ω–æ–π –¥–æ–º–∞—à–Ω–µ–π –ø–∏—Ü—Ü—ã, –∫–æ—Ç–æ—Ä—ã–π –º–æ–∂–Ω–æ –∞–¥–∞–ø—Ç–∏—Ä–æ–≤–∞—Ç—å –ø–æ–¥ —Ä–∞–∑–Ω—ã–µ –≤–∫—É—Å—ã –∏ –ø—Ä–µ–¥–ø–æ—á—Ç–µ–Ω–∏—è. –í–∞–∂–Ω–æ, —á—Ç–æ–±—ã —Ç–µ—Å—Ç–æ –±—ã–ª–æ –º—è–≥–∫–∏–º –∏ –≤–æ–∑–¥—É—à–Ω—ã–º, –∞ –Ω–∞—á–∏–Ω–∫–∞ ‚Äî —Å–æ—á–Ω–æ–π –∏ –∞—Ä–æ–º–∞—Ç–Ω–æ–π.

### –ò–Ω–≥—Ä–µ–¥–∏–µ–Ω—Ç—ã –¥–ª—è —Ç–µ—Å—Ç–∞:
- 500 –≥ –º—É–∫–∏ (–ª—É—á—à–µ –∏—Å–ø–æ–ª—å–∑–æ–≤–∞—Ç—å —Å–º–µ—Å—å –ø—à–µ–Ω–∏—á–Ω–æ–π –∏ —Ü–µ–ª—å–Ω–æ–∑–µ—Ä–Ω–æ–≤–æ–π)
- 1 —á. –ª. —Å—É—Ö–∏—Ö –¥—Ä–æ–∂–∂–µ–π (–∏–ª–∏ 7 –≥ —Å–≤–µ–∂–∏—Ö)
- 1 —á. –ª. —Å–∞—Ö–∞—Ä–∞
- 1 —á. –ª. —Å–æ–ª–∏
- 1 —Å—Ç. –ª. –æ–ª–∏–≤–∫–æ–≤–æ–≥–æ –º–∞—Å–ª–∞
- 300 –º–ª —Ç—ë–ø–ª–æ–π –≤–æ–¥—ã
- 1 —è–π—Ü–æ (–¥–ª—è —Å–º–∞–∑–∫–∏)

### –ò–Ω–≥—Ä–µ–¥–∏–µ–Ω—Ç—ã –¥–ª—è –Ω–∞—á–∏–Ω–∫–∏ (–ø—Ä–∏–º–µ—Ä–Ω—ã–π –Ω–∞–±–æ—Ä):
- 200 –≥ —Ç–æ–º–∞—Ç–Ω–æ–≥–æ —Å–æ—É—Å–∞ (–º–æ–∂–Ω–æ —Å–¥–µ–ª–∞—Ç—å —Å–∞–º–æ–º—É –∏–∑ —Å–≤–µ–∂–∏—Ö –ø–æ–º–∏–¥–æ—Ä–æ–≤ –∏–ª–∏ –∏—Å–ø–æ–ª—å–∑–æ–≤–∞—Ç—å –≥–æ—Ç–æ–≤—ã–π)
- 200 –≥ –º–æ—Ü–∞—Ä–µ–ª–ª—ã, –Ω–∞—Ä–µ–∑–∞–Ω–Ω–æ–π –ª–æ–º—Ç–∏–∫–∞–º–∏
- 100 –≥ —Å—ã—Ä–∞ –ø–∞—Ä–º–µ–∑–∞–Ω (—Ç–µ—Ä—Ç—ã–π)
- 100 –≥ –≤–µ—Ç—á–∏–Ω—ã –∏–ª–∏ –∫–æ–ª–±–∞—Å—ã
- 100 –≥ –≥—Ä–∏–±–æ–≤ (—à–∞–º–ø–∏–Ω