RuadaptQwen2.5-7B-Lite-Beta开源模型 - 适配俄语，显著提升俄语文本生成速度

首页

Ruadaptqwen2.5 7B Lite Beta

由 RefalMachine 开发

本项目是对T-lite-it-1.0模型进行俄语适配，通过更换分词器、在俄语语料库上继续预训练以及应用LEP技术，提升了俄语文本的生成速度。

大型语言模型

Safetensors

开源协议:Apache-2.0 #俄语优化 #分词器增强 #LEP技术

下载量 1,603

发布时间 : 1/27/2025

模型简介

基于Qwen/Qwen2.5 - 7B和t-tech/T-lite-it-1.0模型进行俄语适配的文本生成模型，支持俄语文本生成任务。

模型特点

俄语分词器优化

更换分词器为扩展的tiktoken cl100k（通过48k的unigram分词器扩展），显著提升俄语文本生成速度。

俄语语料库继续预训练

在IlyaGusev/saiga_scored、IlyaGusev/saiga_preferences、dichspace/darulm等俄语数据集上进行继续预训练。

LEP技术应用

应用LEP（Learned Embedding Propagation）技术优化模型性能。

生成速度提升

由于采用了新的分词器，俄语文本的生成速度相比原始的T-lite-it-1.0模型提高了60%。

模型能力

俄语文本生成

自然语言处理

使用案例

文本生成

俄语文本生成

生成高质量的俄语文本内容

生成速度提升60%

🚀 俄语适配Qwen2.5模型

本项目是对T-lite-it-1.0模型进行俄语适配，通过更换分词器、在俄语语料库上继续预训练以及应用LEP技术，提升了俄语文本的生成速度。

🚀 快速开始

你可以在以下Space中尝试使用该模型（在下方参数中选择模型）：点击尝试

✨ 主要特性

数据集：使用了IlyaGusev/saiga_scored、IlyaGusev/saiga_preferences、dichspace/darulm等数据集。
语言支持：支持俄语。
任务类型：文本生成。
许可证：采用apache-2.0许可证。
基础模型：基于Qwen/Qwen2.5 - 7B和t-tech/T-lite-it-1.0模型。

模型适配

当前版本为v1. 对T-lite-it-1.0模型进行俄语适配，具体步骤如下：

更换分词器为扩展的tiktoken cl100k（通过48k的unigram分词器扩展）。
在俄语语料库上进行继续预训练（Continued pretraining）。
应用LEP（Learned Embedding Propagation）技术。

生成速度提升

由于采用了新的分词器，俄语文本的生成速度相比原始的T-lite-it-1.0模型提高了60%。这里的生成速度是指在相同文本序列上每秒生成的俄语字符/单词数量。

📚 详细文档

分词可视化

分词可视化1 分词可视化2

模型评估

模型在Ru - Arena - General、MERA、llmtf_open等数据集上进行了评估。

Ru - Arena - General评估结果

使用排行榜的官方代码（代码链接）进行测量，但设置repetition_penalty = 1.1。 Ru - Arena - General评估结果

Shlepa评估结果

MERA评估结果

llmtf_open评估结果

待补充。

引用信息

Tikhomirov M., Chernyshov D. Facilitating Large Language Model Russian Adaptation with Learned Embedding Propagation //Journal of Language and Education. – 2024. – Т. 10. – №. 4. – С. 130 - 145.
Tikhomirov M., Chernyshev D. Impact of Tokenization on LLaMa Russian Adaptation //2023 Ivannikov Ispras Open Conference (ISPRAS). – IEEE, 2023. – С. 163 - 168.

重要提示

⚠️ 重要提示

模型的回答并不反映作者的观点，只是重复了在所有训练阶段（预训练、更换分词器、指令训练、答案质量校准）从数据中获得的知识。该模型是从第三方预训练模型获得的，预训练的控制 不属于当前作者的责任。在创建此版本模型时，没有进行任何旨在改变大语言模型中固有“观点”的额外操作。请谨慎使用。