🚀 🗿 ruGPT-3.5 13B
ruGPT-3.5 13B 是一款面向俄语的语言模型。从名称可以推测,该模型拥有 130 亿个参数,是目前为止最大的模型,并且被用于训练 GigaChat(更多相关信息可查看文章)。
🚀 快速开始
ruGPT-3.5 13B 是强大的俄语语言模型,具备丰富的知识和出色的语言生成能力,可用于多种自然语言处理任务。
✨ 主要特性
- 拥有 130 亿参数,是目前最大的模型。
- 用于训练 GigaChat,具备较高的性能和质量。
📦 安装指南
文档未提及安装步骤,故跳过此章节。
💻 使用示例
基础用法
request = "Стих про программиста может быть таким:"
encoded_input = tokenizer(request, return_tensors='pt', \
add_special_tokens=False).to('cuda:0')
output = model.generate(
**encoded_input,
num_beams=2,
do_sample=True,
max_new_tokens=100
)
print(tokenizer.decode(output[0], skip_special_tokens=True))
>>> Стих про программиста может быть таким:
Программист сидит в кресле,
Стих сочиняет он про любовь,
Он пишет, пишет, пишет, пишет...
И не выходит ни черта!
高级用法
request = "Нейронная сеть — это"
encoded_input = tokenizer(request, return_tensors='pt', \
add_special_tokens=False).to('cuda:0')
output = model.generate(
**encoded_input,
num_beams=4,
do_sample=True,
max_new_tokens=100
)
print(tokenizer.decode(output[0], skip_special_tokens=True))
>>> Нейронная сеть — это математическая модель, состоящая из большого
количества нейронов, соединенных между собой электрическими связями.
Нейронная сеть может быть смоделирована на компьютере, и с ее помощью
можно решать задачи, которые не поддаются решению с помощью традиционных
математических методов.
request = "Гагарин полетел в космос в"
encoded_input = tokenizer(request, return_tensors='pt', \
add_special_tokens=False).to('cuda:0')
output = model.generate(
**encoded_input,
num_beams=2,
do_sample=True,
max_new_tokens=100
)
print(tokenizer.decode(output[0], skip_special_tokens=True))
>>> Гагарин полетел в космос в 1961 году. Это было первое в истории
человечества космическое путешествие. Юрий Гагарин совершил его
на космическом корабле Восток-1. Корабль был запущен с космодрома
Байконур.
📚 详细文档
数据集
该模型在 300GB 的多领域数据上进行预训练,然后在 100GB 的代码和法律文档上进行额外训练。以下是数据集结构:

训练数据经过去重处理,文本去重包括对语料库中的每个文本进行 64 位哈希处理,以保留具有唯一哈希值的文本。我们还使用 zlib4 根据文档的文本压缩率对文档进行过滤,丢弃压缩率过高和过低的去重文本。
信息表格
属性 |
详情 |
模型类型 |
俄语语言模型 |
训练数据 |
先在 300GB 多领域数据预训练,后在 100GB 代码和法律文档额外训练 |
🔧 技术细节
该模型使用 Deepspeed 和 Megatron 库进行训练,在 3000 亿标记的数据集上进行 3 个轮次的训练,在 512 个 V100 GPU 上训练约 45 天。之后,在额外数据(见上文)上以序列长度 2048 进行 1 个轮次的微调,在 200 个 A100 GPU 上训练约 20 天。
最终训练后,该模型在俄语上的困惑度约为 8.8。

📄 许可证
本项目采用 MIT 许可证。