ruGPT-3.5-13B开源俄语语言模型 - 预训练多领域数据，助力俄语理解与交流

首页

Rugpt 3.5 13B

由 ai-forever 开发

面向俄语的130亿参数语言模型，基于300GB多领域数据预训练，俄语困惑度约8.8

大型语言模型

Transformers

支持多种语言开源协议:MIT #俄语大模型 #多领域预训练 #法律代码增强

下载量 4,538

发布时间 : 5/2/2023

模型简介

大型俄语生成模型，支持文本生成、问答等任务，曾用于训练GigaChat

模型特点

大规模俄语训练

基于400GB俄语多领域数据训练（含代码和法律文档）

高效去重处理

采用64位哈希值去重和zlib4压缩率过滤确保数据质量

长序列微调

支持2048token的序列长度微调

模型能力

俄语文本生成

诗歌创作

技术问答

历史事实查询

使用案例

创意写作

诗歌生成

生成程序员主题的俄语诗歌

示例展示了幽默风格的诗歌创作能力

教育

科学概念解释

用简单语言解释神经网络原理

能准确输出技术概念的通俗解释

信息查询

历史事件查询

回答加加林进入太空的具体细节

能提供准确的历史事件时间和背景信息

🚀 🗿 ruGPT-3.5 13B

ruGPT-3.5 13B 是一款面向俄语的语言模型。从名称可以推测，该模型拥有 130 亿个参数，是目前为止最大的模型，并且被用于训练 GigaChat（更多相关信息可查看文章）。

🚀 快速开始

ruGPT-3.5 13B 是强大的俄语语言模型，具备丰富的知识和出色的语言生成能力，可用于多种自然语言处理任务。

✨ 主要特性

拥有 130 亿参数，是目前最大的模型。
用于训练 GigaChat，具备较高的性能和质量。

📦 安装指南

文档未提及安装步骤，故跳过此章节。

💻 使用示例

基础用法

request = "Стих про программиста может быть таким:"

encoded_input = tokenizer(request, return_tensors='pt', \
                          add_special_tokens=False).to('cuda:0')
output = model.generate(
    **encoded_input,
    num_beams=2,
    do_sample=True,
    max_new_tokens=100
)

print(tokenizer.decode(output[0], skip_special_tokens=True))

>>> Стих про программиста может быть таким:

    Программист сидит в кресле,
    Стих сочиняет он про любовь,
    Он пишет, пишет, пишет, пишет...
    И не выходит ни черта!

高级用法

request = "Нейронная сеть — это"

encoded_input = tokenizer(request, return_tensors='pt', \
                          add_special_tokens=False).to('cuda:0')
output = model.generate(
    **encoded_input,
    num_beams=4,
    do_sample=True,
    max_new_tokens=100
)

print(tokenizer.decode(output[0], skip_special_tokens=True))

>>> Нейронная сеть — это математическая модель, состоящая из большого
    количества нейронов, соединенных между собой электрическими связями.
    Нейронная сеть может быть смоделирована на компьютере, и с ее помощью
    можно решать задачи, которые не поддаются решению с помощью традиционных
    математических методов.

request = "Гагарин полетел в космос в"

encoded_input = tokenizer(request, return_tensors='pt', \
                          add_special_tokens=False).to('cuda:0')
output = model.generate(
    **encoded_input,
    num_beams=2,
    do_sample=True,
    max_new_tokens=100
)

print(tokenizer.decode(output[0], skip_special_tokens=True))

>>> Гагарин полетел в космос в 1961 году. Это было первое в истории
    человечества космическое путешествие. Юрий Гагарин совершил его
    на космическом корабле Восток-1. Корабль был запущен с космодрома
    Байконур.

📚 详细文档

数据集

该模型在 300GB 的多领域数据上进行预训练，然后在 100GB 的代码和法律文档上进行额外训练。以下是数据集结构：

训练数据经过去重处理，文本去重包括对语料库中的每个文本进行 64 位哈希处理，以保留具有唯一哈希值的文本。我们还使用 zlib4 根据文档的文本压缩率对文档进行过滤，丢弃压缩率过高和过低的去重文本。

信息表格

属性	详情
模型类型	俄语语言模型
训练数据	先在 300GB 多领域数据预训练，后在 100GB 代码和法律文档额外训练

🔧 技术细节

该模型使用 Deepspeed 和 Megatron 库进行训练，在 3000 亿标记的数据集上进行 3 个轮次的训练，在 512 个 V100 GPU 上训练约 45 天。之后，在额外数据（见上文）上以序列长度 2048 进行 1 个轮次的微调，在 200 个 A100 GPU 上训练约 20 天。

最终训练后，该模型在俄语上的困惑度约为 8.8。