distilgpt2-base-pretrained-he开源希伯来文本生成模型

首页

Distilgpt2 Base Pretrained He

由 Norod78 开发

基于GPT2架构的微型希伯来文本生成模型，通过TPU和GPU训练完成

大型语言模型其他开源协议:MIT #希伯来语生成 #微型GPT2 #多源数据训练

下载量 1,632

发布时间 : 3/2/2022

模型简介

这是一个专门针对希伯来语优化的文本生成模型，基于GPT2架构进行蒸馏和微调，适用于希伯来语相关的自然语言处理任务

模型特点

希伯来语优化

专门针对希伯来语进行训练和优化，能够生成流畅的希伯来语文本

蒸馏架构

基于GPT2架构进行蒸馏，保持性能的同时减小模型规模

多数据源训练

使用OSCAR语料库、CC-100、推特和维基百科等多种希伯来语数据源进行训练

模型能力

希伯来语文本生成

上下文理解

语言模型微调

使用案例

内容创作

故事续写

根据给定的希伯来语开头续写故事

示例中展示了'地球上最后一个人独自坐在房间里，突然传来敲门声'的生成结果

对话系统

对话生成

生成希伯来语的对话响应

示例中展示了'你好，我叫'的对话开头生成

🚀 distilgpt2-base-pretrained-he

这是一个基于微小GPT2架构的希伯来语文本生成模型。该模型最初在TPUv3 - 8上进行训练，TPU资源由TPU研究云计划提供。随后，在GPU上进行了进一步的微调。

🚀 快速开始

本模型可用于希伯来语文本生成任务。以下是使用示例代码，你可以按照代码中的步骤加载模型并生成文本。

✨ 主要特性

基于微小GPT2架构，适合希伯来语文本生成。
经过TPU和GPU的训练与微调，性能更优。

📚 详细文档

📦 数据集

oscar (unshuffled deduplicated he) - 主页 | 数据集永久链接
- 开放超大爬取ALMAnaCH语料库（Open Super - large Crawled ALMAnaCH coRpus）是一个庞大的多语言语料库。它通过使用goclassy架构对Common Crawl语料库进行语言分类和过滤而获得。
CC - 100 (he) - 主页
- 该语料库包含100多种语言的单语数据，还包括罗马化语言的数据。它是通过处理2018年1月至12月的Commoncrawl快照，利用CC - Net仓库提供的URL和段落索引构建而成。每个文件包含由双换行符分隔的文档，同一文档内的段落由换行符分隔。数据使用开源的CC - Net仓库生成。
其他
- 希伯来语推特数据
- 维基百科数据
- 其他各种来源的数据

🔧 训练过程

使用[Huggingface的clm - flax示例脚本](https://github.com/huggingface/transformers/blob/master/examples/flax/language - modeling/run_clm_flax.py)在TPUv3 - 8虚拟机上完成训练。
整理了一份可能有助于他人使用此脚本的注意事项列表，并发布到了[此讨论论坛](https://discuss.huggingface.co/t/ideas - for - beginner - friendlier - tpu - vm - clm - training/8351)。
在GPU上进行了进一步的训练。

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline

def main():
    model_name="Norod78/distilgpt2-base-pretrained-he"

    prompt_text = "שלום, קוראים לי"
    generated_max_length = 192

    print("Loading model...")
    model =  AutoModelForCausalLM.from_pretrained(model_name)
    print('Loading Tokenizer...')
    tokenizer = AutoTokenizer.from_pretrained(model_name)
    text_generator = pipeline(task="text-generation", model=model, tokenizer=tokenizer)

    print("Generating text...")
    result = text_generator(prompt_text, num_return_sequences=1, batch_size=1, do_sample=True, top_k=40, top_p=0.92, temperature = 1, repetition_penalty=5.0, max_length = generated_max_length)

    print("result = " + str(result))

if __name__ == '__main__':
    main()