🚀 distilgpt2-base-pretrained-he
这是一个基于微小GPT2架构的希伯来语文本生成模型。该模型最初在TPUv3 - 8上进行训练,TPU资源由TPU研究云计划提供。随后,在GPU上进行了进一步的微调。
🚀 快速开始
本模型可用于希伯来语文本生成任务。以下是使用示例代码,你可以按照代码中的步骤加载模型并生成文本。
✨ 主要特性
- 基于微小GPT2架构,适合希伯来语文本生成。
- 经过TPU和GPU的训练与微调,性能更优。
📚 详细文档
📦 数据集
- oscar (unshuffled deduplicated he) - 主页 | 数据集永久链接
- 开放超大爬取ALMAnaCH语料库(Open Super - large Crawled ALMAnaCH coRpus)是一个庞大的多语言语料库。它通过使用goclassy架构对Common Crawl语料库进行语言分类和过滤而获得。
- CC - 100 (he) - 主页
- 该语料库包含100多种语言的单语数据,还包括罗马化语言的数据。它是通过处理2018年1月至12月的Commoncrawl快照,利用CC - Net仓库提供的URL和段落索引构建而成。每个文件包含由双换行符分隔的文档,同一文档内的段落由换行符分隔。数据使用开源的CC - Net仓库生成。
- 其他
- 希伯来语推特数据
- 维基百科数据
- 其他各种来源的数据
🔧 训练过程
- 使用[Huggingface的clm - flax示例脚本](https://github.com/huggingface/transformers/blob/master/examples/flax/language - modeling/run_clm_flax.py)在TPUv3 - 8虚拟机上完成训练。
- 整理了一份可能有助于他人使用此脚本的注意事项列表,并发布到了[此讨论论坛](https://discuss.huggingface.co/t/ideas - for - beginner - friendlier - tpu - vm - clm - training/8351)。
- 在GPU上进行了进一步的训练。
💻 使用示例
基础用法
from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
def main():
model_name="Norod78/distilgpt2-base-pretrained-he"
prompt_text = "שלום, קוראים לי"
generated_max_length = 192
print("Loading model...")
model = AutoModelForCausalLM.from_pretrained(model_name)
print('Loading Tokenizer...')
tokenizer = AutoTokenizer.from_pretrained(model_name)
text_generator = pipeline(task="text-generation", model=model, tokenizer=tokenizer)
print("Generating text...")
result = text_generator(prompt_text, num_return_sequences=1, batch_size=1, do_sample=True, top_k=40, top_p=0.92, temperature = 1, repetition_penalty=5.0, max_length = generated_max_length)
print("result = " + str(result))
if __name__ == '__main__':
main()
📄 许可证
本项目采用MIT许可证。