🚀 GPT-J 6B - Janeway
GPT-J 6B - Janeway是基于EleutherAI的GPT-J 6B模型微调而来的模型,使用约2210本电子书进行训练,主要涵盖科幻和奇幻等类型,能用于文本生成,但使用时需注意其局限性和偏差。
🚀 快速开始
你可以直接使用文本生成管道来使用这个模型。以下示例每次运行时都会生成不同的序列:
>>> from transformers import pipeline
>>> generator = pipeline('text-generation', model='KoboldAI/GPT-J-6B-Janeway')
>>> generator("Welcome Captain Janeway, I apologize for the delay.", do_sample=True, min_length=50)
[{'generated_text': 'Welcome Captain Janeway, I apologize for the delay."\nIt's all right," Janeway said. "I'm certain that you're doing your best to keep me informed of what\'s going on."'}]
✨ 主要特性
- 基于EleutherAI的GPT-J 6B模型进行微调。
- 训练数据包含约2210本电子书,主要为科幻和奇幻类型。
- 数据集基于GPT-Neo-2.7B - Picard使用的数据集,各类型数据增加了20%。
📚 详细文档
模型描述
GPT-J 6B - Janeway是使用EleutherAI的GPT-J 6B模型创建的微调模型。
训练数据
训练数据包含约2210本电子书,大多属于科幻和奇幻类型。该数据集基于GPT - Neo - 2.7B - Picard使用的同一数据集,各类型数据增加了20%。数据集的某些部分已使用以下文本作为前缀:[Genre: <genre1>,<genre2>]
局限性和偏差
GPT - J的核心功能是获取一段文本字符串并预测下一个标记。虽然语言模型广泛用于此之外的任务,但这项工作仍有很多未知因素。在提示GPT - J时,重要的是要记住,统计上最可能的下一个标记通常不是产生最“准确”文本的标记。绝不要依赖GPT - J来产生事实准确的输出。
GPT - J是在Pile数据集上训练的,该数据集已知包含亵渎、淫秽和其他冒犯性语言。根据用例的不同,GPT - J可能会产生社会不可接受的文本。有关Pile数据集中偏差的更详细分析,请参阅Pile论文的第5和6节。
与所有语言模型一样,很难提前预测GPT - J会如何响应特定提示,并且可能会在没有警告的情况下出现冒犯性内容。我们建议在发布输出之前由人工对其进行筛选或过滤,以审查不良内容并提高结果的质量。
BibTeX引用和引用信息
该模型使用以下模型作为基础:
@misc{gpt-j,
author = {Wang, Ben and Komatsuzaki, Aran},
title = {{GPT-J-6B: A 6 Billion Parameter Autoregressive Language Model}},
howpublished = {\url{https://github.com/kingoflolz/mesh-transformer-jax}},
year = 2021,
month = May
}
📄 许可证
本项目采用MIT许可证。
致谢
如果没有Google通过TPU研究云慷慨提供的计算资源,以及Cloud TPU团队提供的Cloud TPU VM Alpha早期访问权限,这个项目是不可能完成的。