🚀 GPT-J-6B-Skein模型卡片
GPT-J-6B-Skein是一款文本生成模型,专为创意故事生成而设计,能理解自由文本和特定格式的交互式小说文本。该模型基于GPT - J架构,由KoboldAI开发并共享。
🚀 快速开始
使用以下代码开始使用该模型:
点击展开
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("KoboldAI/GPT-J-6B-Skein")
model = AutoModelForCausalLM.from_pretrained("KoboldAI/GPT-J-6B-Skein")
✨ 主要特性
- 创意故事生成:能够生成富有创意的故事内容。
- 支持特定格式:可以理解并处理以“> You”开头的交互式小说风格文本。
📦 安装指南
文档未提及安装步骤,可参考相关依赖库(如transformers
)的安装方式。
💻 使用示例
基础用法
此模型专为创意故事生成而设计,它可以理解自由形式的文本以及采用交互式小说风格编写的文本,其中行动以“> You”开头,例如:
You become aware of her breathing -- the slight expansion of her ribs, the soft exhalation -- natural, and yet somehow studied. "Ah -- by the way," she says, in a way that utterly fails to be casual, "have you seen the artist out there? -- My artist, that is."
"No," you respond, uneasy. You open your mouth and close it again.
> You ask about the experience of waking up
📚 详细文档
模型详情
属性 |
详情 |
开发者 |
KoboldAI |
共享者 |
KoboldAI |
模型类型 |
文本生成 |
语言 |
英语 |
许可证 |
Apache License 2.0 |
相关模型 |
GPT-J 6B |
父模型 |
GPT - J |
更多信息资源 |
GitHub仓库 关联模型文档 |
使用方式
直接使用
该模型旨在用于创意故事生成。它可以理解自由形式的文本以及采用交互式小说风格编写的文本,其中行动以“> You”开头。
下游使用
暂无更多信息。
超出适用范围的使用
该模型不应被用于故意为人们创造敌对或疏远的环境。
偏差、风险和局限性
GPT - J的核心功能是接收一串文本并预测下一个标记。虽然语言模型被广泛用于此之外的任务,但这项工作存在很多未知因素。在提示GPT - J时,重要的是要记住,统计上最有可能的下一个标记通常不是产生最“准确”文本的标记。绝不能依赖GPT - J产生事实准确的输出。
GPT - J是在Pile数据集上训练的,该数据集已知包含亵渎、淫秽和其他冒犯性语言。根据用例,GPT - J可能会产生社会不可接受的文本。有关Pile数据集中偏差的更详细分析,请参阅Pile论文的第5和第6节。
与所有语言模型一样,很难提前预测GPT - J将如何响应特定提示,并且可能会在没有警告的情况下出现冒犯性内容。我们建议在发布输出之前由人工进行审核或过滤,以审查不良内容并提高结果的质量。
训练详情
训练数据
数据主要由KoboldAI/GPT - Neo - 2.7B - Horni - LN模型数据集中的轻小说和各种交互式小说组成。该数据集使用[Themes: <逗号分隔的类型列表>]
进行标记,这意味着如果在上下文中放置类似的文本,模型将尝试以指定的风格生成文本。有关数据集的更多详细信息,请参考此文档。
训练过程
预处理
数据使用Python包ftfy进行预处理,以尽可能消除非ASCII标点字符和可能的编码错误。数据集中的交互式小说也进行了去重处理,因为交互式小说日志通常包含重复的文本,例如多次访问游戏中的同一区域。使用spaCy进行语法分析,目的是将旧文本冒险游戏中常见的行动重新格式化为更完整的句子。还手动消除了诸如“感谢游玩”消息和标题消息之类的内容。
速度、规模、时间
训练总共花费了大约14小时,平均速度为每秒5265个标记。
评估
测试数据、因素和指标
测试数据
暂无更多信息。
因素
暂无更多信息。
指标
暂无更多信息。
结果
暂无更多信息。
模型检查
暂无更多信息。
环境影响
可以使用Lacoste等人(2019)中介绍的机器学习影响计算器来估算碳排放。
- 硬件类型:暂无更多信息
- 使用时长:暂无更多信息
- 云服务提供商:暂无更多信息
- 计算区域:暂无更多信息
- 碳排放:暂无更多信息
技术规格
模型架构和目标
暂无更多信息。
计算基础设施
硬件
暂无更多信息。
软件
https://github.com/kingoflolz/mesh-transformer-jax
引用
BibTeX:
@misc{mesh-transformer-jax,
author = {Wang, Ben},
title = {{Mesh-Transformer-JAX: Model-Parallel Implementation of Transformer Language Model with JAX}},
howpublished = {\url{https://github.com/kingoflolz/mesh-transformer-jax}},
year = 2021,
month = May
}
术语表
暂无更多信息。
更多信息
暂无更多信息。
模型卡片作者
KoboldAI与Ezi Ozoani和Hugging Face团队合作完成。
模型卡片联系方式
暂无更多信息。
⚠️ 重要提示
该模型不应被用于故意为人们创造敌对或疏远的环境。绝不能依赖GPT - J产生事实准确的输出。GPT - J可能会产生社会不可接受的文本,建议在发布输出之前由人工进行审核或过滤。
💡 使用建议
在提示GPT - J时,要记住统计上最有可能的下一个标记通常不是产生最“准确”文本的标记。使用前了解模型的偏差、风险和局限性。