🚀 llm-jp-13b-instruct-full-jaster-dolly-oasst-v1.0
本仓库提供了由日本发起的合作项目 LLM-jp 开发的大语言模型。这些模型在自然语言处理领域具有重要价值,能为相关研究和应用提供强大的支持。
🚀 快速开始
在使用本模型之前,你需要安装所需的库及其指定版本。
所需库及其版本
- torch>=2.0.0
- transformers>=4.34.0
- tokenizers>=0.14.0
- accelerate==0.23.0
✨ 主要特性
本项目提供了多种模型变体,涵盖指令模型和预训练模型,以满足不同的应用需求。同时,模型采用了先进的 Transformer 架构,在自然语言处理任务中具有出色的表现。
模型变体
指令模型
预训练模型
检查点格式:Hugging Face Transformers(Megatron-DeepSpeed 格式的模型可在 此处 获取)
💻 使用示例
基础用法
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("llm-jp/llm-jp-13b-instruct-full-jaster-dolly-oasst-v1.0")
model = AutoModelForCausalLM.from_pretrained("llm-jp/llm-jp-13b-instruct-full-jaster-dolly-oasst-v1.0", device_map="auto", torch_dtype=torch.float16)
text = "自然言語処理とは何か"
text = text + "### 回答:"
tokenized_input = tokenizer.encode(text, add_special_tokens=False, return_tensors="pt").to(model.device)
with torch.no_grad():
output = model.generate(
tokenized_input,
max_new_tokens=100,
do_sample=True,
top_p=0.95,
temperature=0.7,
)[0]
print(tokenizer.decode(output))
📚 详细文档
模型详情
属性 |
详情 |
模型类型 |
基于 Transformer 的语言模型 |
总所见令牌数 |
300B |
模型 |
参数 |
层数 |
隐藏层大小 |
头数 |
上下文长度 |
13b 模型 |
13b |
40 |
5120 |
40 |
2048 |
1.3b 模型 |
1.3b |
24 |
2048 |
16 |
2048 |
训练信息
预训练
- 硬件:96 块 A100 40GB GPU(mdx 集群)
- 软件:Megatron-DeepSpeed
指令微调
分词器
本模型的分词器基于 huggingface/tokenizers 的 Unigram byte-fallback 模型。词汇表条目由 llm-jp-tokenizer v2.1 (50k)
转换而来。有关词汇表构建过程的详细信息,请参考 llm-ja-tokenizer
的 README.md。
- 模型:使用 Unigram byte-fallback 模型的 Hugging Face Fast Tokenizer,需要
tokenizers>=0.14.0
- 训练算法:SentencePiece Unigram byte-fallback
- 训练数据:模型预训练数据集的一个子集
- 词汇表大小:50,570(日语、英语和源代码的混合词汇表)
数据集
预训练
模型使用以下数据集的混合进行预训练:
预训练使用总共 10 折不重叠的数据连续进行,每一折大约包含 27 - 28B 令牌。我们使用从上述相同源数据集获得的额外(可能)高质量 27B 令牌数据完成了预训练。
指令微调
模型在以下数据集上进行了微调:
评估
你可以在这个 排行榜 上查看几个大语言模型的评估结果。我们使用 llm-jp-eval 进行评估。
风险与限制
此处发布的模型仍处于我们研究和开发的早期阶段,尚未进行调整以确保输出符合人类意图和安全考虑。
咨询问题
如有问题,请发送邮件至 llm-jp(at)nii.ac.jp
📄 许可证
本项目采用 Apache 许可证 2.0 版。
模型卡片作者
姓名按字母顺序排列
Hirokazu Kiyomaru, Hiroshi Matsuda, Jun Suzuki, Namgi Han, Saku Sugawara, Shota Sasaki, Shuhei Kurita, Taishi Nakamura, Takumi Okamoto.