🚀 llm-jp-13b-v1.0
本仓库提供由日本发起的合作项目 LLM-jp 开发的大语言模型。这些模型在自然语言处理领域具有广泛的应用前景,能够为用户提供高效、准确的文本生成服务。
🚀 快速开始
本项目提供了一系列基于Transformer架构的大语言模型,涵盖预训练模型和指令微调模型。以下是使用这些模型的快速入门指南。
✨ 主要特性
- 多种模型变体:提供预训练模型和指令微调模型,满足不同应用场景需求。
- 多语言支持:支持日语、英语等多种语言,适用于跨语言任务。
- 高效训练:采用先进的训练技术和硬件资源,确保模型性能。
📦 安装指南
使用本项目的模型前,请确保安装以下必需的库及其对应版本:
torch>=2.0.0
transformers>=4.34.0
tokenizers>=0.14.0
accelerate==0.23.0
你可以使用以下命令进行安装:
pip install torch transformers tokenizers accelerate
💻 使用示例
基础用法
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("llm-jp/llm-jp-13b-v1.0")
model = AutoModelForCausalLM.from_pretrained("llm-jp/llm-jp-13b-v1.0", device_map="auto", torch_dtype=torch.float16)
text = "自然言語処理とは何か"
tokenized_input = tokenizer.encode(text, add_special_tokens=False, return_tensors="pt").to(model.device)
with torch.no_grad():
output = model.generate(
tokenized_input,
max_new_tokens=100,
do_sample=True,
top_p=0.95,
temperature=0.7,
)[0]
print(tokenizer.decode(output))
📚 详细文档
模型详情
属性 |
详情 |
模型类型 |
基于Transformer的语言模型 |
总可见令牌数 |
300B |
模型 |
参数 |
层数 |
隐藏层大小 |
头数 |
上下文长度 |
13b模型 |
13b |
40 |
5120 |
40 |
2048 |
1.3b模型 |
1.3b |
24 |
2048 |
16 |
2048 |
训练详情
- 预训练:
- 硬件:96块A100 40GB GPU (mdx集群)
- 软件:Megatron-DeepSpeed
- 指令微调:
分词器详情
本模型的分词器基于 huggingface/tokenizers 的Unigram字节回退模型。词汇表条目从 llm-jp-tokenizer v2.1 (50k)
转换而来。有关词汇表构建过程的详细信息,请参考 llm-ja-tokenizer
的 README.md。
- 模型:使用Unigram字节回退模型的Hugging Face快速分词器,需要
tokenizers>=0.14.0
- 训练算法:SentencePiece Unigram字节回退
- 训练数据:模型预训练数据集的一个子集
- 词汇表大小:50,570(日语、英语和源代码的混合词汇表)
数据集详情
预训练
模型使用以下数据集的混合进行预训练:
预训练使用总共10折不重叠的数据连续进行,每一折约包含27 - 28B个令牌。我们使用从上述相同源数据集获得的额外(可能)高质量的27B令牌数据完成了预训练。
指令微调
模型在以下数据集上进行微调:
评估
你可以在这个 排行榜 上查看多个大语言模型的评估结果。我们使用 llm-jp-eval 进行评估。
风险与限制
本项目发布的模型仍处于研究和开发的早期阶段,尚未进行充分调整以确保输出符合人类意图和安全考虑。
联系我们
如有任何问题,请发送邮件至 llm-jp(at)nii.ac.jp。
许可证
本项目采用 Apache许可证2.0版。
模型卡片作者
按字母顺序排列:
Hirokazu Kiyomaru、Hiroshi Matsuda、Jun Suzuki、Namgi Han、Saku Sugawara、Shota Sasaki、Shuhei Kurita、Taishi Nakamura、Takumi Okamoto。