🚀 rinna/nekomata-14b
本项目基于日语和英语混合数据集的660亿个标记,对qwen-14b进行持续预训练,显著提升了模型在日语任务上的表现。
🚀 快速开始
本模型是在qwen-14b的基础上,在日语和英语混合数据集的660亿标记上进行持续预训练得到的。持续预训练显著提升了模型在日语任务上的性能,同时还具备原Qwen模型的以下出色特性:
- 包含广泛的Qwen词汇表(词汇量 > 150k),使模型处理日语文本的效率比之前发布的youri系列更高。
- 模型支持的最大序列长度为8192。
nekomata
这个名字来源于日语单词猫又/ねこまた/Nekomata
,它是一种日本神话生物(妖怪/ようかい/Youkai
)。
✨ 主要特性
训练相关
- 使用库:该模型使用基于aws-neuron/neuronx-nemo-megatron的代码进行训练。
- 模型架构:这是一个基于Transformer的40层、隐藏层大小为5120的语言模型。有关架构细节,请参考Qwen论文。
- 持续预训练:模型以qwen-14b为基础进行初始化,并在以下混合语料库的约660亿标记上进行持续训练:
- 训练基础设施:
nekomata-14B
在由AWS Trainium专用机器学习加速芯片驱动的16个Amazon EC2 trn1.32xlarge实例节点上进行训练。预训练任务在大约7天的时间内完成。
- 贡献者:
- 发布日期:2023年12月21日
基准测试
请参考rinna的语言模型基准测试页面(2023年12月21日工作表)。
💻 使用示例
基础用法
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("rinna/nekomata-14b", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("rinna/nekomata-14b", device_map="auto", trust_remote_code=True)
text = "西田幾多郎は、"
token_ids = tokenizer.encode(text, add_special_tokens=False, return_tensors="pt")
with torch.no_grad():
output_ids = model.generate(
token_ids.to(model.device),
max_new_tokens=200,
min_new_tokens=200,
do_sample=True,
temperature=1.0,
top_p=0.95,
pad_token_id=tokenizer.pad_token_id,
bos_token_id=tokenizer.bos_token_id,
eos_token_id=tokenizer.eos_token_id
)
output = tokenizer.decode(output_ids.tolist()[0])
print(output)
📚 详细文档
分词
该模型使用原始的Qwen分词器。它在cl100k
tiktoken分词器的基础上进行了扩展,词汇量为151,936。广泛的词汇表有助于模型实现更好的分词效率,特别是对于日语文本。
我们在不同的文本集合上比较了Qwen
分词器(nekomata
中使用)和llama-2
分词器(youri
中使用),发现Qwen分词器实现了更好的字节到标记率(即每1字节文本产生的平均标记数),如下所示。较低的字节到标记率表示更好的分词效率。
分词器 |
日语 |
英语 |
多语言 |
Qwen |
0.24 |
0.27 |
0.27 |
llama-2 |
0.40 |
0.29 |
0.36 |
引用方式
@misc{rinna-nekomata-14b,
title = {rinna/nekomata-14b},
author = {Zhao, Tianyu and Kaga, Akio and Sawada, Kei},
url = {https://huggingface.co/rinna/nekomata-14b}
}
@inproceedings{sawada2024release,
title = {Release of Pre-Trained Models for the {J}apanese Language},
author = {Sawada, Kei and Zhao, Tianyu and Shing, Makoto and Mitsui, Kentaro and Kaga, Akio and Hono, Yukiya and Wakatsuki, Toshiaki and Mitsuda, Koh},
booktitle = {Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)},
month = {5},
year = {2024},
pages = {13898--13905},
url = {https://aclanthology.org/2024.lrec-main.1213},
note = {\url{https://arxiv.org/abs/2404.01657}}
}
📄 许可证
通义千问许可协议