Swallow MS 7b Instruct V0.1
基于Mistral-7B-v0.1进行持续预训练的日语增强大语言模型
下载量 48
发布时间 : 3/29/2024
模型简介
Swallow-MS-7b-v0.1是基于Mistral-7B-v0.1架构的日语增强大语言模型,通过增加日语数据训练,优化了日语文本处理能力。
模型特点
日语优化分词器
扩展了日语词汇的分词器,能更高效地用更少token表示文本,显著加快推理速度
双语支持
同时支持日语和英语处理,特别优化了日语能力
指令跟随能力
通过指令调优版本(Swallow-MS-7b-instruct-v0.1)提供良好的指令遵循表现
模型能力
日语文本生成
英语文本生成
指令理解与执行
多轮对话
使用案例
智能助手
日语问答系统
用于构建日语智能问答助手
在MT-Bench JA基准测试中表现优于多个日语模型
内容生成
日语内容创作
生成日语文章、报告等文本内容
🚀 Swallow-MS-7b-v0.1
我们的 Swallow-MS-7b-v0.1 模型基于 Mistral-7B-v0.1 进行持续预训练,主要增加了日语语言数据。该模型能更好地处理日语相关任务,为日语自然语言处理提供更强大的支持。
🚀 快速开始
本仓库提供由 TokyoTech-LLM 开发的大语言模型。首先,你需要安装 requirements.txt 中的额外依赖项:
pip install -r requirements.txt
✨ 主要特性
- 多语言支持:支持日语和英语两种语言。
- 高效推理:采用基于日语数据扩展词汇表的分词器,能以更少的标记更高效地表示文本,推理速度显著加快。
📦 安装指南
安装额外依赖项:
pip install -r requirements.txt
💻 使用示例
基础用法
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
model_name = "tokyotech-llm/Swallow-MS-7b-instruct-v0.1"
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.bfloat16, device_map="auto")
tokenizer = AutoTokenizer.from_pretrained(model_name)
device = "cuda"
messages = [
{"role": "system", "content": "あなたは誠実で優秀な日本人のアシスタントです。"},
{"role": "user", "content": "東京工業大学の主なキャンパスについて教えてください"}
]
encodeds = tokenizer.apply_chat_template(messages, return_tensors="pt")
model_inputs = encodeds.to(device)
model.to(device)
generated_ids = model.generate(model_inputs, max_new_tokens=128, do_sample=True)
decoded = tokenizer.batch_decode(generated_ids)
print(decoded[0])
指令格式 Ver0.1
此格式必须严格遵守,因为偏差可能导致模型输出效果不佳。用于构建指令模型提示的模板如下:
<s>[INST] <<SYS>>\n{SYSTEM_PROMPT}\n<</SYS>>\n\n{USER_MESSAGE_1} [/INST] {BOT_MESSAGE_1}</s>[INST] {USER_MESSAGE_2} [/INST]
请注意,<s>
和 </s>
分别是用于字符串开头(BOS)和结尾(EOS)的特殊标记,而 [INST] 和 [/INST] 被视为常规字符串。
对于 "{SYSTEM_PROMPT}" 部分,建议使用 "あなたは誠実で優秀な日本人のアシスタントです。"
对于 "{USER_MESSAGE_1}" 部分,建议使用 {instruction}\n{input}
换句话说,建议使用以下格式:
<s>[INST] <<SYS>>\nあなたは誠実で優秀な日本人のアシスタントです。\n<</SYS>>\n\n{instruction1}\n{input1} [/INST] {BOT_MESSAGE_1}</s>[INST] {instruction2}\n{input2} [/INST]
📚 详细文档
模型发布更新
我们很高兴分享最新模型的发布计划:
- 2024 年 4 月 26 日:发布 Swallow-MS-7b-instruct-v0.1
- 2024 年 3 月 11 日:发布 Swallow-MS-7b-v0.1
模型详情
属性 | 详情 |
---|---|
模型类型 | 请参考 Mistral 技术报告了解模型架构详情。 |
语言 | 日语、英语 |
分词器 | 该模型采用基于日语数据扩展词汇表的分词器,能以更少的标记更高效地表示文本,推理速度显著加快。 |
联系方式 | swallow[at]nlp.c.titech.ac.jp |
指令模型性能
MT-Bench JA
逐轮性能
我们报告了总体(即第一轮和第二轮得分的平均值)、第一轮和第二轮得分。
总体
模型 | 平均分 | 写作 | 角色扮演 | 推理 | 数学 | 编码 | 提取 | 科学技术 | 人文 |
---|---|---|---|---|---|---|---|---|---|
Swallow-MS-7b-instruct-v0.1 | 0.3411 | 0.3770 | 0.4290 | 0.3454 | 0.1040 | 0.2400 | 0.3677 | 0.3907 | 0.4750 |
第一轮
模型 | 平均分 | 写作 | 角色扮演 | 推理 | 数学 | 编码 | 提取 | 科学技术 | 人文 |
---|---|---|---|---|---|---|---|---|---|
Swallow-MS-7b-instruct-v0.1 | 0.3699 | 0.4880 | 0.4260 | 0.3900 | 0.1080 | 0.2364 | 0.3780 | 0.4500 | 0.4800 |
第二轮
模型 | 平均分 | 写作 | 角色扮演 | 推理 | 数学 | 编码 | 提取 | 科学技术 | 人文 |
---|---|---|---|---|---|---|---|---|---|
Swallow-MS-7b-instruct-v0.1 | 0.3130 | 0.2624 | 0.4320 | 0.2996 | 0.1000 | 0.2430 | 0.3564 | 0.3291 | 0.4700 |
与过往模型的比较
本部分仅提供总体得分。
模型 | 平均分 | 写作 | 角色扮演 | 推理 | 数学 | 编码 | 提取 | 科学技术 | 人文 |
---|---|---|---|---|---|---|---|---|---|
Swallow-MS-7b-instruct-v0.1 | 0.3411 | 0.3770 | 0.4290 | 0.3454 | 0.1040 | 0.2400 | 0.3677 | 0.3907 | 0.4750 |
ELYZA-japanese-Llama-2-7b-fast-instruct | 0.2827 | 0.3289 | 0.3907 | 0.2424 | 0.1480 | 0.1584 | 0.3511 | 0.3053 | 0.3365 |
calm2-7b-chat | 0.3204 | 0.4657 | 0.4898 | 0.1837 | 0.1005 | 0.1414 | 0.3927 | 0.3601 | 0.4293 |
calm2-7b-chat-dpo-experimental | 0.3493 | 0.5312 | 0.5237 | 0.1857 | 0.1000 | 0.1813 | 0.3355 | 0.4320 | 0.5051 |
RakutenAI-7B-instruct | 0.2994 | 0.3623 | 0.3711 | 0.3333 | 0.1763 | 0.1581 | 0.4215 | 0.2824 | 0.2901 |
RakutenAI-7B-chat | 0.3667 | 0.4229 | 0.4644 | 0.3990 | 0.2161 | 0.2390 | 0.3416 | 0.3904 | 0.4601 |
评估基准
MT-Bench JA
我们使用 Japanese MT-Bench 评估模型的指令遵循能力。我们采用以下设置:
- 实现方式:FastChat [Zheng+, 2023](提交编号 #e86e70d0)
- 问题:Nejumi LLM-Leaderboard NEO, mtbench_ja_question_v3
- 参考答案:Nejumi LLM-Leaderboard NEO, mtbench_ja_referenceanswer_v1
- 评判提示:Nejumi LLM-Lederboard NEO, mtbench_ja_prompt_v1
- 评判模型:
gpt-4-1106-preview
- 评分:绝对尺度归一化到 0 - 1 范围,五次运行取平均值。
训练数据集
指令微调 Ver0.1
以下数据集用于指令微调:
- OpenAssistant Conversations Dataset,其中包含人类话语,但不使用回复。相反,回复使用 Mixtral-8x7B-Instruct-v0.1 模型生成。
- OpenAssistant Conversations Dataset 21k Ja
- OpenAssistant Conversations Dataset 21k En
- Databricks Dolly 15k Ja
- Databricks Dolly 15k En
请注意,部分数据存在质量或格式问题,因此并非所有数据都被使用。
风险与局限性
此处发布的模型仍处于我们研发的早期阶段,尚未进行调整以确保输出符合人类意图和安全考虑。
致谢
我们感谢 Mistral AI 在开放许可证下发布 Mistral 7B v0.1,以便他人在此基础上进行开发。
我们的项目得到了国立先进工业科学技术研究所 ABCI 大规模语言模型构建支持计划 的支持。
📄 许可证
apache-2.0
👥 作者
以下是团队成员:
📝 引用方式
如果您认为我们的工作有帮助,请随时引用我们:
@inproceedings{Fujii:COLM2024,
title={Continual Pre-Training for Cross-Lingual LLM Adaptation:
Enhancing Japanese Language Capabilities},
author={Kazuki Fujii and Taishi Nakamura and Mengsay Loem and Hiroki
Iida and Masanari Ohi and Kakeru Hattori and Hirai Shota and Sakae
Mizuki and Rio Yokota and Naoaki Okazaki},
booktitle="Proceedings of the First Conference on Language Modeling",
series={COLM},
pages="(to appear)",
year="2024",
month=oct,
address={University of Pennsylvania, USA},
}
@inproceedings{Okazaki:COLM2024,
title={Building a Large Japanese Web Corpus for Large Language Models},
author={Naoaki Okazaki and Kakeru Hattori and Hirai Shota and Hiroki
Iida and Masanari Ohi and Kazuki Fujii and Taishi Nakamura and Mengsay
Loem and Rio Yokota and Sakae Mizuki},
booktitle="Proceedings of the First Conference on Language Modeling",
series={COLM},
pages="(to appear)",
year="2024",
month=oct,
address={University of Pennsylvania, USA},
}
Phi 2 GGUF
其他
Phi-2是微软开发的一个小型但强大的语言模型,具有27亿参数,专注于高效推理和高质量文本生成。
大型语言模型 支持多种语言
P
TheBloke
41.5M
205
Roberta Large
MIT
基于掩码语言建模目标预训练的大型英语语言模型,采用改进的BERT训练方法
大型语言模型 英语
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基础模型的蒸馏版本,在保持相近性能的同时更轻量高效,适用于序列分类、标记分类等自然语言处理任务。
大型语言模型 英语
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一个多语言大语言模型,针对多语言对话用例进行了优化,在常见的行业基准测试中表现优异。
大型语言模型 英语
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基于100种语言的2.5TB过滤CommonCrawl数据预训练的多语言模型,采用掩码语言建模目标进行训练。
大型语言模型 支持多种语言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基于Transformer架构的英语预训练模型,通过掩码语言建模目标在海量文本上训练,支持文本特征提取和下游任务微调
大型语言模型 英语
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI发布的开放预训练Transformer语言模型套件,参数量从1.25亿到1750亿,旨在对标GPT-3系列性能,同时促进大规模语言模型的开放研究。
大型语言模型 英语
O
facebook
6.3M
198
1
基于transformers库的预训练模型,适用于多种NLP任务
大型语言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多语言大语言模型系列,包含8B、70B和405B参数规模,支持8种语言和代码生成,优化了多语言对话场景。
大型语言模型
Transformers 支持多种语言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基础版是由Google开发的文本到文本转换Transformer模型,参数规模2.2亿,支持多语言NLP任务。
大型语言模型 支持多种语言
T
google-t5
5.4M
702
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98