模型简介
模型特点
模型能力
使用案例
🚀 Fugaku-LLM
Fugaku-LLM是一款基于超级计算机“富岳”从零开始预训练的国产模型。该模型使用自主数据从头开始训练,具有高度的透明度和安全性。训练数据主要由日语数据组成,因此该模型在日语处理方面表现出色。
本模型由 Fugaku-LLM 开发。其他模型的链接可在索引中找到。
🚀 快速开始
使用指令微调模型
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model_path = "Fugaku-LLM/Fugaku-LLM-13B-instruct"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(model_path, torch_dtype=torch.bfloat16, device_map="auto")
model.eval()
system_example = "以下は、タスクを説明する指示です。要求を適切に満たす応答を書きなさい。"
instruction_example = "スーパーコンピュータ「富岳」の名前の由来を教えてください。"
prompt = f"{system_example}\n\n### 指示:\n{instruction_example}\n\n### 応答:\n"
input_ids = tokenizer.encode(prompt,
add_special_tokens=False,
return_tensors="pt")
tokens = model.generate(
input_ids.to(device=model.device),
max_new_tokens=128,
do_sample=True,
temperature=0.1,
top_p=1.0,
repetition_penalty=1.0,
top_k=0
)
out = tokenizer.decode(tokens[0], skip_special_tokens=True)
print(out)
使用基础模型
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model_path = "Fugaku-LLM/Fugaku-LLM-13B"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(model_path, torch_dtype=torch.bfloat16, device_map="auto")
model.eval()
prompt = "スーパーコンピュータ「富岳」という名称は"
input_ids = tokenizer.encode(prompt,
add_special_tokens=False,
return_tensors="pt")
tokens = model.generate(
input_ids.to(device=model.device),
max_new_tokens=128,
do_sample=True,
temperature=0.1,
top_p=1.0,
repetition_penalty=1.0,
top_k=0
)
out = tokenizer.decode(tokens[0], skip_special_tokens=True)
print(out)
✨ 主要特性
- 高度透明与安全:使用自主数据从头开始训练,具有高度的透明度和安全性。
- 日语处理出色:训练数据主要由日语数据组成,在日语处理方面表现优异。
📦 安装指南
文档未提及安装步骤,故跳过。
💻 使用示例
基础用法
# 使用指令微调模型示例
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model_path = "Fugaku-LLM/Fugaku-LLM-13B-instruct"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(model_path, torch_dtype=torch.bfloat16, device_map="auto")
model.eval()
system_example = "以下は、タスクを説明する指示です。要求を適切に満たす応答を書きなさい。"
instruction_example = "スーパーコンピュータ「富岳」の名前の由来を教えてください。"
prompt = f"{system_example}\n\n### 指示:\n{instruction_example}\n\n### 応答:\n"
input_ids = tokenizer.encode(prompt,
add_special_tokens=False,
return_tensors="pt")
tokens = model.generate(
input_ids.to(device=model.device),
max_new_tokens=128,
do_sample=True,
temperature=0.1,
top_p=1.0,
repetition_penalty=1.0,
top_k=0
)
out = tokenizer.decode(tokens[0], skip_special_tokens=True)
print(out)
# 使用基础模型示例
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model_path = "Fugaku-LLM/Fugaku-LLM-13B"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(model_path, torch_dtype=torch.bfloat16, device_map="auto")
model.eval()
prompt = "スーパーコンピュータ「富岳」という名称は"
input_ids = tokenizer.encode(prompt,
add_special_tokens=False,
return_tensors="pt")
tokens = model.generate(
input_ids.to(device=model.device),
max_new_tokens=128,
do_sample=True,
temperature=0.1,
top_p=1.0,
repetition_penalty=1.0,
top_k=0
)
out = tokenizer.decode(tokens[0], skip_special_tokens=True)
print(out)
高级用法
文档未提及高级用法代码示例,故跳过。
📚 详细文档
Fugaku-LLM模型索引
模型 | Fugaku-LLM | Fugaku-LLM-instruct |
---|---|---|
13B | 链接 | 链接 |
模型详情
属性 | 详情 |
---|---|
开发者 | Fugaku-LLM |
模型类型 | GPT - 2 |
语言 | 日语、英语 |
库 | DeepSpeedFugaku |
分词器 | [llm - jp - tokenizer](https://github.com/llm - jp/llm - jp - tokenizer),v2.2的code10k_en20k_ja30k |
许可证 | Fugaku-LLM使用条款 |
模型性能
指令微调模型
我们按照 [Nejumi LLM Leaderboard Neo](https://wandb.ai/wandb - japan/llm - leaderboard/reports/Nejumi - LLM - Neo--Vmlldzo2MTkyMTU0) 的方式,通过日语MT基准对模型进行了评估。我们仅对Fastchat代码的以下部分进行了修改:
- 在为输入提示调用分词器时添加 "add_special_tokens=False"
- 将生成的令牌数量限制在2048以内
模型名称 | 平均分 | 编码 | 提取 | 人文学科 | 数学 | 推理 | 角色扮演 | 理工科 | 写作 |
---|---|---|---|---|---|---|---|---|---|
Fugaku-LLM-13B-instruct | 5.47 | 2.10 | 4.10 | 9.18 | 2.30 | 3.40 | 8.20 | 7.25 | 7.25 |
训练数据集
指令微调
- [oasst1](https://huggingface.co/datasets/llm - jp/oasst1 - 21k - ja)
- [databricks - dolly - 15k](https://huggingface.co/datasets/llm - jp/databricks - dolly - 15k - ja)
- gsm8k
🔧 技术细节
文档未提及技术实现细节,故跳过。
📄 许可证
Fugaku-LLM使用条款可在 LICENSE 和 LICENSE_ja 文件中查看。
Fugaku-LLM使用条款
本使用条款(以下简称“本条款”)规定了由富士通株式会社、国立研究开发法人理化学研究所、国立大学法人东京工业大学、国立大学法人东北大学、株式会社CyberAgent、国立大学法人东海国立大学机构以及株式会社Kotoba Technologies Japan(以下简称“开发者”)在超级计算机“富岳”政策对应框架内开发大规模语言模型分布式并行学习方法的成果——大规模语言模型(以下简称“Fugaku-LLM”)的使用条件。Fugaku-LLM的使用者(以下简称“使用者”)应在同意本条款的基础上使用Fugaku-LLM。
第1条(使用许可)
Fugaku-LLM的使用者可根据本条款,将Fugaku-LLM用于商业或非商业目的。此处的“使用”包括但不限于对Fugaku-LLM的修改、复制和再分发,以及使用Fugaku-LLM或对Fugaku-LLM进行修改后创建的大规模语言模型(以下简称“修改物”)实施服务。但是,使用者在再分发Fugaku-LLM或修改物时的许可证,或使用Fugaku-LLM或修改物的服务的使用条款中,必须包含本使用条款。此外,使用者在再分发修改物时,必须明确注明自己进行了修改。违反本条款的Fugaku-LLM使用者不得使用Fugaku-LLM。
第2条(责任)
- 使用者预先同意,Fugaku-LLM按现状提供,开发者无论明示或暗示,均不对Fugaku-LLM的准确性、完整性、时效性和质量等作出任何保证,且不对因使用者使用或无法使用本Fugaku-LLM而产生的任何损害承担责任。
- 若开发者因使用者使用Fugaku-LLM或使用者违反本使用条款而遭受损害,使用者应赔偿该损害。
- 使用者应自行承担责任和判断使用Fugaku-LLM,并自行承担责任和费用处理因使用Fugaku-LLM而与第三方产生的任何纠纷,不得给开发者带来任何困扰。使用者应自行承担因使用Fugaku-LLM而产生的损害。
第3条(禁止行为)
使用者不得使用Fugaku-LLM进行以下行为:
- 侵犯开发者或第三方知识产权的行为,或可能侵犯知识产权的行为;
- 侵犯开发者或第三方财产、隐私或肖像权的行为,或可能侵犯此类权利的行为;
- 歧视、诽谤、侮辱开发者或第三方,助长对他人的歧视,或损害他人名誉或信誉的行为;
- 从事未经授权的法律业务,或由无资格专业人员提供法律建议的行为;
- 由无资格专业人员提供财务建议的行为;
- 包括提供健康建议或治疗方法在内的医疗行为;
- 其他法律法规要求许可等的行为。
第4条(限制事项)
- 使用者承认,使用Fugaku-LLM进行处理的结果(以下简称“处理结果”)可能包含虚假、偏见、侵犯他人权利的内容,或不符合使用者预期的有效性或有用性的内容,并同意在不准确或不适当的处理结果可能导致使用者或第三方遭受损害、权利侵犯和/或伦理问题的前提下使用Fugaku-LLM。使用者应自行确认处理结果的正确性、合法性和伦理有效性后再使用。若使用者使用Fugaku-LLM(包括处理结果)导致自身或第三方的权利受到侵犯,开发者对此类损害不承担任何责任,使用者不得给开发者带来任何困扰。
- 使用者应遵守各国和地区的法律法规等规定使用处理结果。
- 使用者不得将处理结果用于第3条(禁止事项)中所列的行为。
第5条(权利归属等)
- 除本使用条款明确规定的情况外,使用者不得获得与Fugaku-LLM相关的任何权利。
- 使用者将获得因创建Fugaku-LLM修改物而新产生的权利,但在使用修改物时应遵守本使用条款。
- 开发者不对处理结果主张任何权利。
第6条(出口交易)
使用者在使用Fugaku-LLM和处理结果时,若涉及根据外汇和对外贸易法(包括相关政令和省令)或美国出口管理法令需要许可的出口,应自行获得规定的许可。
第7条(管辖法院)
因本使用条款产生的纠纷,东京地方法院为一审专属管辖法院。
第8条(适用法律)
本使用条款适用日本法律。
第9条(其他规定)
本条款规定了Fugaku-LLM使用者与开发者之间使用相关的所有事项,本条款未规定的事项,应遵循相关法律法规。
第10条(语言)
本条款以日语为正本。本条款的英文翻译仅供参考,不具有任何法律效力。
⚠️ 重要提示
Fugaku-LLM的处理结果可能包含虚假、偏见、侵犯他人权利的内容,或不符合使用者预期的有效性或有用性的内容。
💡 使用建议
使用处理结果前,请自行确认其正确性、合法性和伦理有效性。
👏 致谢
本成果基于超级计算机“富岳”的政府发起项目“富岳上大规模语言模型分布式训练方法的开发”。
👨💻 作者
- 东京工业大学
- 东北大学
- 富士通株式会社
- 理化学研究所
- 名古屋大学
- 株式会社CyberAgent
- 株式会社Kotoba Technologies



