Fugaku-LLM-13B开源大语言模型 - 高透明安全，日语交流表现出色

首页

Fugaku LLM 13B

由 Fugaku-LLM 开发

Fugaku-LLM是使用超级计算机'富岳'从零开始预训练的日本国产大语言模型，具有高度透明性和安全性，日语表现尤为出色

大型语言模型

Transformers

支持多种语言开源协议:其他 #日语优化 #超级计算机训练 #透明数据源

下载量 25

发布时间 : 4/18/2024

模型简介

基于日本超级计算机'富岳'开发的大规模语言模型，主要用于日语和英语的文本生成任务

模型特点

日本国产模型

完全使用日本超级计算机'富岳'训练，数据来源透明可控

日语优化

训练数据以日语为主，在日语任务上表现优异

商业友好许可

允许商业和非商业用途，包括修改和再分发

模型能力

日语文本生成

英语文本生成

指令跟随

问答系统

使用案例

教育

日语学习辅助

帮助非日语母语者学习日语表达

商业

日语客服机器人

构建面向日本市场的智能客服系统

🚀 Fugaku-LLM

Fugaku-LLM 模型是一款使用超级计算机“富岳”从零开始预训练的国产模型。该模型具有高度的透明度和安全性，因为它是使用我们自己的数据从零开始训练的。训练数据主要由日语数据组成，因此该模型在日语处理方面表现出色。

此模型由 Fugaku-LLM 开发。其他模型的链接可在索引中找到。

🚀 快速开始

Fugaku-LLM 模型索引

模型	Fugaku-LLM	Fugaku-LLM-instruct
13B	链接	链接

模型详情

属性	详情
开发者	Fugaku-LLM
模型类型	GPT - 2
语言	日语、英语
库	DeepSpeedFugaku
分词器	[llm - jp - tokenizer](https://github.com/llm - jp/llm - jp - tokenizer)，v2.2 的 code10k_en20k_ja30k
许可证	Fugaku-LLM 使用条款

模型性能

指令微调模型

我们按照与 [Nejumi LLM Leaderboard Neo](https://wandb.ai/wandb - japan/llm - leaderboard/reports/Nejumi - LLM - Neo--Vmlldzo2MTkyMTU0) 相同的方式，通过日语机器翻译基准对我们的模型进行了评估。我们仅对 Fastchat 代码的以下部分进行了修改：

在为输入提示调用分词器时添加 "add_special_tokens=False"
将生成的令牌数量限制在 2048 以内

模型名称	平均分	编码	提取	人文	数学	推理	角色扮演	理工科	写作
Fugaku-LLM-13B-instruct	5.47	2.10	4.10	9.18	2.30	3.40	8.20	7.25	7.25

💻 使用示例

基础用法

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_path = "Fugaku-LLM/Fugaku-LLM-13B"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(model_path, torch_dtype=torch.bfloat16, device_map="auto")
model.eval()

prompt = "スーパーコンピュータ「富岳」という名称は"

input_ids = tokenizer.encode(prompt,
                             add_special_tokens=False,
                             return_tensors="pt")
tokens = model.generate(
    input_ids.to(device=model.device),
    max_new_tokens=128,
    do_sample=True,
    temperature=0.1,
    top_p=1.0,
    repetition_penalty=1.0,
    top_k=0
)
out = tokenizer.decode(tokens[0], skip_special_tokens=True)
print(out)

高级用法

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_path = "Fugaku-LLM/Fugaku-LLM-13B-instruct"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(model_path, torch_dtype=torch.bfloat16, device_map="auto")
model.eval()

system_example = "以下は、タスクを説明する指示です。要求を適切に満たす応答を書きなさい。"
instruction_example = "スーパーコンピュータ「富岳」の名前の由来を教えてください。"

prompt = f"{system_example}\n\n### 指示:\n{instruction_example}\n\n### 応答:\n"

input_ids = tokenizer.encode(prompt,
                             add_special_tokens=False,
                             return_tensors="pt")
tokens = model.generate(
    input_ids.to(device=model.device),
    max_new_tokens=128,
    do_sample=True,
    temperature=0.1,
    top_p=1.0,
    repetition_penalty=1.0,
    top_k=0
)
out = tokenizer.decode(tokens[0], skip_special_tokens=True)
print(out)

训练数据集

指令微调

[oasst1](https://huggingface.co/datasets/llm - jp/oasst1 - 21k - ja)
[databricks - dolly - 15k](https://huggingface.co/datasets/llm - jp/databricks - dolly - 15k - ja)
gsm8k

📄 许可证

Fugaku-LLM 使用条款可在 LICENSE 和 LICENSE_ja 文件中查看。

风险与限制

使用 Fugaku-LLM 进行处理的结果可能包含虚假信息、偏差、侵犯他人权利的内容，或者不符合用户预期的有效性和实用性的内容。

致谢

本成果基于超级计算机“富岳”的政府主导项目“富岳上大语言模型分布式训练方法的开发”。

作者

东京工业大学
东北大学
富士通有限公司
理化学研究所
名古屋大学
CyberAgent 株式会社
Kotoba Technologies 株式会社

Fugaku-LLM 使用条款

一、定义

本使用条款（以下简称“本条款”）规定了由富士通有限公司、国立研究开发法人理化学研究所、国立大学法人东京工业大学、国立大学法人东北大学、株式会社 CyberAgent、国立大学法人东海国立大学机构以及株式会社 Kotoba Technologies Japan（以下简称“开发者”）在超级计算机“富岳”政策对应框架内开发大规模语言模型分布式并行学习方法所产生并公开的大规模语言模型（以下简称“Fugaku-LLM”）的使用条件。Fugaku-LLM 的使用者（以下简称“使用者”）应在同意本条款的基础上使用 Fugaku-LLM。

二、使用许可

Fugaku-LLM 的使用者可根据本条款，将 Fugaku-LLM 用于商业或非商业目的。此处的“使用”包括但不限于对 Fugaku-LLM 的修改、复制和再分发，以及使用 Fugaku-LLM 或对其进行修改后创建的大规模语言模型（以下简称“修改物”）实施服务。
使用者在再分发 Fugaku-LLM 或修改物时的许可证，或使用 Fugaku-LLM 或修改物提供服务的使用条款中，必须包含本使用条款。此外，使用者在再分发修改物时，必须明确注明自己进行了修改。违反本条款的使用者不得使用 Fugaku-LLM。

三、责任

使用者预先同意，Fugaku-LLM 按现状提供，开发者无论明示或暗示，均不对 Fugaku-LLM 的准确性、完整性、时效性和质量等作出任何保证，且不对使用者使用或无法使用 Fugaku-LLM 所产生的任何损害承担责任。
若因使用者使用 Fugaku-LLM 或违反本使用条款而导致开发者遭受损害，使用者应赔偿该损害。
使用者应自行承担使用 Fugaku-LLM 的责任和判断，对于因使用 Fugaku-LLM 与第三方产生的纠纷，应自行承担责任和费用进行处理，不得给开发者带来任何困扰。使用者应自行承担因使用 Fugaku-LLM 产生的损害。

四、禁止行为

使用者在使用 Fugaku-LLM 时不得进行以下行为：

侵犯开发者或第三方知识产权的行为，或有侵犯风险的行为。
侵犯开发者或第三方财产、隐私或肖像权的行为，或有侵犯风险的行为。
歧视、诽谤、侮辱开发者或第三方，助长对他人的歧视，或损害他人名誉或信誉的行为。
从事未经许可的法律业务，或由无资格专业人员提供法律建议的行为。
由无资格专业人员提供财务建议的行为。
包括提供健康建议或治疗方法等在内的医疗行为。
其他法律法规要求许可等的行为。

五、限制事项

使用者承认，使用 Fugaku-LLM 进行处理的结果（以下简称“处理结果”）可能包含虚假信息、偏差、侵犯他人权利的内容，或不符合使用者预期的有效性和实用性的内容，并同意在不准确或不适当的处理结果可能导致使用者或第三方损害、权利侵犯和/或伦理问题的前提下使用 Fugaku-LLM。使用者应自行确认处理结果的准确性、合法性和伦理有效性后再使用。若使用者使用 Fugaku-LLM（包括处理结果）导致自身或第三方权利侵犯，开发者不承担任何损害责任，使用者不得给开发者带来任何困扰。
使用者应在遵守各国和地区法律法规等规定的前提下使用处理结果。
使用者不得将处理结果用于本条款第三条（禁止行为）所述的行为。