模型概述
模型特點
模型能力
使用案例
🚀 Fugaku-LLM
Fugaku-LLM是一款基於超級計算機“富嶽”從零開始預訓練的國產模型。該模型使用自主數據從頭開始訓練,具有高度的透明度和安全性。訓練數據主要由日語數據組成,因此該模型在日語處理方面表現出色。
本模型由 Fugaku-LLM 開發。其他模型的鏈接可在索引中找到。
🚀 快速開始
使用指令微調模型
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model_path = "Fugaku-LLM/Fugaku-LLM-13B-instruct"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(model_path, torch_dtype=torch.bfloat16, device_map="auto")
model.eval()
system_example = "以下は、タスクを説明する指示です。要求を適切に満たす応答を書きなさい。"
instruction_example = "スーパーコンピュータ「富嶽」の名前の由來を教えてください。"
prompt = f"{system_example}\n\n### 指示:\n{instruction_example}\n\n### 応答:\n"
input_ids = tokenizer.encode(prompt,
add_special_tokens=False,
return_tensors="pt")
tokens = model.generate(
input_ids.to(device=model.device),
max_new_tokens=128,
do_sample=True,
temperature=0.1,
top_p=1.0,
repetition_penalty=1.0,
top_k=0
)
out = tokenizer.decode(tokens[0], skip_special_tokens=True)
print(out)
使用基礎模型
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model_path = "Fugaku-LLM/Fugaku-LLM-13B"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(model_path, torch_dtype=torch.bfloat16, device_map="auto")
model.eval()
prompt = "スーパーコンピュータ「富嶽」という名稱は"
input_ids = tokenizer.encode(prompt,
add_special_tokens=False,
return_tensors="pt")
tokens = model.generate(
input_ids.to(device=model.device),
max_new_tokens=128,
do_sample=True,
temperature=0.1,
top_p=1.0,
repetition_penalty=1.0,
top_k=0
)
out = tokenizer.decode(tokens[0], skip_special_tokens=True)
print(out)
✨ 主要特性
- 高度透明與安全:使用自主數據從頭開始訓練,具有高度的透明度和安全性。
- 日語處理出色:訓練數據主要由日語數據組成,在日語處理方面表現優異。
📦 安裝指南
文檔未提及安裝步驟,故跳過。
💻 使用示例
基礎用法
# 使用指令微調模型示例
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model_path = "Fugaku-LLM/Fugaku-LLM-13B-instruct"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(model_path, torch_dtype=torch.bfloat16, device_map="auto")
model.eval()
system_example = "以下は、タスクを説明する指示です。要求を適切に満たす応答を書きなさい。"
instruction_example = "スーパーコンピュータ「富嶽」の名前の由來を教えてください。"
prompt = f"{system_example}\n\n### 指示:\n{instruction_example}\n\n### 応答:\n"
input_ids = tokenizer.encode(prompt,
add_special_tokens=False,
return_tensors="pt")
tokens = model.generate(
input_ids.to(device=model.device),
max_new_tokens=128,
do_sample=True,
temperature=0.1,
top_p=1.0,
repetition_penalty=1.0,
top_k=0
)
out = tokenizer.decode(tokens[0], skip_special_tokens=True)
print(out)
# 使用基礎模型示例
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model_path = "Fugaku-LLM/Fugaku-LLM-13B"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(model_path, torch_dtype=torch.bfloat16, device_map="auto")
model.eval()
prompt = "スーパーコンピュータ「富嶽」という名稱は"
input_ids = tokenizer.encode(prompt,
add_special_tokens=False,
return_tensors="pt")
tokens = model.generate(
input_ids.to(device=model.device),
max_new_tokens=128,
do_sample=True,
temperature=0.1,
top_p=1.0,
repetition_penalty=1.0,
top_k=0
)
out = tokenizer.decode(tokens[0], skip_special_tokens=True)
print(out)
高級用法
文檔未提及高級用法代碼示例,故跳過。
📚 詳細文檔
Fugaku-LLM模型索引
模型 | Fugaku-LLM | Fugaku-LLM-instruct |
---|---|---|
13B | 鏈接 | 鏈接 |
模型詳情
屬性 | 詳情 |
---|---|
開發者 | Fugaku-LLM |
模型類型 | GPT - 2 |
語言 | 日語、英語 |
庫 | DeepSpeedFugaku |
分詞器 | [llm - jp - tokenizer](https://github.com/llm - jp/llm - jp - tokenizer),v2.2的code10k_en20k_ja30k |
許可證 | Fugaku-LLM使用條款 |
模型性能
指令微調模型
我們按照 [Nejumi LLM Leaderboard Neo](https://wandb.ai/wandb - japan/llm - leaderboard/reports/Nejumi - LLM - Neo--Vmlldzo2MTkyMTU0) 的方式,通過日語MT基準對模型進行了評估。我們僅對Fastchat代碼的以下部分進行了修改:
- 在為輸入提示調用分詞器時添加 "add_special_tokens=False"
- 將生成的令牌數量限制在2048以內
模型名稱 | 平均分 | 編碼 | 提取 | 人文學科 | 數學 | 推理 | 角色扮演 | 理工科 | 寫作 |
---|---|---|---|---|---|---|---|---|---|
Fugaku-LLM-13B-instruct | 5.47 | 2.10 | 4.10 | 9.18 | 2.30 | 3.40 | 8.20 | 7.25 | 7.25 |
訓練數據集
指令微調
- [oasst1](https://huggingface.co/datasets/llm - jp/oasst1 - 21k - ja)
- [databricks - dolly - 15k](https://huggingface.co/datasets/llm - jp/databricks - dolly - 15k - ja)
- gsm8k
🔧 技術細節
文檔未提及技術實現細節,故跳過。
📄 許可證
Fugaku-LLM使用條款可在 LICENSE 和 LICENSE_ja 文件中查看。
Fugaku-LLM使用條款
本使用條款(以下簡稱“本條款”)規定了由富士通株式會社、國立研究開發法人理化學研究所、國立大學法人東京工業大學、國立大學法人東北大學、株式會社CyberAgent、國立大學法人東海國立大學機構以及株式會社Kotoba Technologies Japan(以下簡稱“開發者”)在超級計算機“富嶽”政策對應框架內開發大規模語言模型分佈式並行學習方法的成果——大規模語言模型(以下簡稱“Fugaku-LLM”)的使用條件。Fugaku-LLM的使用者(以下簡稱“使用者”)應在同意本條款的基礎上使用Fugaku-LLM。
第1條(使用許可)
Fugaku-LLM的使用者可根據本條款,將Fugaku-LLM用於商業或非商業目的。此處的“使用”包括但不限於對Fugaku-LLM的修改、複製和再分發,以及使用Fugaku-LLM或對Fugaku-LLM進行修改後創建的大規模語言模型(以下簡稱“修改物”)實施服務。但是,使用者在再分發Fugaku-LLM或修改物時的許可證,或使用Fugaku-LLM或修改物的服務的使用條款中,必須包含本使用條款。此外,使用者在再分發修改物時,必須明確註明自己進行了修改。違反本條款的Fugaku-LLM使用者不得使用Fugaku-LLM。
第2條(責任)
- 使用者預先同意,Fugaku-LLM按現狀提供,開發者無論明示或暗示,均不對Fugaku-LLM的準確性、完整性、時效性和質量等作出任何保證,且不對因使用者使用或無法使用本Fugaku-LLM而產生的任何損害承擔責任。
- 若開發者因使用者使用Fugaku-LLM或使用者違反本使用條款而遭受損害,使用者應賠償該損害。
- 使用者應自行承擔責任和判斷使用Fugaku-LLM,並自行承擔責任和費用處理因使用Fugaku-LLM而與第三方產生的任何糾紛,不得給開發者帶來任何困擾。使用者應自行承擔因使用Fugaku-LLM而產生的損害。
第3條(禁止行為)
使用者不得使用Fugaku-LLM進行以下行為:
- 侵犯開發者或第三方知識產權的行為,或可能侵犯知識產權的行為;
- 侵犯開發者或第三方財產、隱私或肖像權的行為,或可能侵犯此類權利的行為;
- 歧視、誹謗、侮辱開發者或第三方,助長對他人的歧視,或損害他人名譽或信譽的行為;
- 從事未經授權的法律業務,或由無資格專業人員提供法律建議的行為;
- 由無資格專業人員提供財務建議的行為;
- 包括提供健康建議或治療方法在內的醫療行為;
- 其他法律法規要求許可等的行為。
第4條(限制事項)
- 使用者承認,使用Fugaku-LLM進行處理的結果(以下簡稱“處理結果”)可能包含虛假、偏見、侵犯他人權利的內容,或不符合使用者預期的有效性或有用性的內容,並同意在不準確或不適當的處理結果可能導致使用者或第三方遭受損害、權利侵犯和/或倫理問題的前提下使用Fugaku-LLM。使用者應自行確認處理結果的正確性、合法性和倫理有效性後再使用。若使用者使用Fugaku-LLM(包括處理結果)導致自身或第三方的權利受到侵犯,開發者對此類損害不承擔任何責任,使用者不得給開發者帶來任何困擾。
- 使用者應遵守各國和地區的法律法規等規定使用處理結果。
- 使用者不得將處理結果用於第3條(禁止事項)中所列的行為。
第5條(權利歸屬等)
- 除本使用條款明確規定的情況外,使用者不得獲得與Fugaku-LLM相關的任何權利。
- 使用者將獲得因創建Fugaku-LLM修改物而新產生的權利,但在使用修改物時應遵守本使用條款。
- 開發者不對處理結果主張任何權利。
第6條(出口交易)
使用者在使用Fugaku-LLM和處理結果時,若涉及根據外匯和對外貿易法(包括相關政令和省令)或美國出口管理法令需要許可的出口,應自行獲得規定的許可。
第7條(管轄法院)
因本使用條款產生的糾紛,東京地方法院為一審專屬管轄法院。
第8條(適用法律)
本使用條款適用日本法律。
第9條(其他規定)
本條款規定了Fugaku-LLM使用者與開發者之間使用相關的所有事項,本條款未規定的事項,應遵循相關法律法規。
第10條(語言)
本條款以日語為正本。本條款的英文翻譯僅供參考,不具有任何法律效力。
⚠️ 重要提示
Fugaku-LLM的處理結果可能包含虛假、偏見、侵犯他人權利的內容,或不符合使用者預期的有效性或有用性的內容。
💡 使用建議
使用處理結果前,請自行確認其正確性、合法性和倫理有效性。
👏 致謝
本成果基於超級計算機“富嶽”的政府發起項目“富嶽上大規模語言模型分佈式訓練方法的開發”。
👨💻 作者
- 東京工業大學
- 東北大學
- 富士通株式會社
- 理化學研究所
- 名古屋大學
- 株式會社CyberAgent
- 株式會社Kotoba Technologies



