🚀 llm-jp-3.1-1.8b
LLM-jp-3.1是由國立情報學研究所的大語言模型研發中心開發的一系列大語言模型。
基於LLM-jp-3系列,LLM-jp-3.1模型融入了訓練中期的指令預訓練,與原始的LLM-jp-3模型相比,顯著增強了其指令遵循能力。
本倉庫提供了llm-jp-3.1-1.8b模型。
如需瞭解不同參數規模的LLM-jp-3.1模型概述,請參考:
有關訓練過程和評估結果的更多詳細信息,請參考此博客文章(日文)。
檢查點格式:Hugging Face Transformers
🚀 快速開始
所需庫及其版本
- torch>=2.3.0
- transformers>=4.40.1
- tokenizers>=0.19.1
- accelerate>=0.29.3
- flash-attn>=2.5.8
模型使用
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("llm-jp/llm-jp-3.1-1.8b")
model = AutoModelForCausalLM.from_pretrained("llm-jp/llm-jp-3.1-1.8b", device_map="auto", torch_dtype=torch.bfloat16)
text = "自然言語処理とは何か"
tokenized_input = tokenizer.encode(text, add_special_tokens=False, return_tensors="pt").to(model.device)
with torch.no_grad():
output = model.generate(
tokenized_input,
max_new_tokens=100,
do_sample=True,
top_p=0.95,
temperature=0.7,
repetition_penalty=1.05,
)[0]
print(tokenizer.decode(output))
✨ 主要特性
- 基於LLM-jp-3系列,融入訓練中期的指令預訓練,顯著增強指令遵循能力。
- 支持多語言,包括日語、英語、中文、韓語等。
- 提供不同參數規模的模型,滿足不同需求。
📚 詳細文檔
模型詳情
屬性 |
詳情 |
模型類型 |
基於Transformer的語言模型 |
架構 |
包含密集模型和MoE模型 |
密集模型
參數 |
層數 |
隱藏層大小 |
頭數 |
上下文長度 |
嵌入參數 |
非嵌入參數 |
1.8b |
24 |
2048 |
16 |
4096 |
407,498,752 |
1,459,718,144 |
13b |
40 |
5120 |
40 |
4096 |
1,018,746,880 |
12,688,184,320 |
MoE模型
參數 |
層數 |
隱藏層大小 |
頭數 |
路由專家 |
激活專家 |
上下文長度 |
嵌入參數 |
非嵌入參數 |
激活參數 |
總參數 |
8x13b |
40 |
5120 |
40 |
8 |
2 |
4096 |
1,018,746,880 |
72,144,081,920 |
22,200,806,400 |
73,162,828,800 |
分詞器
該模型的分詞器基於huggingface/tokenizers的Unigram字節回退模型。
詞彙表條目是從llm-jp-tokenizer v3.0
轉換而來的。
有關詞彙表構建過程的詳細信息,請參考llm-jp-tokenizer
的README.md(純SentencePiece訓練無法重現我們的詞彙表)。
數據集
預訓練
模型使用以下數據集的混合進行了預訓練。
訓練中期
在LLM-jp-3.1系列中,我們基於指令預訓練進行了持續預訓練。
指令預訓練通過在大量指令 - 響應對上繼續預訓練,增強了模型遵循指令的能力。
我們準備了約900億詞元的指令 - 響應數據,並將其與預訓練數據集混合,總共在4000億詞元上進行了持續預訓練。
每個模型都從現有的檢查點(llm-jp/llm-jp-3-1.8b、llm-jp/llm-jp-3-13b和llm-jp/llm-jp-3-8x13b)初始化,並進行了持續的指令預訓練。
由於LLM-jp-3系列最初在21萬億詞元上進行了預訓練,因此總的預訓練詞元數達到了25萬億詞元。
此訓練過程的詳細信息將在即將發表的論文中公佈。用於此訓練的指令 - 響應數據集也將公開提供。
訓練後期
我們使用監督微調對預訓練檢查點進行了微調,並進一步使用直接偏好優化進行了對齊。
監督微調
用於監督微調的數據集如下:
直接偏好優化
對於直接偏好優化(DPO),我們採用了拒絕採樣。
從監督微調使用的數據集中採樣提示,併為每個提示生成多個響應。
然後對這些響應進行評分(使用Qwen/Qwen2.5-32B-Instruct),並將高分響應作為正例,低分響應作為反例進行DPO。
我們分兩個階段進行了DPO。
在第二階段,我們額外使用了ac-self-inst,這是一個專注於安全性的日語偏好數據集。
評估
MT Bench(日語和英語)
我們使用gpt-4o-2024-08-06
對模型進行了評估。
分數表示三輪推理和評估的平均值。
更多詳細信息,請參考代碼。
AnswerCarefully-Eval
AnswerCarefully-Eval使用LLM作為評判器的方法,基於llm-jp/AnswerCarefully的測試集評估日語語言模型輸出的安全性。
我們使用gpt-4o-2024-08-06
對模型進行了評估。
分數表示三輪推理和評估的平均值。
更多詳細信息,請參考代碼。
風險與侷限性
此處發佈的模型處於我們研發的早期階段,尚未進行調整以確保輸出符合人類意圖和安全考慮。
諮詢問題
請發送至llm-jp(at)nii.ac.jp
📄 許可證
Apache許可證,版本2.0
模型卡片作者
名字按字母順序列出
Hirokazu Kiyomaru和Takashi Kodama。