許可證:Apache-2.0
語言:
編程語言:
- C
- C++
- C#
- Go
- Java
- JavaScript
- Lua
- PHP
- Python
- Ruby
- Rust
- Scala
- TypeScript
任務標籤:文本生成
庫名稱:transformers
推理支持:否
llm-jp-3-13b
本倉庫提供由國立信息學研究所大型語言模型研發中心開發的大語言模型。
開發工作部分由GENIAC項目支持。
模型格式:Hugging Face Transformers
依賴庫及版本要求
- torch>=2.3.0
- transformers>=4.40.1
- tokenizers>=0.19.1
- accelerate>=0.29.3
- flash-attn>=2.5.8
使用示例
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("llm-jp/llm-jp-3-13b")
model = AutoModelForCausalLM.from_pretrained("llm-jp/llm-jp-3-13b", device_map="auto", torch_dtype=torch.bfloat16)
text = "什麼是自然語言處理"
tokenized_input = tokenizer.encode(text, add_special_tokens=False, return_tensors="pt").to(model.device)
with torch.no_grad():
output = model.generate(
tokenized_input,
max_new_tokens=100,
do_sample=True,
top_p=0.95,
temperature=0.7,
repetition_penalty=1.05,
)[0]
print(tokenizer.decode(output))
模型詳情
- 模型類型: 基於Transformer的語言模型
- 總訓練token數: 2.1萬億
參數量 |
層數 |
隱藏層維度 |
注意力頭數 |
上下文長度 |
嵌入參數量 |
非嵌入參數量 |
18億 |
24 |
2048 |
16 |
4096 |
407,896,064 |
1,459,718,144 |
37億 |
28 |
3072 |
24 |
4096 |
611,844,096 |
3,171,068,928 |
130億 |
40 |
5120 |
40 |
4096 |
1,019,740,160 |
12,688,184,320 |
分詞器
本模型分詞器基於huggingface/tokenizers的Unigram字節回退模型,詞表條目轉換自llm-jp-tokenizer v3.0
。關於詞表構建流程的詳細信息請參閱llm-jp-tokenizer的README(純SentencePiece訓練無法復現我們的詞表)。
數據集
預訓練
模型使用以下混合數據集進行預訓練:
指令調優
模型在以下數據集上進行微調:
評估
llm-jp-eval (v1.3.1)
使用開發集100個樣本進行評估:
模型名稱 |
平均分 |
實體鏈接 |
事實核查 |
人文 |
數學計算 |
機器閱讀 |
機器翻譯 |
自然語言推理 |
問答 |
閱讀理解 |
llm-jp-3-1.8b |
0.3767 |
0.3725 |
0.1948 |
0.2350 |
0.2500 |
0.0900 |
0.7730 |
0.3080 |
0.4629 |
0.7040 |
llm-jp-3-1.8b指令版 |
0.4596 |
0.4280 |
0.1987 |
0.3250 |
0.3300 |
0.4200 |
0.7900 |
0.3520 |
0.4698 |
0.8224 |
llm-jp-3-3.7b |
0.4231 |
0.3812 |
0.2440 |
0.2200 |
0.1900 |
0.3600 |
0.7947 |
0.3800 |
0.4688 |
0.7694 |
llm-jp-3-3.7b指令版 |
0.5188 |
0.4191 |
0.2504 |
0.3400 |
0.5000 |
0.5800 |
0.8166 |
0.4500 |
0.4881 |
0.8247 |
llm-jp-3-13b |
0.5802 |
0.5570 |
0.2593 |
0.4600 |
0.7000 |
0.6300 |
0.8292 |
0.3460 |
0.5937 |
0.8469 |
llm-jp-3-13b指令版 |
0.6168 |
0.5408 |
|
|
|
|
|
|
|
|