首頁

Llm Jp 3 13b

由llm-jp開發

由日本國立信息學研究所開發的大語言模型，支持日語和英語，基於Transformer架構，參數量130億

大型語言模型

Transformers

支持多種語言開源協議:Apache-2.0 #日語大語言模型 #多任務文本生成 #科研數據集訓練

下載量 1,190

發布時間 : 9/23/2024

模型概述

這是一個基於Transformer架構的大語言模型，專門針對日語和英語優化，可用於文本生成等自然語言處理任務

模型特點

多語言支持

專門針對日語和英語優化，在兩種語言上都有良好表現

大規模預訓練

使用超過2.1萬億token的混合數據集進行預訓練

多種規模可選

提供從18億到172億參數的不同規模模型變體

指令調優版本

提供經過指令微調的版本，更適合對話和指令跟隨任務

模型能力

日語文本生成

英語文本生成

代碼生成

問答系統

閱讀理解

使用案例

自然語言處理

日語問答系統

構建針對日語用戶的智能問答系統

在llm-jp-eval評估中問答任務得分0.5937

機器翻譯

用於日語和英語之間的機器翻譯

在llm-jp-eval評估中機器翻譯任務得分0.8292

教育

語言學習助手

幫助學習者練習日語和英語

許可證：Apache-2.0
語言：

英文
日文

編程語言：

C
C++
C#
Go
Java
JavaScript
Lua
PHP
Python
Ruby
Rust
Scala
TypeScript

任務標籤：文本生成
庫名稱：transformers
推理支持：否

llm-jp-3-13b

本倉庫提供由國立信息學研究所大型語言模型研發中心開發的大語言模型。

開發工作部分由GENIAC項目支持。

模型變體
llm-jp-3-1.8b
llm-jp-3-1.8b指令調優版
llm-jp-3-3.7b
llm-jp-3-3.7b指令調優版
llm-jp-3-13b
llm-jp-3-13b指令調優版
llm-jp-3-172b-beta1
llm-jp-3-172b-beta1指令調優版

模型格式：Hugging Face Transformers

依賴庫及版本要求

torch>=2.3.0
transformers>=4.40.1
tokenizers>=0.19.1
accelerate>=0.29.3
flash-attn>=2.5.8

使用示例

import torch  
from transformers import AutoTokenizer, AutoModelForCausalLM  
tokenizer = AutoTokenizer.from_pretrained("llm-jp/llm-jp-3-13b")  
model = AutoModelForCausalLM.from_pretrained("llm-jp/llm-jp-3-13b", device_map="auto", torch_dtype=torch.bfloat16)  
text = "什麼是自然語言處理"  
tokenized_input = tokenizer.encode(text, add_special_tokens=False, return_tensors="pt").to(model.device)  
with torch.no_grad():  
    output = model.generate(  
        tokenized_input,  
        max_new_tokens=100,  
        do_sample=True,  
        top_p=0.95,  
        temperature=0.7,  
        repetition_penalty=1.05,  
    )[0]  
print(tokenizer.decode(output))

模型詳情

模型類型： 基於Transformer的語言模型
總訓練token數： 2.1萬億

參數量	層數	隱藏層維度	注意力頭數	上下文長度	嵌入參數量	非嵌入參數量
18億	24	2048	16	4096	407,896,064	1,459,718,144
37億	28	3072	24	4096	611,844,096	3,171,068,928
130億	40	5120	40	4096	1,019,740,160	12,688,184,320

分詞器

本模型分詞器基於huggingface/tokenizers的Unigram字節回退模型，詞表條目轉換自llm-jp-tokenizer v3.0。關於詞表構建流程的詳細信息請參閱llm-jp-tokenizer的README（純SentencePiece訓練無法復現我們的詞表）。

數據集

預訓練

模型使用以下混合數據集進行預訓練：

語言	數據集	Token數量
日語	維基百科	26億
	Common Crawl	7628億
	WARP/PDF	2373億
	WARP/HTML	27億
	科研項目數據庫	18億
英語	維基百科	47億
	Dolma/CC-head	6085億
	Dolma/C4	1816億
	Dolma/Reddit	831億
	Dolma/PeS2o	629億
	Dolma/古騰堡計劃	55億
	Dolma/維基	39億
代碼	The Stack	1141億
中文	維基百科	8億
韓文	維基百科	3億

指令調優

模型在以下數據集上進行微調：

語言	數據集	說明
日語	ichikara-instruction-004-002	人工構建的指令數據集
	answer-carefully-002	聚焦LLM安全性的人工構建指令集
	ichikara-instruction-format	從ichikara-instruction編輯的小規模指令集，對輸出格式有特定約束
	AutoMultiTurnByCalm3-22B	合成指令數據集
	ramdom-to-fixed-multiturn-Calm3	合成指令數據集
	wizardlm8x22b-logical-math-coding-sft_additional-ja	合成指令數據集
	Synthetic-JP-EN-Coding-Dataset-567k	合成指令數據集（使用抽樣數據）
英語	FLAN	使用抽樣數據

評估

llm-jp-eval (v1.3.1)

使用開發集100個樣本進行評估：

模型名稱	平均分	實體鏈接	事實核查	人文	數學計算	機器閱讀	機器翻譯	自然語言推理	問答	閱讀理解
llm-jp-3-1.8b	0.3767	0.3725	0.1948	0.2350	0.2500	0.0900	0.7730	0.3080	0.4629	0.7040
llm-jp-3-1.8b指令版	0.4596	0.4280	0.1987	0.3250	0.3300	0.4200	0.7900	0.3520	0.4698	0.8224
llm-jp-3-3.7b	0.4231	0.3812	0.2440	0.2200	0.1900	0.3600	0.7947	0.3800	0.4688	0.7694
llm-jp-3-3.7b指令版	0.5188	0.4191	0.2504	0.3400	0.5000	0.5800	0.8166	0.4500	0.4881	0.8247
llm-jp-3-13b	0.5802	0.5570	0.2593	0.4600	0.7000	0.6300	0.8292	0.3460	0.5937	0.8469
llm-jp-3-13b指令版	0.6168	0.5408