🚀 llm-jp-3-1.8b
本倉庫提供了由日本國立情報學研究所(National Institute of Informatics)的大語言模型研發中心(Research and Development Center for Large Language Models)開發的大語言模型。
🚀 快速開始
本項目提供了一系列大語言模型,你可以根據需求選擇合適的模型進行使用。使用前請確保安裝所需的依賴庫,並參考使用示例進行操作。
✨ 主要特性
- 支持多種編程語言,包括 C、C++、C#、Go、Java、JavaScript、Lua、PHP、Python、Ruby、Rust、Scala 和 TypeScript。
- 提供多種模型變體,以滿足不同場景的需求。
- 基於 Hugging Face Transformers 框架,方便使用和擴展。
📦 安裝指南
使用該模型前,需要安裝以下必需的庫及其對應版本:
- torch>=2.3.0
- transformers>=4.40.1
- tokenizers>=0.19.1
- accelerate>=0.29.3
- flash-attn>=2.5.8
你可以使用以下命令進行安裝(以 pip 為例):
pip install torch>=2.3.0 transformers>=4.40.1 tokenizers>=0.19.1 accelerate>=0.29.3 flash-attn>=2.5.8
💻 使用示例
基礎用法
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("llm-jp/llm-jp-3-1.8b")
model = AutoModelForCausalLM.from_pretrained("llm-jp/llm-jp-3-1.8b", device_map="auto", torch_dtype=torch.bfloat16)
text = "自然言語処理とは何か"
tokenized_input = tokenizer.encode(text, add_special_tokens=False, return_tensors="pt").to(model.device)
with torch.no_grad():
output = model.generate(
tokenized_input,
max_new_tokens=100,
do_sample=True,
top_p=0.95,
temperature=0.7,
repetition_penalty=1.05,
)[0]
print(tokenizer.decode(output))
📚 詳細文檔
模型變體
模型詳情
屬性 |
詳情 |
模型類型 |
基於 Transformer 的語言模型 |
總所見令牌數 |
2.1T |
參數 |
層數 |
隱藏層大小 |
頭數 |
上下文長度 |
嵌入參數 |
非嵌入參數 |
1.8b |
24 |
2048 |
16 |
4096 |
407,896,064 |
1,459,718,144 |
3.7b |
28 |
3072 |
24 |
4096 |
611,844,096 |
3,171,068,928 |
13b |
40 |
5120 |
40 |
4096 |
1,019,740,160 |
12,688,184,320 |
分詞器
該模型的分詞器基於 huggingface/tokenizers 的 Unigram byte-fallback 模型。詞彙表條目從 llm-jp-tokenizer v3.0
轉換而來。有關詞彙表構建過程的詳細信息,請參考 llm-jp-tokenizer
的 README.md(純 SentencePiece 訓練無法重現我們的詞彙表)。
數據集
預訓練
模型使用以下數據集的混合進行了預訓練:
指令微調
模型在以下數據集上進行了微調:
評估
llm-jp-eval (v1.3.1)
使用開發集的 100 個示例對模型進行評估:
模型名稱 |
平均值 |
EL |
FA |
HE |
MC |
MR |
MT |
NLI |
QA |
RC |
llm-jp-3-1.8b |
0.3767 |
0.3725 |
0.1948 |
0.2350 |
0.2500 |
0.0900 |
0.7730 |
0.3080 |
0.4629 |
0.7040 |
llm-jp-3-1.8b-instruct |
0.4596 |
0.4280 |
0.1987 |
0.3250 |
0.3300 |
0.4200 |
0.7900 |
0.3520 |
0.4698 |
0.8224 |
llm-jp-3-3.7b |
0.4231 |
0.3812 |
0.2440 |
0.2200 |
0.1900 |
0.3600 |
0.7947 |
0.3800 |
0.4688 |
0.7694 |
llm-jp-3-3.7b-instruct |
0.5188 |
0.4191 |
0.2504 |
0.3400 |
0.5000 |
0.5800 |
0.8166 |
0.4500 |
0.4881 |
0.8247 |
llm-jp-3-13b |
0.5802 |
0.5570 |
0.2593 |
0.4600 |
0.7000 |
0.6300 |
0.8292 |
0.3460 |
0.5937 |
0.8469 |
llm-jp-3-13b-instruct |
0.6168 |
0.5408 |
0.2757 |
0.4950 |
0.9200 |
0.7100 |
0.8317 |
0.4640 |
0.4642 |
0.8500 |
日語 MT Bench
使用 gpt-4-0613
對模型進行評估,詳情請見 代碼:
🔧 技術細節
本模型基於 Transformer 架構,使用了多種數據集進行預訓練和微調,以提高模型的性能和泛化能力。在評估過程中,使用了多種指標和基準測試,以確保模型在不同任務上的表現。
📄 許可證
本項目採用 Apache License, Version 2.0 許可證。
風險與限制
此處發佈的模型處於研發的早期階段,尚未進行調整以確保輸出符合人類意圖和安全考慮。
問題反饋
如有問題,請發送郵件至 llm-jp(at)nii.ac.jp。
模型卡片作者
(姓名按字母順序排列)
Hirokazu Kiyomaru 和 Takashi Kodama。