llm-jp-3-1.8b開源大語言模型 - 支持多語言，輕鬆應對自然語言處理任務

首頁

Llm Jp 3 1.8b

由llm-jp開發

由日本國立情報學研究所開發的大語言模型，支持日語和英語等多種語言，適用於自然語言處理任務。

大型語言模型

Transformers

支持多種語言開源協議:Apache-2.0 #日語大模型 #多語言支持 #指令微調

下載量 1,378

發布時間 : 9/23/2024

模型概述

基於Transformer架構的大語言模型，專注於日語和英語的自然語言處理任務，提供多種模型變體以滿足不同需求。

模型特點

多語言支持

支持日語、英語、中文和韓語等多種語言，適用於跨語言任務。

多種模型變體

提供不同參數規模的模型變體，包括1.8B、3.7B、13B和172B，滿足不同場景需求。

高性能分詞器

基於Unigram byte-fallback模型的分詞器，支持高效的文本處理。

模型能力

文本生成

自然語言理解

多語言處理

指令微調

使用案例

自然語言處理

日語文本生成

生成高質量的日語文本，適用於內容創作和自動化寫作。

生成文本流暢且符合語法規則。

多語言翻譯

支持日語與其他語言之間的翻譯任務。

翻譯結果準確且自然。

指令微調

指令響應

根據用戶指令生成相應的響應，適用於聊天機器人和虛擬助手。

響應準確且符合用戶意圖。

🚀 llm-jp-3-1.8b

本倉庫提供了由日本國立情報學研究所（National Institute of Informatics）的大語言模型研發中心（Research and Development Center for Large Language Models）開發的大語言模型。

🚀 快速開始

本項目提供了一系列大語言模型，你可以根據需求選擇合適的模型進行使用。使用前請確保安裝所需的依賴庫，並參考使用示例進行操作。

✨ 主要特性

支持多種編程語言，包括 C、C++、C#、Go、Java、JavaScript、Lua、PHP、Python、Ruby、Rust、Scala 和 TypeScript。
提供多種模型變體，以滿足不同場景的需求。
基於 Hugging Face Transformers 框架，方便使用和擴展。

📦 安裝指南

使用該模型前，需要安裝以下必需的庫及其對應版本：

torch>=2.3.0
transformers>=4.40.1
tokenizers>=0.19.1
accelerate>=0.29.3
flash-attn>=2.5.8

你可以使用以下命令進行安裝（以 pip 為例）：

pip install torch>=2.3.0 transformers>=4.40.1 tokenizers>=0.19.1 accelerate>=0.29.3 flash-attn>=2.5.8

💻 使用示例

基礎用法

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("llm-jp/llm-jp-3-1.8b")
model = AutoModelForCausalLM.from_pretrained("llm-jp/llm-jp-3-1.8b", device_map="auto", torch_dtype=torch.bfloat16)
text = "自然言語処理とは何か"
tokenized_input = tokenizer.encode(text, add_special_tokens=False, return_tensors="pt").to(model.device)
with torch.no_grad():
    output = model.generate(
        tokenized_input,
        max_new_tokens=100,
        do_sample=True,
        top_p=0.95,
        temperature=0.7,
        repetition_penalty=1.05,
    )[0]
print(tokenizer.decode(output))

📚 詳細文檔

模型變體

模型變體
llm-jp-3-1.8b
llm-jp-3-1.8b-instruct
llm-jp-3-3.7b
llm-jp-3-3.7b-instruct
llm-jp-3-13b
llm-jp-3-13b-instruct
llm-jp-3-172b-beta1
llm-jp-3-172b-beta1-instruct

模型詳情

屬性	詳情
模型類型	基於 Transformer 的語言模型
總所見令牌數	2.1T

參數	層數	隱藏層大小	頭數	上下文長度	嵌入參數	非嵌入參數
1.8b	24	2048	16	4096	407,896,064	1,459,718,144
3.7b	28	3072	24	4096	611,844,096	3,171,068,928
13b	40	5120	40	4096	1,019,740,160	12,688,184,320

分詞器

該模型的分詞器基於 huggingface/tokenizers 的 Unigram byte-fallback 模型。詞彙表條目從 llm-jp-tokenizer v3.0 轉換而來。有關詞彙表構建過程的詳細信息，請參考 llm-jp-tokenizer 的 README.md（純 SentencePiece 訓練無法重現我們的詞彙表）。

數據集

預訓練

模型使用以下數據集的混合進行了預訓練：

語言	數據集	令牌數
日語	Wikipedia	2.6B
	Common Crawl	762.8B
	WARP/PDF	237.3B
	WARP/HTML	2.7B
	Kaken	1.8B
英語	Wikipedia	4.7B
	Dolma/CC-head	608.5B
	Dolma/C4	181.6B
	Dolma/Reddit	83.1B
	Dolma/PeS2o	62.9B
	Dolma/Gutenberg	5.5B
	Dolma/Wiki	3.9B
代碼	The Stack	114.1B
中文	Wikipedia	0.8B
韓語	Wikipedia	0.3B

指令微調

模型在以下數據集上進行了微調：

語言	數據集	描述
日語	ichikara-instruction-004-002	手動構建的指令數據集
	answer-carefully-002	專注於大語言模型安全性的手動構建指令數據集
	ichikara-instruction-format	從 ichikara-instruction 編輯而來的少量指令數據集，對輸出格式有一些限制
	AutoMultiTurnByCalm3-22B	合成指令數據集
	ramdom-to-fixed-multiturn-Calm3	合成指令數據集
	wizardlm8x22b-logical-math-coding-sft_additional-ja	合成指令數據集
	Synthetic-JP-EN-Coding-Dataset-567k	合成指令數據集，使用了採樣的一部分
英語	FLAN	使用了採樣的一部分

評估

llm-jp-eval (v1.3.1)

使用開發集的 100 個示例對模型進行評估：

模型名稱	平均值	EL	FA	HE	MC	MR	MT	NLI	QA	RC
llm-jp-3-1.8b	0.3767	0.3725	0.1948	0.2350	0.2500	0.0900	0.7730	0.3080	0.4629	0.7040
llm-jp-3-1.8b-instruct	0.4596	0.4280	0.1987	0.3250	0.3300	0.4200	0.7900	0.3520	0.4698	0.8224
llm-jp-3-3.7b	0.4231	0.3812	0.2440	0.2200	0.1900	0.3600	0.7947	0.3800	0.4688	0.7694
llm-jp-3-3.7b-instruct	0.5188	0.4191	0.2504	0.3400	0.5000	0.5800	0.8166	0.4500	0.4881	0.8247
llm-jp-3-13b	0.5802	0.5570	0.2593	0.4600	0.7000	0.6300	0.8292	0.3460	0.5937	0.8469
llm-jp-3-13b-instruct	0.6168	0.5408	0.2757	0.4950	0.9200	0.7100	0.8317	0.4640	0.4642	0.8500

日語 MT Bench

使用 gpt-4-0613 對模型進行評估，詳情請見代碼：

模型名稱	平均值	編碼	提取	人文	數學	推理	角色扮演	STEM	寫作
llm-jp-3-1.8b-instruct	4.93	1.50	4.70	7.80	1.55	2.60	7.80	6.10	7.40
llm-jp-3-3.7b-instruct	5.50	1.95	4.05	8.25	2.25	4.00	8.80	7.25	7.45
llm-jp-3-13b-instruct	6.47	3.15	7.05	9.15	3.75	5.40	8.30	7.50	7.45