llm-jp-3-1.8b开源大语言模型 - 支持多语言，轻松应对自然语言处理任务

首页

Llm Jp 3 1.8b

由 llm-jp 开发

由日本国立情报学研究所开发的大语言模型，支持日语和英语等多种语言，适用于自然语言处理任务。

大型语言模型

Transformers

支持多种语言开源协议:Apache-2.0 #日语大模型 #多语言支持 #指令微调

下载量 1,378

发布时间 : 9/23/2024

模型简介

基于Transformer架构的大语言模型，专注于日语和英语的自然语言处理任务，提供多种模型变体以满足不同需求。

模型特点

多语言支持

支持日语、英语、中文和韩语等多种语言，适用于跨语言任务。

多种模型变体

提供不同参数规模的模型变体，包括1.8B、3.7B、13B和172B，满足不同场景需求。

高性能分词器

基于Unigram byte-fallback模型的分词器，支持高效的文本处理。

模型能力

文本生成

自然语言理解

多语言处理

指令微调

使用案例

自然语言处理

日语文本生成

生成高质量的日语文本，适用于内容创作和自动化写作。

生成文本流畅且符合语法规则。

多语言翻译

支持日语与其他语言之间的翻译任务。

翻译结果准确且自然。

指令微调

指令响应

根据用户指令生成相应的响应，适用于聊天机器人和虚拟助手。

响应准确且符合用户意图。

🚀 llm-jp-3-1.8b

本仓库提供了由日本国立情报学研究所（National Institute of Informatics）的大语言模型研发中心（Research and Development Center for Large Language Models）开发的大语言模型。

🚀 快速开始

本项目提供了一系列大语言模型，你可以根据需求选择合适的模型进行使用。使用前请确保安装所需的依赖库，并参考使用示例进行操作。

✨ 主要特性

支持多种编程语言，包括 C、C++、C#、Go、Java、JavaScript、Lua、PHP、Python、Ruby、Rust、Scala 和 TypeScript。
提供多种模型变体，以满足不同场景的需求。
基于 Hugging Face Transformers 框架，方便使用和扩展。

📦 安装指南

使用该模型前，需要安装以下必需的库及其对应版本：

torch>=2.3.0
transformers>=4.40.1
tokenizers>=0.19.1
accelerate>=0.29.3
flash-attn>=2.5.8

你可以使用以下命令进行安装（以 pip 为例）：

pip install torch>=2.3.0 transformers>=4.40.1 tokenizers>=0.19.1 accelerate>=0.29.3 flash-attn>=2.5.8

💻 使用示例

基础用法

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("llm-jp/llm-jp-3-1.8b")
model = AutoModelForCausalLM.from_pretrained("llm-jp/llm-jp-3-1.8b", device_map="auto", torch_dtype=torch.bfloat16)
text = "自然言語処理とは何か"
tokenized_input = tokenizer.encode(text, add_special_tokens=False, return_tensors="pt").to(model.device)
with torch.no_grad():
    output = model.generate(
        tokenized_input,
        max_new_tokens=100,
        do_sample=True,
        top_p=0.95,
        temperature=0.7,
        repetition_penalty=1.05,
    )[0]
print(tokenizer.decode(output))

📚 详细文档

模型变体

模型变体
llm-jp-3-1.8b
llm-jp-3-1.8b-instruct
llm-jp-3-3.7b
llm-jp-3-3.7b-instruct
llm-jp-3-13b
llm-jp-3-13b-instruct
llm-jp-3-172b-beta1
llm-jp-3-172b-beta1-instruct

模型详情

属性	详情
模型类型	基于 Transformer 的语言模型
总所见令牌数	2.1T

参数	层数	隐藏层大小	头数	上下文长度	嵌入参数	非嵌入参数
1.8b	24	2048	16	4096	407,896,064	1,459,718,144
3.7b	28	3072	24	4096	611,844,096	3,171,068,928
13b	40	5120	40	4096	1,019,740,160	12,688,184,320

分词器

该模型的分词器基于 huggingface/tokenizers 的 Unigram byte-fallback 模型。词汇表条目从 llm-jp-tokenizer v3.0 转换而来。有关词汇表构建过程的详细信息，请参考 llm-jp-tokenizer 的 README.md（纯 SentencePiece 训练无法重现我们的词汇表）。

数据集

预训练

模型使用以下数据集的混合进行了预训练：

语言	数据集	令牌数
日语	Wikipedia	2.6B
	Common Crawl	762.8B
	WARP/PDF	237.3B
	WARP/HTML	2.7B
	Kaken	1.8B
英语	Wikipedia	4.7B
	Dolma/CC-head	608.5B
	Dolma/C4	181.6B
	Dolma/Reddit	83.1B
	Dolma/PeS2o	62.9B
	Dolma/Gutenberg	5.5B
	Dolma/Wiki	3.9B
代码	The Stack	114.1B
中文	Wikipedia	0.8B
韩语	Wikipedia	0.3B

指令微调

模型在以下数据集上进行了微调：

语言	数据集	描述
日语	ichikara-instruction-004-002	手动构建的指令数据集
	answer-carefully-002	专注于大语言模型安全性的手动构建指令数据集
	ichikara-instruction-format	从 ichikara-instruction 编辑而来的少量指令数据集，对输出格式有一些限制
	AutoMultiTurnByCalm3-22B	合成指令数据集
	ramdom-to-fixed-multiturn-Calm3	合成指令数据集
	wizardlm8x22b-logical-math-coding-sft_additional-ja	合成指令数据集
	Synthetic-JP-EN-Coding-Dataset-567k	合成指令数据集，使用了采样的一部分
英语	FLAN	使用了采样的一部分

评估

llm-jp-eval (v1.3.1)

使用开发集的 100 个示例对模型进行评估：

模型名称	平均值	EL	FA	HE	MC	MR	MT	NLI	QA	RC
llm-jp-3-1.8b	0.3767	0.3725	0.1948	0.2350	0.2500	0.0900	0.7730	0.3080	0.4629	0.7040
llm-jp-3-1.8b-instruct	0.4596	0.4280	0.1987	0.3250	0.3300	0.4200	0.7900	0.3520	0.4698	0.8224
llm-jp-3-3.7b	0.4231	0.3812	0.2440	0.2200	0.1900	0.3600	0.7947	0.3800	0.4688	0.7694
llm-jp-3-3.7b-instruct	0.5188	0.4191	0.2504	0.3400	0.5000	0.5800	0.8166	0.4500	0.4881	0.8247
llm-jp-3-13b	0.5802	0.5570	0.2593	0.4600	0.7000	0.6300	0.8292	0.3460	0.5937	0.8469
llm-jp-3-13b-instruct	0.6168	0.5408	0.2757	0.4950	0.9200	0.7100	0.8317	0.4640	0.4642	0.8500

日语 MT Bench

使用 gpt-4-0613 对模型进行评估，详情请见代码：

模型名称	平均值	编码	提取	人文	数学	推理	角色扮演	STEM	写作
llm-jp-3-1.8b-instruct	4.93	1.50	4.70	7.80	1.55	2.60	7.80	6.10	7.40
llm-jp-3-3.7b-instruct	5.50	1.95	4.05	8.25	2.25	4.00	8.80	7.25	7.45
llm-jp-3-13b-instruct	6.47	3.15	7.05	9.15	3.75	5.40	8.30	7.50	7.45