llm-jp-13b-v1.0開源大語言模型 - 免費支持日語和英語文本生成

首頁

Llm Jp 13b V1.0

由llm-jp開發

由日本合作項目LLM-jp開發的大語言模型，支持日語和英語文本生成

大型語言模型

Transformers

支持多種語言開源協議:Apache-2.0 #日語大語言模型 #多指令微調變體 #3000億token預訓練

下載量 784

發布時間 : 10/18/2023

模型概述

這是一個基於Transformer架構的大語言模型，專門針對日語和英語進行了優化，可用於文本生成任務。

模型特點

日語優化

專門針對日語進行了優化訓練，包含大量日語訓練數據

多語言支持

同時支持日語和英語的文本生成

大規模預訓練

在3000億token的多語言數據集上進行預訓練

多樣化微調

提供多個經過不同數據集微調的模型變體

模型能力

日語文本生成

英語文本生成

代碼理解與生成

使用案例

自然語言處理

日語問答系統

構建針對日語用戶的智能問答系統

多語言內容生成

生成日語和英語的文本內容

教育

語言學習助手

輔助日語和英語學習者進行語言練習

🚀 llm-jp-13b-v1.0

本倉庫提供由日本發起的合作項目 LLM-jp 開發的大語言模型。這些模型在自然語言處理領域具有廣泛的應用前景，能夠為用戶提供高效、準確的文本生成服務。

🚀 快速開始

本項目提供了一系列基於Transformer架構的大語言模型，涵蓋預訓練模型和指令微調模型。以下是使用這些模型的快速入門指南。

✨ 主要特性

多種模型變體：提供預訓練模型和指令微調模型，滿足不同應用場景需求。
多語言支持：支持日語、英語等多種語言，適用於跨語言任務。
高效訓練：採用先進的訓練技術和硬件資源，確保模型性能。

📦 安裝指南

使用本項目的模型前，請確保安裝以下必需的庫及其對應版本：

torch>=2.0.0
transformers>=4.34.0
tokenizers>=0.14.0
accelerate==0.23.0

你可以使用以下命令進行安裝：

pip install torch transformers tokenizers accelerate

💻 使用示例

基礎用法

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("llm-jp/llm-jp-13b-v1.0")
model = AutoModelForCausalLM.from_pretrained("llm-jp/llm-jp-13b-v1.0", device_map="auto", torch_dtype=torch.float16)
text = "自然言語処理とは何か"
tokenized_input = tokenizer.encode(text, add_special_tokens=False, return_tensors="pt").to(model.device)
with torch.no_grad():
    output = model.generate(
        tokenized_input,
        max_new_tokens=100,
        do_sample=True,
        top_p=0.95,
        temperature=0.7,
    )[0]
print(tokenizer.decode(output))

📚 詳細文檔

模型詳情

屬性	詳情
模型類型	基於Transformer的語言模型
總可見令牌數	300B

模型	參數	層數	隱藏層大小	頭數	上下文長度
13b模型	13b	40	5120	40	2048
1.3b模型	1.3b	24	2048	16	2048

訓練詳情

預訓練：
- 硬件：96塊A100 40GB GPU (mdx集群)
- 軟件：Megatron-DeepSpeed
指令微調：
- 硬件：8塊A100 40GB GPU (mdx集群)
- 軟件：TRL、PEFT 和 DeepSpeed

分詞器詳情

本模型的分詞器基於 huggingface/tokenizers 的Unigram字節回退模型。詞彙表條目從 llm-jp-tokenizer v2.1 (50k) 轉換而來。有關詞彙表構建過程的詳細信息，請參考 llm-ja-tokenizer 的 README.md。

模型：使用Unigram字節回退模型的Hugging Face快速分詞器，需要 tokenizers>=0.14.0
訓練算法：SentencePiece Unigram字節回退
訓練數據：模型預訓練數據集的一個子集
詞彙表大小：50,570（日語、英語和源代碼的混合詞彙表）

數據集詳情

預訓練

模型使用以下數據集的混合進行預訓練：

語言	數據集	令牌數
日語	Wikipedia	1.5B
	mC4	136B
英語	Wikipedia	5B
	The Pile	135B
代碼	The Stack	10B

預訓練使用總共10折不重疊的數據連續進行，每一折約包含27 - 28B個令牌。我們使用從上述相同源數據集獲得的額外（可能）高質量的27B令牌數據完成了預訓練。

指令微調

模型在以下數據集上進行微調：

語言	數據集	描述
日語	jaster	從現有日語NLP數據集自動轉換而來的數據
	databricks-dolly-15k	LLM-jp使用DeepL翻譯的數據
	OpenAssistant Conversations Dataset	LLM-jp使用DeepL翻譯的數據