llm-jp-13b-v2.0開源大語言模型 - 免費部署支持日英雙語文本生成

首頁

Llm Jp 13b V2.0

由llm-jp開發

由日本合作項目LLM-jp開發的大規模語言模型，支持日語和英語，主要用於文本生成任務。

大型語言模型

Transformers

支持多種語言開源協議:Apache-2.0 #日語大模型 #多語言文本生成 #指令微調優化

下載量 570

發布時間 : 4/23/2024

模型概述

這是一個基於Transformer架構的大規模語言模型，經過預訓練和指令微調，能夠處理日語和英語的文本生成任務。

模型特點

多語言支持

特別優化了對日語和英語的處理能力

大規模預訓練

在2560億token的混合數據集上進行預訓練

多樣化指令微調

使用多種指令數據集進行微調，提高模型響應質量

高效分詞器

採用Unigram字節回退模型的Hugging Face快速分詞器，特別優化日語處理

模型能力

日語文本生成

英語文本生成

代碼生成

指令響應

使用案例

內容創作

日語文章生成

生成符合日語表達習慣的文章

問答系統

日語問答

回答日語用戶的問題

代碼輔助

代碼生成

根據描述生成代碼片段

🚀 llm-jp-13b-v2.0

本倉庫提供了由日本發起的合作項目 LLM-jp 開發的大語言模型。這些模型能夠處理多種語言的文本生成任務，為自然語言處理領域的研究和應用提供了強大的支持。

🚀 快速開始

本項目提供了預訓練模型和指令微調模型，你可以根據需求選擇合適的模型進行使用。以下是使用示例：

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("llm-jp/llm-jp-13b-v2.0")
model = AutoModelForCausalLM.from_pretrained("llm-jp/llm-jp-13b-v2.0", device_map="auto", torch_dtype=torch.bfloat16)
text = "自然言語処理とは何か"
tokenized_input = tokenizer.encode(text, add_special_tokens=False, return_tensors="pt").to(model.device)
with torch.no_grad():
    output = model.generate(
        tokenized_input,
        max_new_tokens=100,
        do_sample=True,
        top_p=0.95,
        temperature=0.7,
        repetition_penalty=1.05,
    )[0]
print(tokenizer.decode(output))

✨ 主要特性

多語言支持：支持多種編程語言，包括 C、C++、C#、Go、Java、JavaScript、Lua、PHP、Python、Ruby、Rust、Scala 和 TypeScript。
多種模型變體：提供指令模型和預訓練模型，滿足不同的應用場景。
豐富的訓練數據：使用多種數據集進行預訓練和指令微調，提高模型的性能和泛化能力。

📦 安裝指南

使用本項目的模型需要安裝以下庫及其指定版本：

torch>=2.3.0
transformers>=4.40.1
tokenizers>=0.19.1
accelerate>=0.29.3
flash-attn>=2.5.8

你可以使用以下命令進行安裝：

pip install torch>=2.3.0 transformers>=4.40.1 tokenizers>=0.19.1 accelerate>=0.29.3 flash-attn>=2.5.8

💻 使用示例

基礎用法

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("llm-jp/llm-jp-13b-v2.0")
model = AutoModelForCausalLM.from_pretrained("llm-jp/llm-jp-13b-v2.0", device_map="auto", torch_dtype=torch.bfloat16)
text = "自然言語処理とは何か"
tokenized_input = tokenizer.encode(text, add_special_tokens=False, return_tensors="pt").to(model.device)
with torch.no_grad():
    output = model.generate(
        tokenized_input,
        max_new_tokens=100,
        do_sample=True,
        top_p=0.95,
        temperature=0.7,
        repetition_penalty=1.05,
    )[0]
print(tokenizer.decode(output))

📚 詳細文檔

模型詳情

屬性	詳情
模型類型	基於Transformer的語言模型
總可見令牌數	256B

模型	參數	層數	隱藏層大小	頭數	上下文長度
13b模型	13b	40	5120	40	4096

訓練信息

預訓練

硬件：128塊 A100 40GB GPU (mdx cluster)
軟件：Megatron-LM

指令微調

硬件：8塊 A100 40GB GPU (mdx cluster)
軟件：TRL 和 DeepSpeed

分詞器

本模型的分詞器基於 huggingface/tokenizers 的 Unigram byte-fallback 模型。詞彙表條目從 llm-jp-tokenizer v2.2 (100k: code20K_en40K_ja60K.ver2.2) 轉換而來。有關詞彙表構建過程的詳細信息，請參考 llm-ja-tokenizer 的 README.md（純 SentencePiece 訓練無法重現我們的詞彙表）。

模型：使用 Unigram byte-fallback 模型的 Hugging Face 快速分詞器
訓練算法：合併使用 SentencePiece Unigram byte-fallback 構建的代碼/英語/日語詞彙表，並使用 EM 算法重新估計分數。
訓練數據：模型預訓練數據集的一個子集
詞彙表大小：96,867（日語、英語和源代碼的混合詞彙表）
- 由於向上取整為 256 的倍數，預訓練模型中詞彙表的實際大小為 97,024。

數據集

預訓練

模型使用以下數據集的混合進行預訓練：

語言	數據集	令牌數
日語	Wikipedia	1.4B
	Common Crawl	130.7B
英語	Wikipedia	4.7B
	The Pile	110.3B
代碼	The Stack	8.7B

指令微調

模型在以下數據集上進行了微調：

語言	數據集	描述
日語	ichikara-instruction-004-001	手動構建的日語指令數據集
	answer-carefully-001	專注於大語言模型安全性的手動構建日語指令數據集
	databricks-dolly-15k-ja	databricks-dolly-15k 使用 DeepL 翻譯成日語的版本
	oasst1-21k-ja	oasst1 使用 DeepL 翻譯成日語的一個子集
	oasst2-33k-ja	oasst2 使用 DeepL 翻譯成日語的一個子集
英語	databricks-dolly-15k	-
	oasst1-21k-en	oasst1 的一個子集
	oasst2-33k-en	oasst2 的一個子集