llm - jp - 13b - instruct開源語言模型 - 免費支持日語和英語文本生成任務

首頁

Llm Jp 13b Instruct Full Jaster Dolly Oasst V1.0

由llm-jp開發

由日本LLM-jp項目開發的大規模語言模型，支持日語和英語的文本生成任務

大型語言模型

Transformers

支持多種語言開源協議:Apache-2.0 #日語指令微調 #多任務對話 #13B參數量

下載量 750

發布時間 : 10/18/2023

模型概述

這是一個基於Transformer架構的大規模語言模型，經過指令微調，專注於日語和英語的文本生成任務。模型由日本LLM-jp項目開發，基於3000億token的預訓練數據，並在多個指令數據集上進行了微調。

模型特點

多語言支持

專門針對日語和英語優化，在兩種語言上都有良好表現

大規模預訓練

基於3000億token的多樣化數據集進行預訓練

指令微調

在多個高質量指令數據集上進行微調，提高指令遵循能力

高效推理

支持半精度浮點運算(torch.float16)，提高推理效率

模型能力

日語文本生成

英語文本生成

指令遵循

問答系統

使用案例

教育

語言學習輔助

幫助學生理解和生成日語和英語文本

客戶服務

自動問答系統

構建日語和英語的客戶服務聊天機器人

內容創作

多語言內容生成

輔助創作者生成日語和英語的文本內容

🚀 llm-jp-13b-instruct-full-jaster-dolly-oasst-v1.0

本倉庫提供了由日本發起的合作項目 LLM-jp 開發的大語言模型。這些模型在自然語言處理領域具有重要價值，能為相關研究和應用提供強大的支持。

🚀 快速開始

在使用本模型之前，你需要安裝所需的庫及其指定版本。

所需庫及其版本

torch>=2.0.0
transformers>=4.34.0
tokenizers>=0.14.0
accelerate==0.23.0

✨ 主要特性

本項目提供了多種模型變體，涵蓋指令模型和預訓練模型，以滿足不同的應用需求。同時，模型採用了先進的 Transformer 架構，在自然語言處理任務中具有出色的表現。

模型變體

指令模型

模型鏈接
llm-jp-13b-instruct-full-jaster-v1.0
llm-jp-13b-instruct-full-jaster-dolly-oasst-v1.0
llm-jp-13b-instruct-full-dolly-oasst-v1.0
llm-jp-13b-instruct-lora-jaster-v1.0
llm-jp-13b-instruct-lora-jaster-dolly-oasst-v1.0
llm-jp-13b-instruct-lora-dolly-oasst-v1.0

預訓練模型

模型鏈接
llm-jp-13b-v1.0
llm-jp-1.3b-v1.0

檢查點格式：Hugging Face Transformers（Megatron-DeepSpeed 格式的模型可在此處獲取）

💻 使用示例

基礎用法

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("llm-jp/llm-jp-13b-instruct-full-jaster-dolly-oasst-v1.0")
model = AutoModelForCausalLM.from_pretrained("llm-jp/llm-jp-13b-instruct-full-jaster-dolly-oasst-v1.0", device_map="auto", torch_dtype=torch.float16)
text = "自然言語処理とは何か"
text = text + "### 回答："
tokenized_input = tokenizer.encode(text, add_special_tokens=False, return_tensors="pt").to(model.device)
with torch.no_grad():
    output = model.generate(
        tokenized_input,
        max_new_tokens=100,
        do_sample=True,
        top_p=0.95,
        temperature=0.7,
    )[0]
print(tokenizer.decode(output))

📚 詳細文檔

模型詳情

屬性	詳情
模型類型	基於 Transformer 的語言模型
總所見令牌數	300B

模型	參數	層數	隱藏層大小	頭數	上下文長度
13b 模型	13b	40	5120	40	2048
1.3b 模型	1.3b	24	2048	16	2048

訓練信息

預訓練

硬件：96 塊 A100 40GB GPU（mdx 集群）
軟件：Megatron-DeepSpeed

指令微調

硬件：8 塊 A100 40GB GPU（mdx 集群）
軟件：TRL、PEFT 和 DeepSpeed

分詞器

本模型的分詞器基於 huggingface/tokenizers 的 Unigram byte-fallback 模型。詞彙表條目由 llm-jp-tokenizer v2.1 (50k) 轉換而來。有關詞彙表構建過程的詳細信息，請參考 llm-ja-tokenizer 的 README.md。

模型：使用 Unigram byte-fallback 模型的 Hugging Face Fast Tokenizer，需要 tokenizers>=0.14.0
訓練算法：SentencePiece Unigram byte-fallback
訓練數據：模型預訓練數據集的一個子集
詞彙表大小：50,570（日語、英語和源代碼的混合詞彙表）

數據集

預訓練

模型使用以下數據集的混合進行預訓練：

語言	數據集	令牌數
日語	Wikipedia	1.5B
	mC4	136B
英語	Wikipedia	5B
	The Pile	135B
代碼	The Stack	10B

預訓練使用總共 10 折不重疊的數據連續進行，每一折大約包含 27 - 28B 令牌。我們使用從上述相同源數據集獲得的額外（可能）高質量 27B 令牌數據完成了預訓練。

指令微調

模型在以下數據集上進行了微調：

語言	數據集	描述
日語	jaster	從現有日語 NLP 數據集自動轉換而來的數據
	databricks-dolly-15k	LLM-jp 中使用 DeepL 翻譯的數據
	OpenAssistant Conversations Dataset	LLM-jp 中使用 DeepL 翻譯的數據