Stockmark-13b開源大語言模型 - 基於日語語料訓練，滿足多樣語言需求

首頁

Stockmark 13b

由stockmark開發

Stockmark-13b 是一個基於約2200億標記日語語料庫從頭預訓練的130億參數大語言模型，由Stockmark Inc.開發。

大型語言模型

Transformers

日語開源協議:MIT #日語大語言模型 #2200億標記預訓練 #專利文獻處理

下載量 604

發布時間 : 10/21/2023

模型概述

這是一個專注於日語處理的大語言模型，適用於文本生成等自然語言處理任務。

模型特點

大規模日語預訓練

基於2200億標記的日語語料庫訓練，專注於日語處理能力

AWS Trainium支持

獲得AWS大語言模型開發支持計劃支持，使用Trainium加速器訓練

量化支持

支持8位量化，可在T4或V100等GPU上運行

模型能力

日語文本生成

自然語言理解

上下文學習

使用案例

自然語言處理

日語文本生成

生成連貫的日語文本

可生成128個新token的連貫文本

技術文檔處理

處理專利文獻等技術文檔

🚀 stockmark/stockmark-13b

Stockmark-13b是一個擁有130億參數的大語言模型（LLM），它基於約2200億日語語料標記從頭開始預訓練。該模型由Stockmark Inc.開發。

如需瞭解更多詳情，請查看我們的博客。

本項目得到了AWS大語言模型開發支持計劃的支持。

我們還提供了stockmark-13b-instruct，它是stockmark-13b的指令微調版本。

🚀 快速開始

以下是使用該模型的基本步驟和代碼示例。

💻 使用示例

基礎用法

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

# For A100 or H100 GPU
model = AutoModelForCausalLM.from_pretrained("stockmark/stockmark-13b", device_map="auto", torch_dtype=torch.bfloat16)

# If you use a T4 or V100 GPU, please load a model in 8 bit with the below code.
# To do so, you need to install `bitsandbytes` via `pip install bitsandbytes`.
# model = AutoModelForCausalLM.from_pretrained("stockmark/stockmark-13b", device_map={"": 0}, load_in_8bit=True)

tokenizer = AutoTokenizer.from_pretrained("stockmark/stockmark-13b")

inputs = tokenizer("自然言語処理とは", return_tensors="pt").to(model.device)
with torch.no_grad():
    tokens = model.generate(
        **inputs,
        max_new_tokens=128,
        do_sample=True,
        temperature=0.7
    )
    
output = tokenizer.decode(tokens[0], skip_special_tokens=True)
print(output)

示例鏈接

LoRA微調示例：https://huggingface.co/stockmark/stockmark-13b/blob/main/notebooks/LoRA.ipynb

📚 詳細文檔

訓練數據集

我們使用了總計約2200億日語語料標記進行訓練。

語料	預處理後的標記數
Stockmark Web語料庫（此數據集不會發布）	91億
專利	348億
維基百科	10億
CC100	109億
mC4	532億
CommonCrawl（快照：2023 - 23、2022 - 49、2022 - 21、2021 - 21）	1129億

加速器和庫

加速器：AWS Trainium
- https://aws.amazon.com/machine-learning/trainium/
分佈式訓練庫：neuronx - nemo - megatron
- https://github.com/aws - neuron/neuronx - nemo - megatron