japanese - gpt - 1b開源日語GPT模型 - 免費部署助力日語文本生成

首頁

Japanese Gpt 1b

由rinna開發

由凜那株式會社訓練的13億參數日語GPT模型，專注於日語文本生成任務

大型語言模型

Transformers

支持多種語言開源協議:MIT #日語文本生成 #大語言模型 #哲學內容生成

下載量 2,763

發布時間 : 3/2/2022

模型概述

這是一個基於Transformer架構的大規模日語語言模型，主要用於日語文本生成和相關自然語言處理任務

模型特點

大規模日語預訓練

在Japanese C4、Japanese CC-100和Japanese Wikipedia等大規模日語數據集上訓練

優化的分詞處理

使用基於sentencepiece的分詞器，並補充了表情符號和特殊符號

高質量文本生成

在驗證集上達到約14的困惑度，能夠生成流暢的日語文本

模型能力

日語文本生成

語言建模

文本續寫

使用案例

學術研究

哲學文本生成

生成關於西田幾多郎哲學思想的連貫文本

示例中展示了模型能夠生成關於西田哲學與康德哲學對比的連貫文本

內容創作

日語文章續寫

根據給定開頭續寫完整的日語文章

🚀 日語GPT-1B模型

本項目提供了一個參數規模達13億的日語GPT模型。該模型由rinna株式會社訓練。

🚀 快速開始

模型使用方法

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("rinna/japanese-gpt-1b", use_fast=False)
model = AutoModelForCausalLM.from_pretrained("rinna/japanese-gpt-1b")

if torch.cuda.is_available():
    model = model.to("cuda")

text = "西田幾多郎は、"
token_ids = tokenizer.encode(text, add_special_tokens=False, return_tensors="pt")

with torch.no_grad():
    output_ids = model.generate(
        token_ids.to(model.device),
        max_length=100,
        min_length=100,
        do_sample=True,
        top_k=500,
        top_p=0.95,
        pad_token_id=tokenizer.pad_token_id,
        bos_token_id=tokenizer.bos_token_id,
        eos_token_id=tokenizer.eos_token_id,
        bad_words_ids=[[tokenizer.unk_token_id]]
    )

output = tokenizer.decode(output_ids.tolist()[0])
print(output)  
# 示例輸出: 西田幾多郎は、その主著の「善の研究」などで、人間の內面に自然とその根源があると指摘し、その根源的な性格は、この西田哲學を象徴しているとして、カントの「純粋理性批判」と「判斷力批判」を対比して捉えます。それは、「人が理性的存在であるかぎりにおいて、人はその當人に固有な道徳的に自覚された善悪の基準を持っている」とするもので、この理性的な善悪の観念を否定するのがカントの

✨ 主要特性

模型架構：這是一個基於Transformer的語言模型，具有24層，隱藏層大小為2048。
訓練數據：該模型在日語C4、日語CC - 100和日語維基百科上進行訓練，以優化傳統的語言建模目標。在從相同數據中選取的驗證集上，其困惑度約為14。
分詞方式：模型使用基於SentencePiece的分詞器。詞彙表首先使用官方SentencePiece訓練腳本在訓練數據的選定子集上進行訓練，然後用表情符號和符號進行擴充。

📚 詳細文檔

發佈日期

2022年1月26日

引用方式

@misc{rinna-japanese-gpt-1b,
    title = {rinna/japanese-gpt-1b},
    author = {Zhao, Tianyu and Sawada, Kei},
    url = {https://huggingface.co/rinna/japanese-gpt-1b}
}

@inproceedings{sawada2024release,
    title = {Release of Pre-Trained Models for the {J}apanese Language},
    author = {Sawada, Kei and Zhao, Tianyu and Shing, Makoto and Mitsui, Kentaro and Kaga, Akio and Hono, Yukiya and Wakatsuki, Toshiaki and Mitsuda, Koh},
    booktitle = {Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)},
    month = {5},
    year = {2024},
    pages = {13898--13905},
    url = {https://aclanthology.org/2024.lrec-main.1213},
    note = {\url{https://arxiv.org/abs/2404.01657}}
}