🚀 日本語GPT-NeoX小規模モデル
このリポジトリは、小規模な日本語GPT - NeoXモデルを提供します。このモデルは、[EleutherAI/gpt - neox](https://github.com/EleutherAI/gpt - neox)に基づくコードを使用して学習されました。
🚀 クイックスタート
このモデルの使い方は以下の通りです。
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("rinna/japanese-gpt-neox-small", use_fast=False)
model = GPTNeoXForCausalLM.from_pretrained("rinna/japanese-gpt-neox-small")
✨ 主な機能
- 小規模な日本語GPT - NeoXモデルを提供します。
- トイのプレフィックスチューニングの重みファイルも公開しています。
📦 インストール
このモデルはHuggingfaceの公式実装を通じてロードできます。コード例は「クイックスタート」を参照してください。
📚 ドキュメント
モデルアーキテクチャ
12層、隠れ層のサイズが768のTransformerベースの言語モデルです。
学習
このモデルは[日本語CC - 100](http://data.statmt.org/cc - 100/ja.txt.xz)、日本語C4、および日本語Wikipediaを使用して、従来の言語モデリングの目的を最適化するように学習されました。
トークン化
このモデルはsentencepieceベースのトークナイザーを使用しています。
トイのプレフィックスチューニングの重みファイル
事前学習モデルとともに、デモ用にsmileface_suffix.task0.weight
という名前のプレフィックスチューニングの重みファイルも公開しています。このトイのプレフィックスチューニングの重みは、生成された各文の末尾に笑顔の絵文字😃を付けるようにモデルを促すために学習されています。プレフィックスチューニングの学習/推論コードは、私たちのGitHubリポジトリ[prefix - tuning - gpt](https://github.com/rinnakk/prefix - tuning - gpt)で見つけることができます。
以下は、トイのプレフィックスの重みを使用した場合と使用しない場合の生成サンプルです。
プレフィックスの重みを使用しない場合の3つのサンプル
- 「きっとそれは絶対間違ってないね。 わたしには5か国語に4つの外国語の意味なんてわからない。 でも、とりあえずこの簡単な英文がどんな意味を持つのか知りたいよね!」
- 25分頃に公園に着いて、ベンチに座って待っていると、またしてもS先生から連絡が入りました。 確か、午後の礼拝の時に自分の持ってきたお弁当を食べた記憶が鮮明に残っています。 後でインターネットで検索したら、S先生のブログに飛びました。 今日の晩ごはんは焼きナスを作ってみました! * 上の写真は昨日の朝焼けです。
- CTで歯形ができて、その後さらにその歯形が再び噛めるようになるのは、何が原因だろう? 虫歯になった原因も、口臭かな? それとも歯周病かな? 歯石がとれるまで、、、もうちょっとかかりそう。 子供の虫歯って、なかなか治らないですよね。親兄弟で何度か。 子供の歯根は、親のものになります。 そして自分のものだったり、知らない間に抜いたりし、生えてきたりもします。 大人になって親からみた場合は、白い歯に変わってきて、金属のようーでも悪くなく、親からのむし歯の心配はないですよね。
プレフィックスの重みを使用した場合の3つのサンプル
- ※海外ブランド品の場合は、返品・返金等はお受け致しかねますので予めご了承願います。 ※ 商品発送後、お客様へ商品返送完了までのスピードを重視する方は海外ブランド品を先に送り付けさせて頂く ケースがございます。 😃
- 私は過去に持っていた不動産を、中古住宅として売却していましたが、その後の私の状況はどうだったのでしょうか? 😃 結果としては、投資物件として売却を考えていますが、今までの相場も読んでいただけばわかると思います。 😃 今まで、物件に対しての投資は非常に控えめにしてきたのですが、今回の提案を読んで、実際に物件を購入する際にはきちんと確認をしようと思います。 😃
- この写真集の表紙をこの台紙にしている作家さんは、まるで誰かの指示を受けて行動している人物のように見える、というのが、この作品をやぶにらんだ「殺し屋集団」の描いている作品であるように思 います。 😃
FasterTransformerによる推論
バージョン5.1以降、NVIDIA FasterTransformerはGPT - NeoXの推論とさまざまなソフトプロンプト(プレフィックスチューニングを含む)をサポートするようになりました。このリポジトリで公開されている事前学習モデルとプレフィックスの重みは、FasterTransformer 5.1で動作することが確認されています。
🔧 技術詳細
このモデルは、Transformerベースの言語モデルであり、sentencepieceベースのトークナイザーを使用しています。学習には日本語CC - 100、日本語C4、および日本語Wikipediaを使用しています。
📄 ライセンス
このモデルはThe MIT licenseの下で公開されています。
📋 更新履歴
- 2023/03/20: モデルの重みと設定ファイルを更新し、Huggingfaceの公式GPT - NeoX実装を通じてロードできるようにしました。
📅 リリース日
2022年9月5日
📖 引用方法
@misc{rinna-japanese-gpt-neox-small,
title = {rinna/japanese-gpt-neox-small},
author = {Zhao, Tianyu and Sawada, Kei},
url = {https://huggingface.co/rinna/japanese-gpt-neox-small}
}
@inproceedings{sawada2024release,
title = {Release of Pre-Trained Models for the {J}apanese Language},
author = {Sawada, Kei and Zhao, Tianyu and Shing, Makoto and Mitsui, Kentaro and Kaga, Akio and Hono, Yukiya and Wakatsuki, Toshiaki and Mitsuda, Koh},
booktitle = {Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)},
month = {5},
year = {2024},
pages = {13898--13905},
url = {https://aclanthology.org/2024.lrec-main.1213},
note = {\url{https://arxiv.org/abs/2404.01657}}
}