🚀 MindLLMのモデルカード
MindLLM 1.3Bは、北京工程研究センター 大容量言語情報処理とクラウドコンピューティングアプリケーション と 北京理工大学東南情報技術学院 によって開発された、13億のパラメータを持つTransformerモデルです。このモデルは、常識、言語理解、論理推論のベンチマークテストで優れた性能を発揮し、130億未満のパラメータを持つモデルを上回ることができます。
🚀 クイックスタート
このモデルは特別なチャット形式の命令データで教師付き学習されているため、テキスト生成パイプラインで直接使用できます。以下の例は、実行するたびに異なるシーケンスを生成します。
from transformers import AutoTokenizer, AutoModelForCausalLM, TextGenerationPipeline
tokenizer = AutoTokenizer.from_pretrained('mindllm_path')
tokenizer.max_length = 1024
model = AutoModelForCausalLM.from_pretrained('mindllm_path').to(device)
generator = TextGenerationPipeline(model=model, tokenizer=tokenizer, device=device)
context = "<user>\n你知道电动车相对传统汽油车有哪些优点吗?\n<assistant>\n"
outputs = generator(context, max_new_tokens=1024, do_sample=True, num_beams=4, repetition_penalty=0.5, no_repeat_ngram_size=5, return_full_text=False)
[{'generated_text': '电动车相对传统汽油车的优点包括:\n1. 更低的排放和更高的能源效率 - 电动车所产生的有害排放物质远少于汽油车,并且它们的能源利用效率更高。\n2. 更低的维护成本 - 电动车需要更少的保养和通常拥有较少的运动部件,从而降低了总体维护成本。\n3. 更低的燃料成本 - 电动车需要比汽油车少得多的燃料,因此随着时间的推移,可以节省成本。\n4. 更长的续航里程 - 电动车单次充电可以行驶比汽油车更远的距离,非常适合长途通勤。\n5. 更为安静的运行 - 电动车比汽油车要安静得多,使驾驶更加愉悦。'}]
✨ 主な機能
- 中英語のバイリンガルモデルで、広範な言語タスクに対応。
- 特別なチャット形式の命令データで微調整され、自然な会話が可能。
- 事前学習と微調整の戦略により、高い性能を発揮。
📦 インストール
このセクションではインストール手順に関する具体的な内容が提供されていないため、スキップします。
💻 使用例
基本的な使用法
from transformers import AutoTokenizer, AutoModelForCausalLM, TextGenerationPipeline
tokenizer = AutoTokenizer.from_pretrained('mindllm_path')
tokenizer.max_length = 1024
model = AutoModelForCausalLM.from_pretrained('mindllm_path').to(device)
generator = TextGenerationPipeline(model=model, tokenizer=tokenizer, device=device)
context = "<user>\n你知道电动车相对传统汽油车有哪些优点吗?\n<assistant>\n"
outputs = generator(context, max_new_tokens=1024, do_sample=True, num_beams=4, repetition_penalty=0.5, no_repeat_ngram_size=5, return_full_text=False)
高度な使用法
context = "<|endoftext|><user>\n你好,请问你叫什么名字?\n<assistant>\n嗨,我是一个AI助手。<|endoftext|>\n<|endoftext|><user>\n请问你如何看待AI助手?\n<assistant>\n"
outputs = generator(context, max_new_tokens=1024, do_sample=True, num_beams=4, repetition_penalty=0.5, no_repeat_ngram_size=5, return_full_text=False)
📚 ドキュメント
モデルの詳細
モデルの説明
MindLLM 1.3Bは、13億のパラメータを持つTransformerモデルで、北京工程研究センター 大容量言語情報処理とクラウドコンピューティングアプリケーション と 北京理工大学東南情報技術学院 によって開発されました。このモデルは、Pile、Wudao、CBookなどのバイリンガルデータソースを使用して学習され、一般常識、言語理解、論理推論のベンチマークテストで優れた性能を発揮します。
属性 |
详情 |
モデルタイプ |
事前学習済みの因果言語モデル |
学習データ |
英語データはPileデータセットから、中国語データはWudao、CBooks、ウェブクローリングで収集したデータから構成されます。 |
言語 |
中国語と英語 |
ライセンス |
apache-2.0 |
モデルの出典
- 論文: https://arxiv.org/abs/2310.15777
このモデルを引用する場合は、以下のBibTeXを使用してください。
@article{mindllm,
title={MindLLM: Pre-training Lightweight Large Language Model from Scratch, Evaluations and Domain Applications},
author={Yang, Yizhe and Sun, Huashan and Li, Jiawei and Liu, Runheng and Li, Yinghao and Liu, Yuhang and Huang, Heyan and Gao, Yang},
journal={arXiv preprint arXiv:2310.15777},
year={2023}
}
モデルの使用方法
直接使用
このモデルは特別なチャット形式の命令データで教師付き学習されているため、テキスト生成パイプラインで直接使用できます。
チャットテンプレート
チャットバージョンの期待される機能と性能を得るには、特定の書式に従う必要があります。これには、<user>
と <assistant>
タグ、BOSとEOSトークン、およびそれらの間の空白と改行が含まれます(入力に対して strip()
を呼び出すことをお勧めします)。
その他の例
- 自己認識: ユーザーとモデルの会話例が含まれ、AI助手に関する様々な質問に対する回答が示されています。
- 日常会話: 日常的な会話の例が提供され、不安緩和方法や瞑想方法などの質問に対する回答があります。
- コーディング: Pythonコードを使用して配列の中央値を見つける例があります。
デプロイメントのリソース消費
精度 |
最小GPUメモリ (推論) |
最小GPUメモリ (全パラメータ微調整) |
float32 |
6.08G |
32.65G |
float16(非量子化) |
3.45G |
-(36.94G*) |
bfloat16(非量子化) |
3.45G |
20.47G(33.93G*) |
学習の詳細
学習データ
学習コーパスは、英語と中国語のデータソースの多様なブレンドです。英語の部分はPileデータセットに由来し、中国語の部分はWudao、CBooks、およびウェブクローリングで収集したデータで構成されています。データの品質を確保するために、特殊タグの削除、データの重複排除、低品質コンテンツのフィルタリングなどの前処理を行っています。
学習手順
このバージョンのモデルは、約2410億の英語トークンと820億の中国語トークンを使用して、二段階の学習戦略で学習されました。自己回帰型の言語モデルとして学習され、交差エントロピー損失を使用しました。また、オープンソースの命令微調整データセットから収集した400万の中国語命令サンプルで微調整され、中国語での質問応答とマルチターン会話が可能になりました。
🔧 技術詳細
このセクションでは技術的な詳細に関する具体的な内容が提供されていないため、スキップします。
📄 ライセンス
このモデルはapache-2.0ライセンスの下で提供されています。