MindLLM-1b3-chat-zh-v2.0オープンソース対話モデル - 無料で中英語の対話生成をサポート

ホーム

Mindllm 1b3 Chat Zh V2.0

bit-dnyによって開発

MindLLM 1.3Bは北京市大規模言語情報処理・クラウドコンピューティング応用技術研究センターと北京理工大学東南情報技術研究院が共同開発した13億パラメータのTransformerモデルで、中英対話生成をサポートしています。

大規模言語モデル

Transformers

複数言語対応オープンソースライセンス:Apache-2.0 #軽量化大規模モデル #バイリンガル対話生成 #安全教育分野

ダウンロード数 122

リリース時間 : 12/17/2023

モデル概要

Pile、悟道、CBookなどのバイリンガルデータセット及び安全教育関連ウェブデータに基づいて訓練された軽量化大規模言語モデルで、常識推論と言語理解において優れた性能を発揮します。

モデル特徴

軽量化設計

13億パラメータ規模でありながら、一部130億パラメータモデルを超える性能を実現

バイリンガルサポート

中国語と英語の対話生成タスクを同時にサポート

分野適応性

安全教育などの垂直分野データを含む訓練により、専門的なシーンでの応用に適しています

モデル能力

テキスト生成

マルチターン対話

常識推論

言語理解

使用事例

インテリジェントアシスタント

Q&Aシステム

ユーザーからの電気自動車の利点など常識的な質問に回答

構造化された利点リストを生成（ゼロエミッション、低メンテナンスコストなど）

教育応用

安全教育

訓練データ中の安全教育コンテンツに基づく知識Q&A

🚀 MindLLMのモデルカード

MindLLM 1.3Bは、北京工程研究センター大容量言語情報処理とクラウドコンピューティングアプリケーション と 北京理工大学東南情報技術学院 によって開発された、13億のパラメータを持つTransformerモデルです。このモデルは、常識、言語理解、論理推論のベンチマークテストで優れた性能を発揮し、130億未満のパラメータを持つモデルを上回ることができます。

🚀 クイックスタート

このモデルは特別なチャット形式の命令データで教師付き学習されているため、テキスト生成パイプラインで直接使用できます。以下の例は、実行するたびに異なるシーケンスを生成します。

from transformers import AutoTokenizer, AutoModelForCausalLM, TextGenerationPipeline
tokenizer = AutoTokenizer.from_pretrained('mindllm_path')
tokenizer.max_length = 1024
model = AutoModelForCausalLM.from_pretrained('mindllm_path').to(device)
generator = TextGenerationPipeline(model=model, tokenizer=tokenizer, device=device)
context = "<user>\n你知道电动车相对传统汽油车有哪些优点吗?\n<assistant>\n"
outputs = generator(context, max_new_tokens=1024, do_sample=True, num_beams=4, repetition_penalty=0.5, no_repeat_ngram_size=5, return_full_text=False)
[{'generated_text': '电动车相对传统汽油车的优点包括：\n1. 更低的排放和更高的能源效率 - 电动车所产生的有害排放物质远少于汽油车，并且它们的能源利用效率更高。\n2. 更低的维护成本 - 电动车需要更少的保养和通常拥有较少的运动部件，从而降低了总体维护成本。\n3. 更低的燃料成本 - 电动车需要比汽油车少得多的燃料，因此随着时间的推移，可以节省成本。\n4. 更长的续航里程 - 电动车单次充电可以行驶比汽油车更远的距离，非常适合长途通勤。\n5. 更为安静的运行 - 电动车比汽油车要安静得多，使驾驶更加愉悦。'}]

✨ 主な機能

中英語のバイリンガルモデルで、広範な言語タスクに対応。
特別なチャット形式の命令データで微調整され、自然な会話が可能。
事前学習と微調整の戦略により、高い性能を発揮。

📦 インストール

このセクションではインストール手順に関する具体的な内容が提供されていないため、スキップします。

💻 使用例

基本的な使用法

# モデルの読み込みとテキスト生成
from transformers import AutoTokenizer, AutoModelForCausalLM, TextGenerationPipeline
tokenizer = AutoTokenizer.from_pretrained('mindllm_path')
tokenizer.max_length = 1024
model = AutoModelForCausalLM.from_pretrained('mindllm_path').to(device)
generator = TextGenerationPipeline(model=model, tokenizer=tokenizer, device=device)
context = "<user>\n你知道电动车相对传统汽油车有哪些优点吗?\n<assistant>\n"
outputs = generator(context, max_new_tokens=1024, do_sample=True, num_beams=4, repetition_penalty=0.5, no_repeat_ngram_size=5, return_full_text=False)

高度な使用法

# マルチターン会話の例
context = "<|endoftext|><user>\n你好，请问你叫什么名字？\n<assistant>\n嗨，我是一个AI助手。<|endoftext|>\n<|endoftext|><user>\n请问你如何看待AI助手？\n<assistant>\n"
outputs = generator(context, max_new_tokens=1024, do_sample=True, num_beams=4, repetition_penalty=0.5, no_repeat_ngram_size=5, return_full_text=False)

📚 ドキュメント

モデルの詳細

モデルの説明

MindLLM 1.3Bは、13億のパラメータを持つTransformerモデルで、北京工程研究センター大容量言語情報処理とクラウドコンピューティングアプリケーション と 北京理工大学東南情報技術学院 によって開発されました。このモデルは、Pile、Wudao、CBookなどのバイリンガルデータソースを使用して学習され、一般常識、言語理解、論理推論のベンチマークテストで優れた性能を発揮します。

属性	详情
モデルタイプ	事前学習済みの因果言語モデル
学習データ	英語データはPileデータセットから、中国語データはWudao、CBooks、ウェブクローリングで収集したデータから構成されます。
言語	中国語と英語
ライセンス	apache-2.0

モデルの出典

論文: https://arxiv.org/abs/2310.15777

このモデルを引用する場合は、以下のBibTeXを使用してください。

@article{mindllm,
  title={MindLLM: Pre-training Lightweight Large Language Model from Scratch, Evaluations and Domain Applications},
  author={Yang, Yizhe and Sun, Huashan and Li, Jiawei and Liu, Runheng and Li, Yinghao and Liu, Yuhang and Huang, Heyan and Gao, Yang},
  journal={arXiv preprint arXiv:2310.15777},
  year={2023}
}

モデルの使用方法

直接使用

このモデルは特別なチャット形式の命令データで教師付き学習されているため、テキスト生成パイプラインで直接使用できます。

チャットテンプレート

チャットバージョンの期待される機能と性能を得るには、特定の書式に従う必要があります。これには、<user> と <assistant> タグ、BOSとEOSトークン、およびそれらの間の空白と改行が含まれます（入力に対して strip() を呼び出すことをお勧めします）。

その他の例

自己認識: ユーザーとモデルの会話例が含まれ、AI助手に関する様々な質問に対する回答が示されています。
日常会話: 日常的な会話の例が提供され、不安緩和方法や瞑想方法などの質問に対する回答があります。
コーディング: Pythonコードを使用して配列の中央値を見つける例があります。

デプロイメントのリソース消費

精度	最小GPUメモリ (推論)	最小GPUメモリ (全パラメータ微調整)
float32	6.08G	32.65G
float16(非量子化)	3.45G	-(36.94G*)
bfloat16(非量子化)	3.45G	20.47G（33.93G*）

* 混合精度の使用を示します。

学習の詳細

学習データ

学習コーパスは、英語と中国語のデータソースの多様なブレンドです。英語の部分はPileデータセットに由来し、中国語の部分はWudao、CBooks、およびウェブクローリングで収集したデータで構成されています。データの品質を確保するために、特殊タグの削除、データの重複排除、低品質コンテンツのフィルタリングなどの前処理を行っています。

学習手順

このバージョンのモデルは、約2410億の英語トークンと820億の中国語トークンを使用して、二段階の学習戦略で学習されました。自己回帰型の言語モデルとして学習され、交差エントロピー損失を使用しました。また、オープンソースの命令微調整データセットから収集した400万の中国語命令サンプルで微調整され、中国語での質問応答とマルチターン会話が可能になりました。