TinyMistral-248Mオープンソース言語モデル - 無料でのデプロイでテキスト生成と下流タスクの微調整をサポート

Tinymistral 248M

Locutusqueによって開発

Mistral 7Bモデルを基に2.48億パラメータまで縮小した言語モデルで、テキスト生成タスク向けに設計されており、下流タスクの微調整に適しています。

ダウンロード数 1,127

リリース時間 : 11/14/2023

モデル概要

このモデルは、大規模なデータセットがなくても事前学習言語モデルが可能であることを証明し、単一のTitan Vグラフィックスカードで学習を完了し、長文コンテキスト処理をサポートします。

効率的な事前学習

単一のTitan Vグラフィックスカードのみを使用して事前学習を完了し、小規模データセットの実現可能性を証明しました。

長文コンテキスト対応

約32,768トークンのコンテキスト長をサポートし、長いテキストシーケンスの処理に適しています。

軽量化設計

パラメータ規模を2.48億に縮小し、性能とリソース消費のバランスを取っています。

英語テキスト生成

下流タスクの微調整

テキスト生成

コンテンツ作成支援

記事の下書きやクリエイティブなテキストの断片を生成します。

教育研究

小規模言語モデルの研究

軽量化モデルが特定のタスクでどのように機能するかを検証するために使用されます。

この事前学習済み言語モデルは、Mistral 7Bモデルをベースに、約2億4800万のパラメータに縮小されています。小規模データセットでの事前学習を可能にし、下流タスクのファインチューニングに適しています。

このモデルは、Mistral 7Bモデルをベースに、約2億4800万のパラメータに縮小された事前学習済み言語モデルです。748万8000のサンプルで学習されています。このモデルは直接使用することを目的としておらず、下流タスクでのファインチューニングに使用されます。

このモデルのコンテキスト長は約32,768トークンです。モデルの重み保存に問題があったため、安全なシリアライゼーションは削除されています。

InstructMixでの評価では、このモデルは平均パープレキシティスコア6.3を達成しました。今後、異なるデータセットでの追加のエポック学習が予定されています。

このモデルの目的は、事前学習において兆規模のデータセットが必要ないことを証明することです。小規模データセットでの事前学習が可能であり、このモデルは単一のGPU（Titan V）で事前学習されました。

このモデルはApache-2.0ライセンスの下で提供されています。

プロパティ	詳細
データセット	Skylion007/openwebtext、JeanKaddour/minipile
パイプラインタグ	テキスト生成
do_sample	True
temperature	0.5
top_p	0.5
top_k	50
max_new_tokens	250
repetition_penalty	1.176