llama-3-2-1b-sftオープンソース対話モデル - 対話タスクの最適化に特化し、無料で質の高い交流体験を楽しめます

Llama 3 2 1b Sft

wassnameによって開発

NousResearch/Llama-3.2-1Bモデルをultrachat_200kデータセットで微調整したバージョンで、対話タスクの最適化に特化しています。

ダウンロード数 637

リリース時間 : 9/30/2024

モデル概要

これは、監督式微調整（SFT）を行った言語モデルで、Llama-3.2-1Bアーキテクチャに基づき、対話シーンに特化して最適化されています。

対話最適化

ultrachat_200kデータセットで微調整されており、対話シーンに特に適しています。

高効率推論

10億パラメータ規模で、性能を維持しながら高い推論効率を提供します。

監督式微調整

監督式微調整手法（SFT）を用いてモデルの性能を最適化しています。

テキスト生成

対話応答

言語理解

対話システム

チャットボット

自然な応答が可能なチャットボットの構築に使用できます。

カスタマーサポートアシスタント

基本的なカスタマーサポートの質問応答シーンに適しています。

このモデルは、HuggingFaceH4/ultrachat_200kデータセットでNousResearch/Llama-3.2-1Bをファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

トレーニングのyamlファイルはこちらを参照してください https://github.com/wassname/SimPO/blob/main/training_configs/llama-3-2-1b-base-sft.yaml

このモデルは、特定のデータセットでファインチューニングされたバージョンです。評価セットでの損失は1.2759です。トレーニングの設定については、提供されたyamlファイルを参照してください。

このモデルのライセンスはllama3.2です。

プロパティ	詳細
モデル名	llama-3-2-1b-sft
ベースモデル	NousResearch/Llama-3.2-1B
タグ	alignment-handbook, generated_from_trainer
データセット	HuggingFaceH4/ultrachat_200k

トレーニング中に使用されたハイパーパラメータは以下の通りです。

トレーニング損失	エポック	ステップ	検証損失
1.3663	0.0534	200	1.3955
1.3413	0.1069	400	1.3722
1.365	0.1603	600	1.3632
1.33	0.2138	800	1.3532
1.3219	0.2672	1000	1.3463
1.3355	0.3207	1200	1.3391
1.334	0.3741	1400	1.3305
1.3183	0.4276	1600	1.3233
1.334	0.4810	1800	1.3161
1.3013	0.5345	2000	1.3087
1.3156	0.5879	2200	1.3016
1.3092	0.6414	2400	1.2953
1.2518	0.6948	2600	1.2895
1.2617	0.7483	2800	1.2846
1.3041	0.8017	3000	1.2809
1.3102	0.8552	3200	1.2781
1.2675	0.9086	3400	1.2765
1.2978	0.9621	3600	1.2759