TinyMistral-248M-GGUF開源小語言模型 - 免費用於下游任務微調！

Tinymistral 248M GGUF

由afrideva開發

TinyMistral-248M 是一個基於 Mistral 7B 模型預訓練的小型語言模型，參數規模縮減至約2.48億，主要用於下游任務的微調。

下載量 211

發布時間 : 11/14/2023

模型概述

這是一個基於Mistral 7B模型預訓練的語言模型，參數規模縮減至約2.48億。該模型已在7,488,000個樣本上進行訓練，主要用於下游任務的微調。

小型化設計

參數規模縮減至約2.48億，適合在資源有限的設備上運行。

高效預訓練

在單個GPU（Titan V）上完成預訓練，所需數據集較小。

長上下文支持

上下文長度約為32,768個token，適合處理長文本任務。

文本生成

下游任務微調

自然語言處理

文本生成

用於生成連貫的英文文本。

在InstructMix評估中，平均困惑度得分為6.3。

下游任務微調

適用於需要小型語言模型的各種NLP任務。

本項目提供了來自 Locutusque 的 TinyMistral-248M 模型的量化 GGUF 格式文件。該模型基於 Mistral 7B 模型進行縮減，適用於下游任務的微調。

屬性	詳情
基礎模型	Locutusque/TinyMistral-248M
模型創建者	Locutusque
模型名稱	TinyMistral-248M
任務類型	文本生成
量化者	afrideva
模型類型	gguf、ggml、量化模型（包含 q2_k、q3_k_m、q4_k_m、q5_k_m、q6_k、q8_0 等量化方法）
訓練數據	Skylion007/openwebtext、JeanKaddour/minipile
許可證	apache - 2.0

這是一個基於 Mistral 7B 模型的預訓練語言模型，參數規模縮減至約 2.48 億。該模型在 748.8 萬個示例上進行了訓練，不建議直接使用，而是用於下游任務的微調。

該模型的上下文長度約為 32768 個標記。由於保存模型權重時出現問題，已移除安全序列化。

在 InstructMix 上進行評估時，該模型的平均困惑度得分為 6.3。計劃在不同數據集上對該模型進行更多輪次的訓練。

詳細結果可查看此處