TinyMistral-248M-v3开源小型语言模型 - 可持续训练开启智能对话新体验

首页

Tinymistral 248M V3

由 M4-ai 开发

TinyMistral-248M-v3 是一个248M参数规模的小型语言模型，目前仍在训练中，已训练约210亿个标记。

大型语言模型

Transformers

英语开源协议:Apache-2.0 #小规模高效模型 #多任务文本生成 #零样本学习

下载量 179

发布时间 : 2/5/2024

模型简介

该模型是一个小型语言模型，专注于文本生成任务，适用于多种自然语言处理场景。

模型特点

小型高效

248M参数规模，适合资源有限的环境部署

多数据集训练

使用了包括TM-DATA-V2、TxT360等多个高质量数据集进行训练

持续训练

模型仍在持续训练中，性能将不断提升

模型能力

文本生成

自然语言理解

指令跟随

使用案例

教育

历史知识问答

回答关于高中世界历史、美国历史等问题

在高中世界历史测试中准确率达29.11%

法律

法律问题解答

回答专业法律和国际法相关问题

在国际法测试中准确率达21.49%

医疗

医学知识问答

回答临床知识和医学遗传学问题

在医学遗传学测试中准确率达30%

🚀 TinyMistral-248M-v3

TinyMistral-248M-v3 是一款文本生成模型，目前仍在训练中。它基于约 210 亿个标记进行训练，在多个文本生成任务和数据集上进行了评估，展现出了一定的性能表现。

📚 详细文档

训练数据集

模型使用了以下数据集进行训练：

Locutusque/TM-DATA-V2
LLM360/TxT360
mlfoundations/dclm-baseline-1.0
Skylion007/openwebtext
JeanKaddour/minipile
eminorhan/gutenberg_en

评估结果

1. Open LLM Leaderboard 评估

任务	数据集	n-shot	指标	值	标准误差
文本生成	IFEval (0-Shot)	0	严格准确率	16.39	-
文本生成	BBH (3-Shot)	3	归一化准确率	1.78	-
文本生成	MATH Lvl 5 (4-Shot)	4	精确匹配率	0.0	-
文本生成	GPQA (0-shot)	0	归一化准确率	0.0	-
文本生成	MuSR (0-shot)	0	归一化准确率	5.15	-
文本生成	MMLU-PRO (5-shot)	5	准确率	1.47	-

详细结果可查看 Open LLM Leaderboard。

2. 其他任务评估

任务	版本	过滤器	n-shot	指标	值	标准误差
Open LLM Leaderboard - arc_challenge	1	none	25	准确率	0.2005	± 0.0117
Open LLM Leaderboard - arc_challenge	1	none	25	归一化准确率	0.2406	± 0.0125
Open LLM Leaderboard - gsm8k	3	flexible-extract	5	精确匹配率	0.0083	± 0.0025
Open LLM Leaderboard - gsm8k	3	strict-match	5	精确匹配率	0.0000	± 0.0000
Open LLM Leaderboard - hellaswag	1	none	10	准确率	0.2724	± 0.0044
Open LLM Leaderboard - hellaswag	1	none	10	归一化准确率	0.2838	± 0.0045
Open LLM Leaderboard - mmlu	2	none	-	准确率	0.2290	± 0.0035
Open LLM Leaderboard - mmlu - humanities	2	none	-	准确率	0.2380	± 0.0062
Open LLM Leaderboard - mmlu - formal_logic	1	none	5	准确率	0.2460	± 0.0385
Open LLM Leaderboard - mmlu - high_school_european_history	1	none	5	准确率	0.1818	± 0.0301
Open LLM Leaderboard - mmlu - high_school_us_history	1	none	5	准确率	0.2647	± 0.0310
Open LLM Leaderboard - mmlu - high_school_world_history	1	none	5	准确率	0.2911	± 0.0296
Open LLM Leaderboard - mmlu - international_law	1	none	5	准确率	0.2149	± 0.0375
Open LLM Leaderboard - mmlu - jurisprudence	1	none	5	准确率	0.2685	± 0.0428
Open LLM Leaderboard - mmlu - logical_fallacies	1	none	5	准确率	0.2209	± 0.0326
Open LLM Leaderboard - mmlu - moral_disputes	1	none	5	准确率	0.2457	± 0.0232
Open LLM Leaderboard - mmlu - moral_scenarios	1	none	5	准确率	0.2369	± 0.0142
Open LLM Leaderboard - mmlu - philosophy	1	none	5	准确率	0.1865	± 0.0221
Open LLM Leaderboard - mmlu - prehistory	1	none	5	准确率	0.1975	± 0.0222
Open LLM Leaderboard - mmlu - professional_law	1	none	5	准确率	0.2432	± 0.0110
Open LLM Leaderboard - mmlu - world_religions	1	none	5	准确率	0.3099	± 0.0355
Open LLM Leaderboard - mmlu - other	2	none	-	准确率	0.2375	± 0.0076
Open LLM Leaderboard - mmlu - other - business_ethics	1	none	5	准确率	0.3200	± 0.0469
Open LLM Leaderboard - mmlu - other - clinical_knowledge	1	none	5	准确率	0.2226	± 0.0256
Open LLM Leaderboard - mmlu - other - college_medicine	1	none	5	准确率	0.1965	± 0.0303
Open LLM Leaderboard - mmlu - other - global_facts	1	none	5	准确率	0.1800	± 0.0386
Open LLM Leaderboard - mmlu - other - human_aging	1	none	5	准确率	0.3004	± 0.0308
Open LLM Leaderboard - mmlu - other - management	1	none	5	准确率	0.1942	± 0.0392
Open LLM Leaderboard - mmlu - other - marketing	1	none	5	准确率	0.2735	± 0.0292
Open LLM Leaderboard - mmlu - other - medical_genetics	1	none	5	准确率	0.3000	± 0.0461
Open LLM Leaderboard - mmlu - other - miscellaneous	1	none	5	准确率	0.2478	± 0.0154
Open LLM Leaderboard - mmlu - other - nutrition	1	none	5	准确率	0.2222	± 0.0238
Open LLM Leaderboard - mmlu - other - professional_accounting	1	none	5	准确率	0.2021	± 0.0240
Open LLM Leaderboard - mmlu - other - professional_medicine	1	none	5	准确率	0.1912	± 0.0239
Open LLM Leaderboard - mmlu - other - virology	1	none	5	准确率	0.2590	± 0.0341
Open LLM Leaderboard - mmlu - social sciences	2	none	-	准确率	0.2203	± 0.0075
Open LLM Leaderboard - mmlu - social sciences - econometrics	1	none	5	准确率	0.2368	± 0.0400
Open LLM Leaderboard - mmlu - social sciences - high_school_geography	1	none	5	准确率	0.2020	± 0.0286
Open LLM Leaderboard - mmlu - social sciences - high_school_government_and_politics	1	none	5	准确率	0.1865	± 0.0281
Open LLM Leaderboard - mmlu - social sciences - high_school_macroeconomics	1	none	5	准确率	0.2205	± 0.0210
Open LLM Leaderboard - mmlu - social sciences - high_school_microeconomics	1	none	5	准确率	0.2143	± 0.0267
Open LLM Leaderboard - mmlu - social sciences - high_school_psychology	1	none	5	准确率	0.1908	± 0.0168
Open LLM Leaderboard - mmlu - social sciences - human_sexuality	1	none	5	准确率	0.2672	± 0.0388
Open LLM Leaderboard - mmlu - social sciences - professional_psychology	1	none	5	准确率	0.2386	± 0.0172
Open LLM Leaderboard - mmlu - social sciences - public_relations	1	none	5	准确率	0.1727	± 0.0362
Open LLM Leaderboard - mmlu - social sciences - security_studies	1	none	5	准确率	0.2367	± 0.0272
Open LLM Leaderboard - mmlu - social sciences - sociology	1	none	5	准确率	0.2488	± 0.0306
Open LLM Leaderboard - mmlu - social sciences - us_foreign_policy	1	none	5	准确率	0.2600	± 0.0441
Open LLM Leaderboard - mmlu - stem	2	none	-	准确率	0.2157	± 0.0073
Open LLM Leaderboard - mmlu - stem - abstract_algebra	1	none	5	准确率	0.2200	± 0.0416
Open LLM Leaderboard - mmlu - stem - anatomy	1	none	5	准确率	0.1778	± 0.0330
Open LLM Leaderboard - mmlu - stem - astronomy	1	none	5	准确率	0.1908	± 0.0320
Open LLM Leaderboard - mmlu - stem - college_biology	1	none	5	准确率	0.2778	± 0.0375
Open LLM Leaderboard - mmlu - stem - college_chemistry	1	none	5	准确率	0.2200	± 0.0416
Open LLM Leaderboard - mmlu - stem - college_computer_science	1	none	5	准确率	0.2100	± 0.0409
Open LLM Leaderboard - mmlu - stem - college_mathematics	1	none	5	准确率	0.2100	± 0.0409
Open LLM Leaderboard - mmlu - stem - college_physics	1	none	5	准确率	0.2157	± 0.0409
Open LLM Leaderboard - mmlu - stem - computer_security	1	none	5	准确率	0.2700	± 0.0446
Open LLM Leaderboard - mmlu - stem - conceptual_physics	1	none	5	准确率	0.2638	± 0.0288
Open LLM Leaderboard - mmlu - stem - electrical_engineering	1	none	5	准确率	0.2483	± 0.0360
Open LLM Leaderboard - mmlu - stem - elementary_mathematics	1	none	5	准确率	0.2037	± 0.0207
Open LLM Leaderboard - mmlu - stem - high_school_biology	1	none	5	准确率	0.1774	± 0.0217
Open LLM Leaderboard - mmlu - stem - high_school_chemistry	1	none	5	准确率	0.2020	± 0.0282
Open LLM Leaderboard - mmlu - stem - high_school_computer_science	1	none	5	准确率	0.2500	± 0.0435
Open LLM Leaderboard - mmlu - stem - high_school_mathematics	1	none	5	准确率	0.2148	± 0.0250
Open LLM Leaderboard - mmlu - stem - high_school_physics	1	none	5	准确率	0.2053	± 0.0330
Open LLM Leaderboard - mmlu - stem - high_school_statistics	1	none	5	准确率	0.1481	± 0.0242
Open LLM Leaderboard - mmlu - stem - machine_learning	1	none	5	准确率	0.3125	± 0.0440
Open LLM Leaderboard - truthfulqa_gen	3	none	0	BLEU 准确率	0.2362	± 0.0149
Open LLM Leaderboard - truthfulqa_gen	3	none	0	BLEU 差异	-1.0138	± 0.2569
Open LLM Leaderboard - truthfulqa_gen	3	none	0	BLEU 最大值	7.9522	± 0.4088
Open LLM Leaderboard - truthfulqa_gen	3	none	0	ROUGE-1 准确率	0.2595	± 0.0153
Open LLM Leaderboard - truthfulqa_gen	3	none	0	ROUGE-1 差异	-1.9129	± 0.4349
Open LLM Leaderboard - truthfulqa_gen	3	none	0	ROUGE-1 最大值	21.7885	± 0.7307
Open LLM Leaderboard - truthfulqa_gen	3	none	0	ROUGE-2 准确率	0.1200	± 0.0114
Open LLM Leaderboard - truthfulqa_gen	3	none	0	ROUGE-2 差异	-1.9771	± 0.3475
Open LLM Leaderboard - truthfulqa_gen	3	none	0	ROUGE-2 最大值	9.0199	± 0.5842
Open LLM Leaderboard - truthfulqa_gen	3	none	0	ROUGE-L 准确率	0.2570	± 0.0153
Open LLM Leaderboard - truthfulqa_gen	3	none	0	ROUGE-L 差异	-1.8812	± 0.4185
Open LLM Leaderboard - truthfulqa_gen	3	none	0	ROUGE-L 最大值	19.6284	± 0.6850
Open LLM Leaderboard - truthfulqa_mc1	2	none	0	准确率	0.1983	± 0.0140
Open LLM Leaderboard - truthfulqa_mc2	2	none	0	准确率	0.3861	± 0.0147
Open LLM Leaderboard - winogrande	1	none	5	准确率	0.4972	± 0.0141

3. 分组评估结果

组	版本	过滤器	n-shot	指标	值	标准误差
Open LLM Leaderboard - mmlu	2	none	-	准确率	0.2290	± 0.0035
Open LLM Leaderboard - mmlu - humanities	2	none	-	准确率	0.2380	± 0.0062
Open LLM Leaderboard - mmlu - other	2	none	-	准确率	0.2375	± 0.0076
Open LLM Leaderboard - mmlu - social sciences	2	none	-	准确率	0.2203	± 0.0075
Open LLM Leaderboard - mmlu - stem	2	none	-	准确率	0.2157	± 0.0073

4. 其他任务结果

任务	版本	过滤器	n-shot	指标	值	标准误差
agieval_nous	0	none	-	归一化准确率	0.2133	± 0.0081
agieval_nous - agieval_aqua_rat	1	none	0	准确率	0.2047	± 0.0254
agieval_nous - agieval_aqua_rat	1	none	0	归一化准确率	0.1969	± 0.0250
agieval_nous - agieval_logiqa_en	1	none	0	准确率	0.2043	± 0.0158
agieval_nous - agieval_logiqa_en	1	none	0	归一化准确率	0.2304	± 0.0165
agieval_nous - agieval_lsat_ar	1	none	0	准确率	0.1739	± 0.0250
agieval_nous - agieval_lsat_ar	1	none	0	归一化准确率	0.1957	± 0.0262
agieval_nous - agieval_lsat_lr	1	none	0	准确率	0.1549	± 0.0160
agieval_nous - agieval_lsat_lr	1	none	0	归一化准确率	0.1608	± 0.0163
agieval_nous - agieval_lsat_rc	1	none	0	准确率	0.1636	± 0.0226
agieval_nous - agieval_lsat_rc	1	none	0	归一化准确率	0.2119	± 0.0250
agieval_nous - agieval_sat_en	1	none	0	准确率	0.2670	± 0.0309
agieval_nous - agieval_sat_en	1	none	0	归一化准确率	0.2621	± 0.0307
agieval_nous - agieval_sat_en_without_passage	1	none	0	准确率	0.2670	± 0.0309
agieval_nous - agieval_sat_en_without_passage	1	none	0	归一化准确率	0.2621	± 0.0307
agieval_nous - agieval_sat_math	1	none	0	准确率	0.2182	± 0.0279
agieval_nous - agieval_sat_math	1	none	0	归一化准确率	0.2318	± 0.0285
arc_challenge	1	none	0	准确率	0.1945	± 0.0116
arc_challenge	1	none	0	归一化准确率	0.2372	± 0.0124
truthfulqa_mc2	2	none	0	准确率	0.3861	± 0.0147