Tinymistral 248M V3
TinyMistral-248M-v3 是一个248M参数规模的小型语言模型,目前仍在训练中,已训练约210亿个标记。
下载量 179
发布时间 : 2/5/2024
模型简介
该模型是一个小型语言模型,专注于文本生成任务,适用于多种自然语言处理场景。
模型特点
小型高效
248M参数规模,适合资源有限的环境部署
多数据集训练
使用了包括TM-DATA-V2、TxT360等多个高质量数据集进行训练
持续训练
模型仍在持续训练中,性能将不断提升
模型能力
文本生成
自然语言理解
指令跟随
使用案例
教育
历史知识问答
回答关于高中世界历史、美国历史等问题
在高中世界历史测试中准确率达29.11%
法律
法律问题解答
回答专业法律和国际法相关问题
在国际法测试中准确率达21.49%
医疗
医学知识问答
回答临床知识和医学遗传学问题
在医学遗传学测试中准确率达30%
🚀 TinyMistral-248M-v3
TinyMistral-248M-v3 是一款文本生成模型,目前仍在训练中。它基于约 210 亿个标记进行训练,在多个文本生成任务和数据集上进行了评估,展现出了一定的性能表现。
📚 详细文档
训练数据集
模型使用了以下数据集进行训练:
- Locutusque/TM-DATA-V2
- LLM360/TxT360
- mlfoundations/dclm-baseline-1.0
- Skylion007/openwebtext
- JeanKaddour/minipile
- eminorhan/gutenberg_en
评估结果
1. Open LLM Leaderboard 评估
任务 | 数据集 | n-shot | 指标 | 值 | 标准误差 |
---|---|---|---|---|---|
文本生成 | IFEval (0-Shot) | 0 | 严格准确率 | 16.39 | - |
文本生成 | BBH (3-Shot) | 3 | 归一化准确率 | 1.78 | - |
文本生成 | MATH Lvl 5 (4-Shot) | 4 | 精确匹配率 | 0.0 | - |
文本生成 | GPQA (0-shot) | 0 | 归一化准确率 | 0.0 | - |
文本生成 | MuSR (0-shot) | 0 | 归一化准确率 | 5.15 | - |
文本生成 | MMLU-PRO (5-shot) | 5 | 准确率 | 1.47 | - |
详细结果可查看 Open LLM Leaderboard。
2. 其他任务评估
任务 | 版本 | 过滤器 | n-shot | 指标 | 值 | 标准误差 |
---|---|---|---|---|---|---|
Open LLM Leaderboard - arc_challenge | 1 | none | 25 | 准确率 | 0.2005 | ± 0.0117 |
Open LLM Leaderboard - arc_challenge | 1 | none | 25 | 归一化准确率 | 0.2406 | ± 0.0125 |
Open LLM Leaderboard - gsm8k | 3 | flexible-extract | 5 | 精确匹配率 | 0.0083 | ± 0.0025 |
Open LLM Leaderboard - gsm8k | 3 | strict-match | 5 | 精确匹配率 | 0.0000 | ± 0.0000 |
Open LLM Leaderboard - hellaswag | 1 | none | 10 | 准确率 | 0.2724 | ± 0.0044 |
Open LLM Leaderboard - hellaswag | 1 | none | 10 | 归一化准确率 | 0.2838 | ± 0.0045 |
Open LLM Leaderboard - mmlu | 2 | none | - | 准确率 | 0.2290 | ± 0.0035 |
Open LLM Leaderboard - mmlu - humanities | 2 | none | - | 准确率 | 0.2380 | ± 0.0062 |
Open LLM Leaderboard - mmlu - formal_logic | 1 | none | 5 | 准确率 | 0.2460 | ± 0.0385 |
Open LLM Leaderboard - mmlu - high_school_european_history | 1 | none | 5 | 准确率 | 0.1818 | ± 0.0301 |
Open LLM Leaderboard - mmlu - high_school_us_history | 1 | none | 5 | 准确率 | 0.2647 | ± 0.0310 |
Open LLM Leaderboard - mmlu - high_school_world_history | 1 | none | 5 | 准确率 | 0.2911 | ± 0.0296 |
Open LLM Leaderboard - mmlu - international_law | 1 | none | 5 | 准确率 | 0.2149 | ± 0.0375 |
Open LLM Leaderboard - mmlu - jurisprudence | 1 | none | 5 | 准确率 | 0.2685 | ± 0.0428 |
Open LLM Leaderboard - mmlu - logical_fallacies | 1 | none | 5 | 准确率 | 0.2209 | ± 0.0326 |
Open LLM Leaderboard - mmlu - moral_disputes | 1 | none | 5 | 准确率 | 0.2457 | ± 0.0232 |
Open LLM Leaderboard - mmlu - moral_scenarios | 1 | none | 5 | 准确率 | 0.2369 | ± 0.0142 |
Open LLM Leaderboard - mmlu - philosophy | 1 | none | 5 | 准确率 | 0.1865 | ± 0.0221 |
Open LLM Leaderboard - mmlu - prehistory | 1 | none | 5 | 准确率 | 0.1975 | ± 0.0222 |
Open LLM Leaderboard - mmlu - professional_law | 1 | none | 5 | 准确率 | 0.2432 | ± 0.0110 |
Open LLM Leaderboard - mmlu - world_religions | 1 | none | 5 | 准确率 | 0.3099 | ± 0.0355 |
Open LLM Leaderboard - mmlu - other | 2 | none | - | 准确率 | 0.2375 | ± 0.0076 |
Open LLM Leaderboard - mmlu - other - business_ethics | 1 | none | 5 | 准确率 | 0.3200 | ± 0.0469 |
Open LLM Leaderboard - mmlu - other - clinical_knowledge | 1 | none | 5 | 准确率 | 0.2226 | ± 0.0256 |
Open LLM Leaderboard - mmlu - other - college_medicine | 1 | none | 5 | 准确率 | 0.1965 | ± 0.0303 |
Open LLM Leaderboard - mmlu - other - global_facts | 1 | none | 5 | 准确率 | 0.1800 | ± 0.0386 |
Open LLM Leaderboard - mmlu - other - human_aging | 1 | none | 5 | 准确率 | 0.3004 | ± 0.0308 |
Open LLM Leaderboard - mmlu - other - management | 1 | none | 5 | 准确率 | 0.1942 | ± 0.0392 |
Open LLM Leaderboard - mmlu - other - marketing | 1 | none | 5 | 准确率 | 0.2735 | ± 0.0292 |
Open LLM Leaderboard - mmlu - other - medical_genetics | 1 | none | 5 | 准确率 | 0.3000 | ± 0.0461 |
Open LLM Leaderboard - mmlu - other - miscellaneous | 1 | none | 5 | 准确率 | 0.2478 | ± 0.0154 |
Open LLM Leaderboard - mmlu - other - nutrition | 1 | none | 5 | 准确率 | 0.2222 | ± 0.0238 |
Open LLM Leaderboard - mmlu - other - professional_accounting | 1 | none | 5 | 准确率 | 0.2021 | ± 0.0240 |
Open LLM Leaderboard - mmlu - other - professional_medicine | 1 | none | 5 | 准确率 | 0.1912 | ± 0.0239 |
Open LLM Leaderboard - mmlu - other - virology | 1 | none | 5 | 准确率 | 0.2590 | ± 0.0341 |
Open LLM Leaderboard - mmlu - social sciences | 2 | none | - | 准确率 | 0.2203 | ± 0.0075 |
Open LLM Leaderboard - mmlu - social sciences - econometrics | 1 | none | 5 | 准确率 | 0.2368 | ± 0.0400 |
Open LLM Leaderboard - mmlu - social sciences - high_school_geography | 1 | none | 5 | 准确率 | 0.2020 | ± 0.0286 |
Open LLM Leaderboard - mmlu - social sciences - high_school_government_and_politics | 1 | none | 5 | 准确率 | 0.1865 | ± 0.0281 |
Open LLM Leaderboard - mmlu - social sciences - high_school_macroeconomics | 1 | none | 5 | 准确率 | 0.2205 | ± 0.0210 |
Open LLM Leaderboard - mmlu - social sciences - high_school_microeconomics | 1 | none | 5 | 准确率 | 0.2143 | ± 0.0267 |
Open LLM Leaderboard - mmlu - social sciences - high_school_psychology | 1 | none | 5 | 准确率 | 0.1908 | ± 0.0168 |
Open LLM Leaderboard - mmlu - social sciences - human_sexuality | 1 | none | 5 | 准确率 | 0.2672 | ± 0.0388 |
Open LLM Leaderboard - mmlu - social sciences - professional_psychology | 1 | none | 5 | 准确率 | 0.2386 | ± 0.0172 |
Open LLM Leaderboard - mmlu - social sciences - public_relations | 1 | none | 5 | 准确率 | 0.1727 | ± 0.0362 |
Open LLM Leaderboard - mmlu - social sciences - security_studies | 1 | none | 5 | 准确率 | 0.2367 | ± 0.0272 |
Open LLM Leaderboard - mmlu - social sciences - sociology | 1 | none | 5 | 准确率 | 0.2488 | ± 0.0306 |
Open LLM Leaderboard - mmlu - social sciences - us_foreign_policy | 1 | none | 5 | 准确率 | 0.2600 | ± 0.0441 |
Open LLM Leaderboard - mmlu - stem | 2 | none | - | 准确率 | 0.2157 | ± 0.0073 |
Open LLM Leaderboard - mmlu - stem - abstract_algebra | 1 | none | 5 | 准确率 | 0.2200 | ± 0.0416 |
Open LLM Leaderboard - mmlu - stem - anatomy | 1 | none | 5 | 准确率 | 0.1778 | ± 0.0330 |
Open LLM Leaderboard - mmlu - stem - astronomy | 1 | none | 5 | 准确率 | 0.1908 | ± 0.0320 |
Open LLM Leaderboard - mmlu - stem - college_biology | 1 | none | 5 | 准确率 | 0.2778 | ± 0.0375 |
Open LLM Leaderboard - mmlu - stem - college_chemistry | 1 | none | 5 | 准确率 | 0.2200 | ± 0.0416 |
Open LLM Leaderboard - mmlu - stem - college_computer_science | 1 | none | 5 | 准确率 | 0.2100 | ± 0.0409 |
Open LLM Leaderboard - mmlu - stem - college_mathematics | 1 | none | 5 | 准确率 | 0.2100 | ± 0.0409 |
Open LLM Leaderboard - mmlu - stem - college_physics | 1 | none | 5 | 准确率 | 0.2157 | ± 0.0409 |
Open LLM Leaderboard - mmlu - stem - computer_security | 1 | none | 5 | 准确率 | 0.2700 | ± 0.0446 |
Open LLM Leaderboard - mmlu - stem - conceptual_physics | 1 | none | 5 | 准确率 | 0.2638 | ± 0.0288 |
Open LLM Leaderboard - mmlu - stem - electrical_engineering | 1 | none | 5 | 准确率 | 0.2483 | ± 0.0360 |
Open LLM Leaderboard - mmlu - stem - elementary_mathematics | 1 | none | 5 | 准确率 | 0.2037 | ± 0.0207 |
Open LLM Leaderboard - mmlu - stem - high_school_biology | 1 | none | 5 | 准确率 | 0.1774 | ± 0.0217 |
Open LLM Leaderboard - mmlu - stem - high_school_chemistry | 1 | none | 5 | 准确率 | 0.2020 | ± 0.0282 |
Open LLM Leaderboard - mmlu - stem - high_school_computer_science | 1 | none | 5 | 准确率 | 0.2500 | ± 0.0435 |
Open LLM Leaderboard - mmlu - stem - high_school_mathematics | 1 | none | 5 | 准确率 | 0.2148 | ± 0.0250 |
Open LLM Leaderboard - mmlu - stem - high_school_physics | 1 | none | 5 | 准确率 | 0.2053 | ± 0.0330 |
Open LLM Leaderboard - mmlu - stem - high_school_statistics | 1 | none | 5 | 准确率 | 0.1481 | ± 0.0242 |
Open LLM Leaderboard - mmlu - stem - machine_learning | 1 | none | 5 | 准确率 | 0.3125 | ± 0.0440 |
Open LLM Leaderboard - truthfulqa_gen | 3 | none | 0 | BLEU 准确率 | 0.2362 | ± 0.0149 |
Open LLM Leaderboard - truthfulqa_gen | 3 | none | 0 | BLEU 差异 | -1.0138 | ± 0.2569 |
Open LLM Leaderboard - truthfulqa_gen | 3 | none | 0 | BLEU 最大值 | 7.9522 | ± 0.4088 |
Open LLM Leaderboard - truthfulqa_gen | 3 | none | 0 | ROUGE-1 准确率 | 0.2595 | ± 0.0153 |
Open LLM Leaderboard - truthfulqa_gen | 3 | none | 0 | ROUGE-1 差异 | -1.9129 | ± 0.4349 |
Open LLM Leaderboard - truthfulqa_gen | 3 | none | 0 | ROUGE-1 最大值 | 21.7885 | ± 0.7307 |
Open LLM Leaderboard - truthfulqa_gen | 3 | none | 0 | ROUGE-2 准确率 | 0.1200 | ± 0.0114 |
Open LLM Leaderboard - truthfulqa_gen | 3 | none | 0 | ROUGE-2 差异 | -1.9771 | ± 0.3475 |
Open LLM Leaderboard - truthfulqa_gen | 3 | none | 0 | ROUGE-2 最大值 | 9.0199 | ± 0.5842 |
Open LLM Leaderboard - truthfulqa_gen | 3 | none | 0 | ROUGE-L 准确率 | 0.2570 | ± 0.0153 |
Open LLM Leaderboard - truthfulqa_gen | 3 | none | 0 | ROUGE-L 差异 | -1.8812 | ± 0.4185 |
Open LLM Leaderboard - truthfulqa_gen | 3 | none | 0 | ROUGE-L 最大值 | 19.6284 | ± 0.6850 |
Open LLM Leaderboard - truthfulqa_mc1 | 2 | none | 0 | 准确率 | 0.1983 | ± 0.0140 |
Open LLM Leaderboard - truthfulqa_mc2 | 2 | none | 0 | 准确率 | 0.3861 | ± 0.0147 |
Open LLM Leaderboard - winogrande | 1 | none | 5 | 准确率 | 0.4972 | ± 0.0141 |
3. 分组评估结果
组 | 版本 | 过滤器 | n-shot | 指标 | 值 | 标准误差 |
---|---|---|---|---|---|---|
Open LLM Leaderboard - mmlu | 2 | none | - | 准确率 | 0.2290 | ± 0.0035 |
Open LLM Leaderboard - mmlu - humanities | 2 | none | - | 准确率 | 0.2380 | ± 0.0062 |
Open LLM Leaderboard - mmlu - other | 2 | none | - | 准确率 | 0.2375 | ± 0.0076 |
Open LLM Leaderboard - mmlu - social sciences | 2 | none | - | 准确率 | 0.2203 | ± 0.0075 |
Open LLM Leaderboard - mmlu - stem | 2 | none | - | 准确率 | 0.2157 | ± 0.0073 |
4. 其他任务结果
任务 | 版本 | 过滤器 | n-shot | 指标 | 值 | 标准误差 |
---|---|---|---|---|---|---|
agieval_nous | 0 | none | - | 归一化准确率 | 0.2133 | ± 0.0081 |
agieval_nous - agieval_aqua_rat | 1 | none | 0 | 准确率 | 0.2047 | ± 0.0254 |
agieval_nous - agieval_aqua_rat | 1 | none | 0 | 归一化准确率 | 0.1969 | ± 0.0250 |
agieval_nous - agieval_logiqa_en | 1 | none | 0 | 准确率 | 0.2043 | ± 0.0158 |
agieval_nous - agieval_logiqa_en | 1 | none | 0 | 归一化准确率 | 0.2304 | ± 0.0165 |
agieval_nous - agieval_lsat_ar | 1 | none | 0 | 准确率 | 0.1739 | ± 0.0250 |
agieval_nous - agieval_lsat_ar | 1 | none | 0 | 归一化准确率 | 0.1957 | ± 0.0262 |
agieval_nous - agieval_lsat_lr | 1 | none | 0 | 准确率 | 0.1549 | ± 0.0160 |
agieval_nous - agieval_lsat_lr | 1 | none | 0 | 归一化准确率 | 0.1608 | ± 0.0163 |
agieval_nous - agieval_lsat_rc | 1 | none | 0 | 准确率 | 0.1636 | ± 0.0226 |
agieval_nous - agieval_lsat_rc | 1 | none | 0 | 归一化准确率 | 0.2119 | ± 0.0250 |
agieval_nous - agieval_sat_en | 1 | none | 0 | 准确率 | 0.2670 | ± 0.0309 |
agieval_nous - agieval_sat_en | 1 | none | 0 | 归一化准确率 | 0.2621 | ± 0.0307 |
agieval_nous - agieval_sat_en_without_passage | 1 | none | 0 | 准确率 | 0.2670 | ± 0.0309 |
agieval_nous - agieval_sat_en_without_passage | 1 | none | 0 | 归一化准确率 | 0.2621 | ± 0.0307 |
agieval_nous - agieval_sat_math | 1 | none | 0 | 准确率 | 0.2182 | ± 0.0279 |
agieval_nous - agieval_sat_math | 1 | none | 0 | 归一化准确率 | 0.2318 | ± 0.0285 |
arc_challenge | 1 | none | 0 | 准确率 | 0.1945 | ± 0.0116 |
arc_challenge | 1 | none | 0 | 归一化准确率 | 0.2372 | ± 0.0124 |
truthfulqa_mc2 | 2 | none | 0 | 准确率 | 0.3861 | ± 0.0147 |
5. 分组评估结果
组 | 版本 | 过滤器 | n-shot | 指标 | 值 | 标准误差 |
---|---|---|---|---|---|---|
agieval_nous | 0 | none | - | 归一化准确率 | 0.2133 | ± 0.0081 |
综合评估指标
指标 | 值 |
---|---|
平均值 | 4.13 |
IFEval (0-Shot) | 16.39 |
BBH (3-Shot) | 1.78 |
MATH Lvl 5 (4-Shot) | 0.00 |
GPQA (0-shot) | 0.00 |
MuSR (0-shot) | 5.15 |
MMLU-PRO (5-shot) | 1.47 |
详细结果可查看 这里。
📄 许可证
本项目采用 Apache-2.0 许可证。
Phi 2 GGUF
其他
Phi-2是微软开发的一个小型但强大的语言模型,具有27亿参数,专注于高效推理和高质量文本生成。
大型语言模型 支持多种语言
P
TheBloke
41.5M
205
Roberta Large
MIT
基于掩码语言建模目标预训练的大型英语语言模型,采用改进的BERT训练方法
大型语言模型 英语
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基础模型的蒸馏版本,在保持相近性能的同时更轻量高效,适用于序列分类、标记分类等自然语言处理任务。
大型语言模型 英语
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一个多语言大语言模型,针对多语言对话用例进行了优化,在常见的行业基准测试中表现优异。
大型语言模型 英语
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基于100种语言的2.5TB过滤CommonCrawl数据预训练的多语言模型,采用掩码语言建模目标进行训练。
大型语言模型 支持多种语言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基于Transformer架构的英语预训练模型,通过掩码语言建模目标在海量文本上训练,支持文本特征提取和下游任务微调
大型语言模型 英语
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI发布的开放预训练Transformer语言模型套件,参数量从1.25亿到1750亿,旨在对标GPT-3系列性能,同时促进大规模语言模型的开放研究。
大型语言模型 英语
O
facebook
6.3M
198
1
基于transformers库的预训练模型,适用于多种NLP任务
大型语言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多语言大语言模型系列,包含8B、70B和405B参数规模,支持8种语言和代码生成,优化了多语言对话场景。
大型语言模型
Transformers 支持多种语言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基础版是由Google开发的文本到文本转换Transformer模型,参数规模2.2亿,支持多语言NLP任务。
大型语言模型 支持多种语言
T
google-t5
5.4M
702
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98