🚀 🌞🚀 SOLAR-math-10.7x2-v0.2_19B
本项目是两个Solar - 10.7B指令微调模型的融合。该模型性能与GPT - 3.5和Gemini Pro相当,各项得分均超过Mixtral - 8x7b。

以下是评估结果的简要概述,仅为方便用户获取数据进行对比,此表格并非完整分析。


🚀 快速开始
模型信息
属性 |
详情 |
模型类型 |
两个Solar - 10.7B指令微调模型的融合 |
训练数据 |
未提及 |
许可证
本项目采用CC - BY - NC - 4.0许可证。
✨ 主要特性
- 性能表现出色,与GPT - 3.5和Gemini Pro相当,且各项得分超过Mixtral - 8x7b。
- 可进行文本生成任务,在多个数据集上有较好的评估结果。
📦 安装
文档未提及安装步骤,暂不展示。
💻 使用示例
基础用法
示例也可在colab中查看。
from transformers import AutoModelForCausalLM, AutoTokenizer
def generate_response(prompt):
"""
Generate a response from the model based on the input prompt.
Args:
prompt (str): Prompt for the model.
Returns:
str: The generated response from the model.
"""
inputs = tokenizer(prompt, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=512, eos_token_id=tokenizer.eos_token_id, pad_token_id=tokenizer.pad_token_id)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
return response
model_id = "macadeliccc/SOLAR-math-2x10.7B-v0.2"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id, load_in_4bit=True)
prompt = "Explain the proof of Fermat's Last Theorem and its implications in number theory."
print("Response:")
print(generate_response(prompt), "\n")
示例输出:
费马大定理(Fermat's Last Theorem,简称FLT)是一个著名的数学猜想,它指出“对于任何大于2的整数n,不存在三个正整数a、b和c能满足方程a^n + b^n = c^n”。该定理最初由皮埃尔·德·费马(Pierre de Fermat)在17世纪提出,但直到20世纪末才由安德鲁·怀尔斯(Andrew Wiles)证明。
安德鲁·怀尔斯在1993年和1994年发表的费马大定理证明非常复杂,涉及多个高级数学概念。证明的主要思路是使用模椭圆曲线,这是由多项式方程定义的代数曲线。怀尔斯引入了一个名为谷山 - 志村猜想(Taniyama - Shimura conjecture)的新概念,该猜想指出有理数上的某些椭圆曲线与某些尖点形式之间存在一一对应关系。
怀尔斯对费马大定理的证明基于谷山 - 志村猜想为真的假设。他证明了如果谷山 - 志村猜想为真,那么费马大定理也必然为真。这种证明策略被称为“反证法”。怀尔斯证明了如果费马大定理为假,那么谷山 - 志村猜想就会存在反例。然而,由于谷山 - 志村猜想被认为是正确的,这就导致了矛盾。因此,根据反证法原理,费马大定理必然为真。
费马大定理在数论中的意义重大。它是整数研究中的一个基本结果,其证明有助于更好地理解各种数学概念。费马大定理的证明也为其他数学领域的发展做出了贡献,如代数几何、表示论和数论本身。
此外,该定理通过解决一个长期存在的公开问题,加强了数论的基础。它还鼓励数学家探索新的研究方向,因为费马大定理的证明为相关领域开辟了新的研究途径。
🔧 技术细节
文档未提供具体技术实现细节,暂不展示。
🏆 评估结果
ARC
任务 |
版本 |
指标 |
值 |
|
标准误差 |
arc_challenge |
1 |
acc,none |
0.68 |
|
|
|
|
acc_stderr,none |
0.01 |
|
|
|
|
acc_norm,none |
0.72 |
|
|
|
|
acc_norm_stderr,none |
0.01 |
|
|
|
|
别名 |
arc_challenge |
|
|
平均:71.76%
HellaSwag
任务 |
版本 |
指标 |
值 |
|
标准误差 |
hellaswag |
1 |
acc,none |
0.71 |
|
|
|
|
acc_stderr,none |
0 |
|
|
|
|
acc_norm,none |
0.88 |
|
|
|
|
acc_norm_stderr,none |
0 |
|
|
|
|
别名 |
hellaswag |
|
|
平均:88.01%
详细结果可查看此处
指标 |
值 |
平均得分 |
74.25 |
AI2推理挑战(25次少样本学习) |
70.90 |
HellaSwag(10次少样本学习) |
88.29 |
MMLU(5次少样本学习) |
66.25 |
TruthfulQA(0次少样本学习) |
71.68 |
Winogrande(5次少样本学习) |
83.50 |
GSM8k(5次少样本学习) |
64.90 |
📚 引用
@misc{kim2023solar,
title={SOLAR 10.7B: Scaling Large Language Models with Simple yet Effective Depth Up-Scaling},
author={Dahyun Kim and Chanjun Park and Sanghoon Kim and Wonsung Lee and Wonho Song and Yunsu Kim and Hyeonwoo Kim and Yungi Kim and Hyeonju Lee and Jihoo Kim and Changbae Ahn and Seonghoon Yang and Sukyung Lee and Hyunbyung Park and Gyoungjin Gim and Mikyoung Cha and Hwalsuk Lee and Sunghun Kim},
year={2023},
eprint={2312.15166},
archivePrefix={arXiv},
primaryClass={cs.CL}
}