QuartetAnemoi-70B-t0.0001开源大语言模型 - 免费部署，擅长新颖故事讲述

首页

Quartetanemoi 70B T0.0001

由 alchemonaut 开发

QuartetAnemoi-70B-t0.0001是一个70B参数的大语言模型，通过自定义NearSwap算法合并了多个优秀模型，擅长故事讲述且避免使用陈词滥调。

大型语言模型

Transformers

开源协议:其他 #多模型融合 #高精度文本生成 #低阈值权重切换

下载量 16

发布时间 : 2/3/2024

模型简介

该模型通过顺序合并多个70B参数模型（miqu-1-70b-sf、WinterGoddess-1.4x-70B-L2、Aurora-Nights-70B-v1.0和Xwin-LM-70B-V0.1）而创建，使用NearSwap算法保留了基础模型的大部分权重，同时引入其他模型的特性。

模型特点

NearSwap合并算法

使用自定义NearSwap算法合并模型，当权重相似时（阈值t=0.0001）将基础模型权重插值到次要模型的值，保留基础模型大部分特性同时引入多样性。

自然的故事讲述

与大多数模型不同，在故事结尾不常使用'最终'、'于是'等陈词滥调，生成更自然的叙述。

多模型优势融合

融合了miqu、WinterGoddess、Aurora-Nights和Xwin-LM四个优秀模型的特性，平衡了各模型的优势。

模型能力

文本生成

故事创作

问答系统

推理任务

使用案例

内容创作

故事生成

生成连贯、自然的故事情节

避免使用常见的故事结尾陈词滥调

知识问答

开放域问答

回答各种领域的知识性问题

在MMLU测试集上达到75.42%准确率

🚀 QuartetAnemoi-70B-t0.0001

QuartetAnemoi-70B-t0.0001 是一个通过自定义算法（NearSwap）进行顺序合并的模型。它结合了多个优质模型的特点，在文本生成任务中表现出色，且生成的故事结尾较少使用陈词滥调。

模型图片

✨ 主要特性

独特合并方式：使用自定义的 NearSwap 算法，将四个不同的模型 152334H/miqu-1-70b-sf、Sao10K/WinterGoddess-1.4x-70B-L2、Aurora-Nights-70B-v1.0 和 Xwin-LM-70B-V0.1 进行顺序合并。
故事生成优质：在测试中，该模型像一个出色的故事讲述者，且故事结尾很少使用“最后”“于是”“希望的灯塔”等陈词滥调。
多种量化格式：得益于社区的努力，目前提供了多种流行的量化格式。

📦 量化格式

类型	备注	作者
GGUF		alchemonaut
GGUF	iMat	Nexesenex
GGUF	iMat	mradermacher
GGUF	完整集合	mradermacher
exl2	2.5bpw	llmixer
exl2	3.75bpw	altomek
exl2	4.0bpw	llmixer
exl2	4.6bpw	alchemonaut
exl2	6.0bpw	llmixer
AWQ		tachyphylaxis

🔧 技术细节

NearSwap 算法

NearSwap 算法保留了基础模型（Miqu）的大部分权重，但当两个模型的权重相似时，会将其插值到次要模型的值。参数 t 指定了相同性阈值，当两个值之间的距离低于 t 时，将使用次要模型的权重。

此版本的模型使用 t = 0.0001。在这个 t 值下，每次传递时约有 0.8% 的权重会完全切换到次要模型。当 t > 0.0025 时，模型质量会迅速下降：

t = 0.0001（约 0.8% 完全交换）：即本模型 QuartetAnemoi-70B-t0.0001
t = 0.0003（约 2% 完全交换）
t = 0.001（约 10% 完全交换）：BoreanGale-70B
t = 0.0025（约 18% 完全交换）：能生成一段还可以的文本，但随后会变成乱码
t = 0.005（约 35% 完全交换）：乱码；半相关的单词列表
t = 0.01（约 55% 完全交换）：乱码；伪随机令牌输出

对于 QuartetAnemoi-70B-t0.0001，三个次要模型分别以 t = 0.0001 进行顺序合并。

NearSwap 实现代码如下：

    t: Union[float, np.ndarray],
    v0: Union[np.ndarray, torch.Tensor],
    v1: Union[np.ndarray, torch.Tensor],
...
    lweight = numpy.absolute(v0-v1)
    lweight = t / lweight
    lweight = numpy.nan_to_num(lweight, nan=1.0, posinf=1.0, neginf=1.0)
    numpy.clip(lweight, a_min=0.0, a_max=1.0, out=lweight)
    res = lerp(lweight,v0,v1)

📄 许可证

由于目前除了推测之外，无法确定 Miqu 的最终来源，因此该模型仅用于非商业研究用途。

📚 详细文档

Open LLM Leaderboard 评估结果

详细结果可查看此处

指标	值
平均值	76.86
AI2 推理挑战（25 次少样本学习）	73.38
HellaSwag（10 次少样本学习）	88.9
MMLU（5 次少样本学习）	75.42
TruthfulQA（0 次少样本学习）	69.53
Winogrande（5 次少样本学习）	85.32
GSM8k（5 次少样本学习）	68.61