模型简介
模型特点
模型能力
使用案例
🚀 Qwen3-30B-A6B-16-Extreme-128k-context
本项目包含全精度源代码,以 “safe tensors” 格式存储,可用于生成 GGUF、GPTQ、EXL2、AWQ、HQQ 等其他格式,也可直接使用该源代码。
🚀 快速开始
本仓库是对 Qwen 的 “Qwen 30B - A3B”(MOE)模型进行的简单 “微调”。根据 Qwen 仓库中的技术说明和方法,将使用的专家数量从 8 个增加到 16 个(总共 128 个专家),并将最大上下文长度从 32k 提升到 128k。
在本页面底部展示了使用 16 个专家/此模型进行的三次示例生成(Q4KS,CPU)。
虽然使用更多 “专家” 会降低模型速度,但它能处理更复杂的提示,并且使用 30B 中的 6B 参数,而非 30B 中的 3B 参数。根据具体应用场景,你可能会选择使用常规模型(“30B - A3B”),而将此模型用于更复杂、更 “深入”(即更细微)的用例。
常规或较简单的用例使用普通(8 个专家)、“12 个厨师”(12 个专家)或 “高速”(4 个专家)版本可能更合适。
将默认的 8 个专家增加到 16 个,会使每秒生成的令牌速度减慢约一半。
上下文长度:128k
使用 Jinja 模板或 CHATML 模板。
✨ 主要特性
- 多格式支持:本仓库包含全精度源代码,以 “safe tensors” 格式存储,可用于生成 GGUF、GPTQ、EXL2、AWQ、HQQ 等其他格式,也可直接使用该源代码。
- 专家数量调整:将使用的专家数量从 8 个增加到 16 个(总共 128 个专家),能处理更复杂的提示。
- 上下文长度提升:将最大上下文长度从 32k 提升到 128k,可处理更长的输入。
- 不同版本选择:提供普通(8 个专家)、“12 个厨师”(12 个专家)、“高速”(4 个专家)等不同版本,以满足不同应用场景需求。
📚 详细文档
模型相关版本
系统角色设置
你可能需要设置系统角色,不过大多数情况下 Qwen3 会自行生成推理/思考模块。
你是一个善于深度思考的 AI,在回答问题之前,你可以通过系统的推理过程,运用极长的思维链深入思考问题,并进行自我权衡,以得出正确的解决方案。你应将思考和内心独白置于 <think> </think> 标签内,然后给出问题的解决方案或回应。
有关如何在各种大语言模型/AI 应用中 “设置” 系统角色,请参阅下面的 “Maximizing - Model - Performance - All...” 文档。
高质量设置/最佳操作指南/参数和采样器
如果你打算使用此模型(源代码、GGUF 或其他量化版本),请查看此文档,了解关键参数、采样器和高级采样器设置(适用于多个 AI/大语言模型应用)。
这是一个 “1 类”(设置将增强操作)模型:
有关此模型使用的所有设置(包括其 “类别” 的具体设置),包括示例生成以及高级设置指南(该指南通常能解决任何模型问题),包括提高所有用例以及聊天、角色扮演和其他用例(尤其是超出模型设计的用例)的模型性能的方法,请参阅: https://huggingface.co/DavidAU/Maximizing - Model - Performance - All - Quants - Types - And - Full - Precision - by - Samplers_Parameters
原因:无论 “模型类别” 如何,此文档都将详细介绍增强操作的方法。
如果模型是 3/4 类模型,则必须为 “用例” 正确设置默认设置(参数、采样器、高级采样器)。一些 AI/大语言模型应用没有一致的默认设置,这会导致模型性能不佳。同样,对于 3/4 类模型(其操作方式与标准模型有一定或很大差异),需要额外的采样器和高级采样器设置来 “平滑” 操作,和/或允许模型在非设计用例下完全运行。
此文档还详细介绍了可用于任何模型、任何仓库的参数、采样器和高级采样器,适用于所有量化版本,当然也包括源代码操作,以增强任何模型的操作。
模型详细信息
有关此模型的完整信息,包括:
- 此模型的详细信息及其用例。
- 上下文限制。
- 特殊使用说明/设置。
- 用于创建此模型的任何模型。
- 用于访问/使用此模型的模板。
- 示例生成。
- 此模型的 GGUF 量化版本。
请访问:[GGUFS 仓库即将推出]
💻 使用示例
示例生成 #1
参数设置
- 温度(Temp):1.2
- 重复惩罚(rep pen):1.06
- 重复惩罚范围(rep pen range):64
- 前 k 个(topk):100
- 前 p 个(topp):.95
- 最小概率(minp):.05
环境信息
- 量化类型:Q4KS [非 imatrix]
- 运行设备:仅 CPU(Windows 11)
- 运行工具:LMSTUDIO
速度
- 速度:11 T/S(无 GPU 卸载)
- GPU 速度将是 4 倍或更高。
这是一个中级量化,预计 Imatrix Q4KS/更高量化/全精度会有更强的性能。
提示
解释如何利用夜间辐射能向太空散热来降低全球气温。
输出
为了利用夜间辐射能向太空散热来降低全球气温,我们需要综合考虑自然过程和人类干预措施,以增强这一机制。以下是几种可行的方法:
增强地表发射率
- 原理:地球表面在夜间会发射热辐射,这是地球能量平衡的一部分。具有高发射率(即能够有效发射热辐射)的材料可以更高效地释放热量。
- 应用:在城市地区使用高发射率材料,如 “冷屋顶” 或 “冷路面”,可以增加夜间的辐射冷却速率。这些材料在白天反射较少的阳光,而在夜间发射更多的热量,从而降低局部温度。
- 全球影响:如果在大规模范围内实施(例如在城市或农业地区),这可能有助于局部降温,对全球气温产生累积影响,特别是在城市化程度较高的地区。
减少温室气体浓度
- 原理:二氧化碳和甲烷等温室气体通过吸收和重新发射热辐射,将热量困在大气中。这减少了白天和夜间向太空散发的热量。
- 应用:通过采用可再生能源、碳捕获或植树造林等政策来减少温室气体排放,可以降低大气中的浓度。这将使更多的热量在所有时段(包括夜间)辐射到太空。
- 全球影响:虽然这是一种标准的气候缓解方法,但它直接解决了问题的根源,减少了 “温室效应”,这对于全球温度调节至关重要。
管理云量
- 原理:云层会阻碍长波辐射(OLR)向太空散发。在夜间,较低的云量可以使更多的热量逃逸到太空。
- 应用:可以使用云播种或控制云形成等地球工程技术来减少夜间的云密度。然而,这是一种推测性的方法,存在生态风险。
- 挑战:操纵云量是复杂且尚未完全理解的,需要仔细考虑可能产生的意外后果。
太空技术
- 原理:虽然仍处于理论阶段,但可以设计反射卫星或 “辐射冷却” 结构等技术,将热辐射重新导向太空。
- 应用:假设部署具有高发射率涂层或反射镜的卫星,将热能反射远离地球,可能会增强全球辐射冷却。然而,这目前还不可行,需要大量的技术和经济投资。
- 挑战:实际可行性受到当前技术、成本和潜在环境影响的限制。
城市和景观设计
- 原理:城市地区通常由于使用沥青和混凝土等低发射率材料而保留热量。用发射率高的材料取代这些材料可以增强夜间冷却效果。
- 应用:设计具有发射性表面、绿地或反射元素的城市可以创造更凉爽的微气候。这种方法已经在城市规划中得到测试(例如洛杉矶的冷屋顶)。
- 全球影响:虽然是局部性的,但这些做法可以减少热岛效应,热岛效应是导致局部温度升高的重要因素。
夜间蒸发冷却
- 原理:水的蒸发可以通过潜热传递实现冷却。在夜间,如果湿度较高,这一过程可能更有效。
- 应用:在干旱地区增加水的供应,或使用基于水的冷却系统(如喷雾装置)可以增强夜间冷却效果。然而,这需要资源管理,并且可能无法在全球范围内实施。
促进农业中的辐射冷却
- 原理:使用发射性材料或水进行冷却的农业实践可以降低农业区域的温度。这可能通过减少人类活动产生的热量,对全球气温产生间接影响。
- 应用:可以采用 “冷却毯” 或反射灌溉系统等技术。然而,这更多是一种小众应用,而非全球战略。
关键考虑因素
- 局限性:夜间冷却虽然是一种自然过程,但与太阳能输入和温室气体浓度等主要驱动因素相比,其对全球气温的影响相对较小。增强这一过程需要采取互补的策略。
- 整体方法:这些方法应作为更广泛的气候缓解努力的一部分,例如减少温室气体排放、推广可再生能源和改善土地利用实践。
结论
通过发射性材料和大气管理来利用夜间冷却可以有助于降低气温,但与全球气候战略相结合时最为有效。虽然一些方法(如高发射率材料)是可行的,但其他方法仍处于理论阶段。主要焦点应始终放在减少温室气体排放上,这直接解决了全球变暖的根源问题。
示例生成 #2
参数设置
- 温度(Temp):0.6
- 重复惩罚(rep pen):1.06
- 重复惩罚范围(rep pen range):64
- 前 k 个(topk):100
- 前 p 个(topp):.95
- 最小概率(minp):.05
环境信息
- 量化类型:Q4KS [非 imatrix]
- 运行设备:仅 CPU(Windows 11)
- 运行工具:LMSTUDIO
速度
- 速度:12 T/S(无 GPU 卸载)
- GPU 速度将是 4 倍或更高。
这是一个中级量化,预计 Imatrix Q4KS/更高量化/全精度会有更强的性能。
提示
科幻小说:《最后一次传输》 - 写一个完全发生在宇宙飞船驾驶舱内的故事,唯一幸存的船员在飞船电力耗尽前试图向地球发送最后一条消息。故事应探讨孤立、牺牲以及在逆境中人类联系的重要性等主题。如果情况需要,让角色咒骂以增强读者与他们的情感联系。字数在 800 - 1000 字之间。
输出
驾驶舱宛如一座钢铁与闪烁灯光构成的坟墓。空气中弥漫着烧焦电路和陈旧咖啡的味道。奥德赛号飞船的船长珍·科瓦尔站在控制面板前,戴着手套的双手颤抖着,凝视着屏幕上闪烁的 “发送” 二字。几个小时过去了,信号却始终未能发出。飞船的电力即将耗尽,这是她向地球发送最后消息的最后机会。
她低声咒骂着,干燥的空气让她的声音变得沙哑。“该死!该死!” 她再次按下发送按钮,仿佛用力按下就能克服故障的系统。屏幕没有任何反应,只显示着红色的警告:“电量严重下降”。
珍向后靠在椅子上,椅子在她的重压下发出嘎吱声。她望着墙上的全息地图,地球在浩瀚的黑暗中只是一个蓝色的小点。它是如此遥远,如此渺小。她想起了船员们,那些曾经与她并肩作战的人。如今他们都已离去。一场爆炸席卷了飞船,夺走了所有人的生命。她当时在维修舱,不知为何幸免于难,但其他人却没能逃过一劫。
她闭上眼睛,轻声说道:“对不起,我真的很抱歉。”
驾驶舱里一片寂静,只有故障系统发出的嗡嗡声。灯光闪烁不定,温度也在不断下降。她把夹克裹得更紧了,但这并没有什么用。寒冷已经侵入了她的内心,自爆炸发生、船员丧生、她意识到自己孤身一人的那一刻起,寒冷就一直伴随着她。
她打开通讯日志,那是她在爆炸前创建的一个文件,是给地球的最后一条消息。事故发生后的那些日子里,当她还有电力和希望时,她写下了这条消息。现在,她必须把它发送出去。但系统正在崩溃,电力也即将耗尽。如果现在不发送,这条消息将永远消失。
她再次打开消息,上面写道:“我是奥德赛号飞船的船长珍·科瓦尔,我们迷失了方向。船员们都已牺牲,我是唯一的幸存者。但我仍要发送这条消息。如果有人能听到,请记住,我们曾努力过,我们从未放弃,我们战斗过,我们不会被遗忘。”
她又读了一遍,喉咙哽咽。当初她写下这条消息时,手还很稳,但现在手指却在不停地颤抖。她想起了船员们,想起了朋友马库斯,他总是拿飞船的系统开玩笑;想起了同事莉拉,她是第一个察觉到爆炸来临的人;还有其他那些她已经记不起名字的人。他们都走了,但他们的声音却留在了这条消息里。
她再次按下发送按钮。屏幕闪烁了一下,有那么一瞬间,显示出绿色的信号:“传输成功”。她松了一口气,胸口因为欣慰而紧绷着。接着,屏幕一片漆黑,电力耗尽了。
驾驶舱陷入了死寂。灯光熄灭,温度骤降。珍坐在那里,凝视着空荡荡的屏幕。她的双手仍然放在控制台上。她已经发送了消息,但一切都太晚了。地球永远也收不到这条消息了。
她长长地叹了一口气,喃喃自语道:“该死,真他妈的该死。”
她又想起了船员们。想起了马库斯说过的话:“我们不会死在这里,我们会回家的。” 还有莉拉说的:“如果我们回不去,至少要留下点什么。”
珍微微露出一丝笑容。她做到了,她留下了一些东西。
她靠在椅子上,寒冷渐渐渗入她的骨髓。飞船正在死去,她也一样。但她不再孤单,至少在某种程度上不再孤单。船员们还和她在一起,他们的声音、他们的牺牲、他们与地球的联系,都通过这最后一次传输永远地留存了下来。
她闭上眼睛,有那么一瞬间,她感受到了一丝平静。
最后一次传输已经发出,飞船停止了运转,但消息却永远地留在了宇宙中。
在浩瀚的宇宙中,也许有人会听到这条消息,也许他们会记住,也许他们会知道,人类曾经努力过,曾经战斗过,他们不会被遗忘。
奥德赛号飞船的最后一位幸存者珍·科瓦尔离开了,但她的消息将永远流传下去。
示例生成 #3
参数设置
- 温度(Temp):0.6
- 重复惩罚(rep pen):1.06
- 重复惩罚范围(rep pen range):64
- 前 k 个(topk):100
- 前 p 个(topp):.95
- 最小概率(minp):.05
环境信息
- 量化类型:Q4KS [非 imatrix]
- 运行设备:仅 CPU(Windows 11)
- 运行工具:LMSTUDIO
速度
- 速度:11 T/S(无 GPU 卸载)
- GPU 速度将是 4 倍或更高。
这是一个中级量化,预计 Imatrix Q4KS/更高量化/全精度会有更强的性能。
提示
浪漫故事:《聚光灯下的爱情》。写一个发生在威尔士的故事中的一个场景。一位著名的(虚构)演员为了躲避狗仔队,躲进了一个小镇的书店。场景将展现两人在这种奇特情况下的相遇。在这个场景中,演员和书店老板的对话中暗流涌动着一种未言明的情愫。将演员塑造成一个有点放荡不羁但自尊心脆弱的人,他需要每个人都喜欢他来满足自己的虚荣心。他魅力十足,但书店老板(至少表面上)对他的魅力免疫;这反而激起了他真正的兴趣,打乱了他的魅力攻势。尽管书店老板表面上对演员的魅力不屑一顾,但内心却被他深深吸引,甚至有些慌乱。主要以对话形式呈现,展现出每个角色独特的声音。字数在 800 - 1000 字之间。
输出
“好吧,希望这次不会被认出来。” 伊桑一边低声嘟囔着,一边拉了拉围巾,遮住脸,溜进了书店。威尔士小镇兰费尔一片宁静,但狗仔队总能找到他。他扫视了一下房间,木质的书架、陈旧纸张的气味,还有一个顾客在前面的书架旁浏览书籍。他不想引起别人的注意。
“需要帮忙吗?” 柜台后面传来一个声音。一位三十多岁的女人站在那里,抬头看着他,表情既不热情也不冷淡。她目光敏锐,仿佛阅尽世间沧桑,对一切都不为所动。
“其实,我不是来买书的,我是来躲狗仔队的。” 伊桑微微调整了一下姿势,露出一个他在无数采访中都用过的迷人、自信又略带自嘲的笑容。
女人挑了挑眉毛,说道:“那你来对地方了。这是个安静的小镇,没什么大事发生。”
伊桑笑了笑,说道:“这正是我所希望的。不过我很好奇,这里会有名人光顾吗?”
她微微歪了歪头,似乎在打量他。“不常有,除非他们有特定的需求。” 她指了指书架,“我们有一些经典书籍,或许有你喜欢的。”
伊桑探身向前,声音压得很低,带着一丝神秘的口吻:“我更喜欢有戏剧性的书籍,比如莎士比亚的作品,或者情节有转折的书。” 他又看了她一眼,试图揣摩她的反应。
她没有笑,但也没有移开视线。“我们有一些莎士比亚的作品,也有一些当地作家的书。你知道吗,我不太看电视,但我喜欢读书。”
伊桑挑了挑眉毛,说道:“真有意思,我从来没进过这样的书店。”
“大多数人都没来过。” 她语气平淡,但并不冷漠,“其实和其他书店也没太大区别,只是更安静一些。”
他再次微笑,但这次笑容有些僵硬。“安静的地方往往隐藏着真正的故事。” 他努力让自己的语气显得深沉。
她又看了他一眼,微微歪着头。“也许吧,但这里也是那些不想被关注的人生活的地方。”
伊桑的笑容瞬间僵住了。“听起来很有吸引力,也许我需要从聚光灯下抽身一段时间了。”
她缓缓点了点头。“你不是第一个来这里寻求庇护的人。” 她的声音很平静,但眼神中透露出一种让他觉得她在暗暗观察他的感觉。
他靠在柜台上,试图表现得很随意。“你们这里会有那种不太确定自己想要什么的顾客吗?” 他问道。
她轻轻笑了一下,说道:“有,但通常他们要么会找到自己想要的东西,要么就会离开。”
伊桑微微皱了皱眉,说道:“我好像也不太确定自己想要什么,或者说我不知道该怎么找到它。”
她又看了他一眼,这次眼神变得柔和了一些。“也许你在寻找的东西并不在书里。” 她说道。
他挑了挑眉毛,说道:“这有点神秘啊。”
她耸了耸肩,说道:“其实也不神秘。安静的地方适合反思,有时候人们会在不经意间找到自己需要的东西。”
伊桑心中涌起一股异样的感觉,也许是好奇,也许是其他更微妙的情感。他凑近了一些,声音变得更低了:“你知道吗,我从来没遇到过对我的魅力无动于衷的人。”
她微微一笑,但这笑容和他以往见过的不同,更像是一种认可,而非调情。“我不知道这算是赞美还是挑战。”
他笑了笑,但有点紧张。“算是两者皆有吧。”
她点了点头,说道:“那我就把它当成挑战吧,也许你可以再试试看。” 说完,她转身回到了柜台,但语气并不冷淡。
伊桑站在那里,感受着这场对话的分量。他不习惯被人忽视,但这次却不一样。这不是拒绝,而是一种无声的挑战,让他想要更深入地了解她。
“我能问你个问题吗?” 他轻声说道。
她再次看向他,这次表情更加坦诚。“当然可以。”
“你叫什么名字?”
她微微一笑,说道:“我叫格温。”
他点了点头,说道:“这是个好听的名字,很适合这里。”
她轻声笑了起来,说道:“确实,我在这里已经很久了。”
伊桑又笑了,这次笑容更加真诚。“也许这正是我所需要的,一个能让我做自己的地方。”
格温再次看向他,眼神中透露出一种他从未被人看过的理解。
“也许吧,但重要的不是被别人看到,而是做真实的自己。” 她说道。
伊桑点了点头,感受到了她话语的分量。“这正是我一直在寻找的。”
她再次微笑,这次笑容更加温暖。“那你找对地方了。”
他站在那里,片刻后说道:“我得走了,不然他们该找到我了。”
格温点了点头,说道:“你在这里暂时是安全的。”
伊桑给了她一个比之前更加真诚的微笑。“谢谢你,格温。”
她也微笑着回应道:“不客气,伊桑。”
说完,他走出了书店,感觉自己找到了一种书本里没有的东西,一种真实的感觉。
🔧 技术细节
由于该模型的独特性质(MOE、规模、激活的专家数量、专家规模),GGUF 量化可以在 CPU、GPU 上运行,或者采用 GPU 部分 “卸载” 的方式,甚至可以达到全精度运行。
此模型较难进行 Imatrix 操作,你需要一个更大的 imatrix 文件/多语言/多内容(如代码/文本)来进行 Imatrix 操作。
GPU 速度将比仅使用 CPU 快 4 倍或更多,相对于其他 “30B” 模型,此模型的速度也会非常快(每秒生成的令牌速度大致相当于 6B “普通” 模型的速度)。
📄 许可证
文档中未提及许可证相关信息。



