Qwen3 8b 192k Context 6X Josiefied Uncensored MLX AWQ 4bit
Qwen3-8B的4位AWQ量化版本,专为MLX库优化,支持19.2万词元长上下文处理,适用于边缘设备部署。
下载量 204
发布时间 : 5/15/2025
模型简介
基于Qwen3-8B的4位量化模型,通过MLX库实现苹果芯片高效推理,保留原模型核心能力的同时降低资源消耗。
模型特点
高效推理
4位量化使内存占用较FP16降低约75%
长上下文支持
19.2万词元处理能力(标准版6倍)
苹果芯片优化
通过MLX库实现M1/M3芯片加速
边缘设备部署
低资源消耗适合本地设备运行
模型能力
长文本生成
对话式交互
文档分析
代码生成
使用案例
研究
长上下文NLP实验
支持超长文本序列的语言建模研究
模型压缩研究
4位量化技术的效果验证
开发
边缘设备聊天机器人
在苹果设备部署本地化对话系统
M3 Ultra实测112.8词元/秒
长文档处理
书籍/论文等长文本分析与摘要生成
企业应用
代码生成
基于长上下文生成完整代码片段
🚀 Qwen3-8B 4位AWQ量化版本
本项目是Qwen3-8B的4位AWQ量化版本,借助MLX库进行了高效推理优化。它专为处理长上下文任务(192k令牌)而设计,能在减少资源使用的同时,保留Qwen3-8B的核心能力,还支持在边缘设备上部署。
🚀 快速开始
安装
# 仅适用于苹果硅芯片设备安装MLX
pip install mlx
# 使用Hugging Face Transformers加载模型
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("Goraint/Qwen3-8b-192k-Context-6X-Josiefied-Uncensored-MLX-AWQ-4bit", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("Goraint/Qwen3-8b-192k-Context-6X-Josiefied-Uncensored-MLX-AWQ-4bit")
示例用法
prompt = "Explain quantum computing in simple terms."
inputs = tokenizer(prompt, return_tensors="pt").to("mps")
outputs = model.generate(**inputs, max_length=200)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
✨ 主要特性
- 高效推理:4位量化与FP16相比,可减少约75%的内存占用。
- 长上下文支持:支持192k令牌,适用于复杂任务,如文档分析、代码生成。
- 跨平台:可在搭载苹果硅芯片的macOS系统上运行,借助MLX实现加速。
- 可定制提示:可调整提示模板,以兼容LM Studio等工具。
📦 安装指南
# 仅适用于苹果硅芯片设备安装MLX
pip install mlx
# 使用Hugging Face Transformers加载模型
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("Goraint/Qwen3-8b-192k-Context-6X-Josiefied-Uncensored-MLX-AWQ-4bit", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("Goraint/Qwen3-8b-192k-Context-6X-Josiefied-Uncensored-MLX-AWQ-4bit")
💻 使用示例
基础用法
prompt = "Explain quantum computing in simple terms."
inputs = tokenizer(prompt, return_tensors="pt").to("mps")
outputs = model.generate(**inputs, max_length=200)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
📚 详细文档
概述
这是一个经过4位AWQ量化的Qwen3-8B版本,通过MLX库进行了高效推理优化,旨在以较低的资源消耗处理长上下文任务(192k令牌)。在保留Qwen3-8B核心能力的同时,支持在边缘设备上部署。
性能指标
指标 | 值 |
---|---|
模型大小 | ~4.38 GB(4位量化) |
推理速度 | 30.58令牌/秒(M1 MAX) 112.80令牌/秒(M3 ULTRA) gguf Q4_K_S:8.14令牌/秒(M1 MAX) |
上下文支持 | 192,000令牌 |
重要提示:LM Studio使用的提示模板
你需要修改提示模板,以确保与LM Studio的推理管道兼容。以下是所需的模板结构:
{%- if tools %}
{{- '\/system\n' }}
{%- if messages[0].role == 'system' %}
{{- messages[0].content + '\n\n' }}
{%- endif %}
{{- "# Tools\n\nYou may call one or more functions to assist with the user query.\n\nYou are provided with function signatures within <tools></tools> XML tags:\n<tools>" }}
{%- for tool in tools %}
{{- "\n" }}
{{- tool | tojson }}
{%- endfor %}
{{- "\n</tools>\n\nFor each function call, return a json object with function name and arguments within <tool_call>...</tool_call> XML tags:\n<tool_call>\n{\"name\": <function-name>, \"arguments\": <args-json-object>}\n</tool_call>\n" }}
{%- else %}
{%- if messages[0].role == 'system' %}
{{- '\/system\n' + messages[0].content + '\/\n' }}
{%- endif %}
{%- endif %}
{%- set ns = namespace(multi_step_tool=true, last_query_index=messages|length - 1) %}
{%- for message in messages[::-1] %}
{%- set index = (messages|length - 1) - loop.index0 %}
{%- set tool_start = "ÔΩü" %}
{%- set tool_start_length = tool_start|length %}
{%- set start_of_message = message.content[:tool_start_length] %}
{%- set tool_end = "ÔΩ†" %}
{%- set tool_end_length = tool_end|length %}
{%- set start_pos = (message.content|length) - tool_end_length %}
{%- if start_pos < 0 %}
{%- set start_pos = 0 %}
{%- endif %}
{%- set end_of_message = message.content[start_pos:] %}
{%- if ns.multi_step_tool and message.role == "user" and not(start_of_message == tool_start and end_of_message == tool_end) %}
{%- set ns.multi_step_tool = false %}
{%- set ns.last_query_index = index %}
{%- endif %}
{%- endfor %}
{%- for message in messages %}
{%- if (message.role == "user") or (message.role == "system" and not loop.first) %}
{{- '\/' + message.role + '\n' + message.content + '\/' + '\n' }}
{%- elif message.role == "assistant" %}
{%- set content = message.content %}
{%- set reasoning_content = '' %}
{%- if message.reasoning_content is defined and message.reasoning_content is not none %}
{%- set reasoning_content = message.reasoning_content %}
{%- else %}
{%- if '\/' in message.content %}
{%- set content = (message.content.split('\/')|last).lstrip('\n') %}
{%- set reasoning_content = (message.content.split('\/')|first).rstrip('\n') %}
{%- set reasoning_content = (reasoning_content.split('')|last).lstrip('\n') %}
{%- endif %}
{%- endif %}
{%- if loop.index0 > ns.last_query_index %}
{%- if loop.last or (not loop.last and reasoning_content) %}
{{- '\/' + message.role + '\n\n' + reasoning_content.strip('\n') + '\n\/\n' + content.lstrip('\n') }}
{%- else %}
{{- '\/' + message.role + '\n' + content }}
{%- endif %}
{%- else %}
{{- '\/' + message.role + '\n' + content }}
{%- endif %}
{%- if message.tool_calls %}
{%- for tool_call in message.tool_calls %}
{%- if (loop.first and content) or (not loop.first) %}
{{- '\n' }}
{%- endif %}
{%- if tool_call.function %}
{%- set tool_call = tool_call.function %}
{%- endif %}
{{- '<tool_call>\n{"name": "' }}
{{- tool_call.name }}
{{- '", "arguments": ' }}
{%- if tool_call.arguments is string %}
{{- tool_call.arguments }}
{%- else %}
{{- tool_call.arguments | tojson }}
{%- endif %}
{{- '}\n</tool_call>' }}
{%- endfor %}
{%- endif %}
{{- '\/\n' }}
{%- elif message.role == "tool" %}
{%- if loop.first or (messages[loop.index0 - 1].role != "tool") %}
{{- '\/user' }}
{%- endif %}
{{- '\nÔΩü\n' }}
{{- message.content }}
{{- '\nÔΩ†' }}
{%- if loop.last or (messages[loop.index0 + 1].role != "tool") %}
{{- '\/\n' }}
{%- endif %}
{%- endif %}
{%- endfor %}
{%- if add_generation_prompt %}
{{- '\/assistant\n' }}
{%- if enable_thinking is defined and enable_thinking is false %}
{{- '
模型详情
属性 | 详情 |
---|---|
基础模型 | Qwen3-8B |
量化方式 | 通过MLX库进行AWQ Q4(4位)量化 |
上下文长度 | 192,000令牌(比标准长6倍) |
库 | MLX(针对苹果硅芯片、macOS优化) |
许可证 | Apache 2.0 |
管道 | text-generation |
标签 | not-for-all-audiences ,conversational ,mlx |
使用场景
- 研究:长上下文NLP实验、模型压缩研究。
- 开发:边缘部署、具有扩展上下文的实时聊天机器人。
- 企业:用于文档处理和代码生成的经济高效的AI解决方案。
偏差、风险与限制
潜在偏差
- 虽然在多样化数据上进行训练,但可能继承社会偏差(如性别、文化假设)。
- “not-for-all-audiences”标签表明可能生成敏感内容。
技术限制
- 4位量化可能会在复杂任务上略微降低准确性。
- 性能取决于硬件(MLX针对苹果硅芯片进行了优化)。
缓解策略
- 审查输出内容,检查是否包含敏感信息。
- 在有监控的受控环境中使用。
环境影响
- 估计二氧化碳排放量:使用ML Impact Calculator计算
- 硬件:Apple M1 Pro(16GB RAM)
- 训练时间:不适用(从预训练模型进行量化)
社区与资源
- 文档:Hugging Face文档
- GitHub问题:报告错误或提出功能请求
- 论坛:Hugging Face讨论区
🔧 技术细节
本模型是Qwen3-8B的4位AWQ量化版本,借助MLX库进行推理优化。4位量化减少了模型的内存占用,使得在资源有限的设备上也能进行高效推理。MLX库针对苹果硅芯片和macOS系统进行了优化,提高了推理速度。同时,模型支持192k的上下文长度,适用于处理长文本任务。
📄 许可证
Apache 2.0
⚠️ 重要提示
此模型是社区贡献,可能未得到阿里云的官方支持。在生产环境中使用时,请始终验证输出的准确性和安全性。
Phi 2 GGUF
其他
Phi-2是微软开发的一个小型但强大的语言模型,具有27亿参数,专注于高效推理和高质量文本生成。
大型语言模型 支持多种语言
P
TheBloke
41.5M
205
Roberta Large
MIT
基于掩码语言建模目标预训练的大型英语语言模型,采用改进的BERT训练方法
大型语言模型 英语
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基础模型的蒸馏版本,在保持相近性能的同时更轻量高效,适用于序列分类、标记分类等自然语言处理任务。
大型语言模型 英语
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一个多语言大语言模型,针对多语言对话用例进行了优化,在常见的行业基准测试中表现优异。
大型语言模型 英语
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基于100种语言的2.5TB过滤CommonCrawl数据预训练的多语言模型,采用掩码语言建模目标进行训练。
大型语言模型 支持多种语言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基于Transformer架构的英语预训练模型,通过掩码语言建模目标在海量文本上训练,支持文本特征提取和下游任务微调
大型语言模型 英语
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI发布的开放预训练Transformer语言模型套件,参数量从1.25亿到1750亿,旨在对标GPT-3系列性能,同时促进大规模语言模型的开放研究。
大型语言模型 英语
O
facebook
6.3M
198
1
基于transformers库的预训练模型,适用于多种NLP任务
大型语言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多语言大语言模型系列,包含8B、70B和405B参数规模,支持8种语言和代码生成,优化了多语言对话场景。
大型语言模型
Transformers 支持多种语言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基础版是由Google开发的文本到文本转换Transformer模型,参数规模2.2亿,支持多语言NLP任务。
大型语言模型 支持多种语言
T
google-t5
5.4M
702
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98