Qwen3-0.6B-llamafile开源大语言模型 - 多语言支持，推理指令遵循超出色

首页

Qwen3 0.6B Llamafile

由 Mozilla 开发

Qwen3是Qwen系列最新一代的大语言模型，提供0.6B参数的密集模型，在推理、指令遵循、代理能力和多语言支持方面有突破性进展。

大型语言模型开源协议:Apache-2.0 #多语言推理 #思考模式切换 #高效代理能力

下载量 250

发布时间 : 5/14/2025

模型简介

Qwen3-0.6B是一个0.6B参数的因果语言模型，支持思考和非思考模式切换，擅长逻辑推理、数学计算和代码生成，支持100多种语言。

模型特点

思考模式切换

支持在思考模式(用于复杂推理)和非思考模式(用于高效对话)之间无缝切换

增强推理能力

在数学、代码生成和常识逻辑推理方面表现优异

多语言支持

支持100多种语言的指令遵循和翻译

代理能力

能够精确集成外部工具，在复杂代理任务中表现领先

模型能力

文本生成

逻辑推理

数学计算

代码生成

多语言翻译

工具调用

使用案例

教育

数学问题解答

解答复杂的数学问题和证明题

能够逐步推理并给出详细解答

编程

代码生成

根据自然语言描述生成代码

能够生成可运行的代码片段

商业

多语言客服

提供多语言的客户服务对话

支持100多种语言的流畅对话

🚀 Qwen 3 0.6B - llamafile

Mozilla将Qwen 3模型打包成可执行权重，即llamafile，为Linux、MacOS、Windows等系统提供便捷的模型使用方式。

🚀 快速开始

要开始使用，你需要Qwen 3的权重和llamafile软件。这两者都包含在一个文件中，可以按以下步骤下载并运行：

wget https://huggingface.co/Mozilla/Qwen3-0.6B-llamafile/resolve/main/Qwen_Qwen3-0.6B-Q4_K_M.llamafile
chmod +x Qwen_Qwen3-0.6B-Q4_K_M.llamafile
./Qwen_Qwen3-0.6B-Q4_K_M.llamafile

这些llamafile的默认操作模式是我们新的命令行聊天机器人界面。

✨ 主要特性

多系统支持：可在Linux、MacOS、Windows、FreeBSD、OpenBSD和NetBSD系统（AMD64和ARM64架构）上运行。
多种使用模式：提供命令行聊天机器人界面、Web GUI和高级CLI模式。
上下文窗口灵活：模型最大上下文窗口大小为128k令牌，默认使用8192令牌，可通过参数调整。
GPU加速：在有足够RAM的GPU上，可通过参数使用NVIDIA或AMD GPU加速。

📦 安装指南

下载并运行llamafile

wget https://huggingface.co/Mozilla/Qwen3-0.6B-llamafile/resolve/main/Qwen_Qwen3-0.6B-Q4_K_M.llamafile
chmod +x Qwen_Qwen3-0.6B-Q4_K_M.llamafile
./Qwen_Qwen3-0.6B-Q4_K_M.llamafile

Linux系统避免运行检测错误

安装APE解释器：

sudo wget -O /usr/bin/ape https://cosmo.zip/pub/cosmos/bin/ape-$(uname -m).elf
sudo chmod +x /usr/bin/ape
sudo sh -c "echo ':APE:M::MZqFpD::/usr/bin/ape:' >/proc/sys/fs/binfmt_misc/register"
sudo sh -c "echo ':APE-jart:M::jartsr::/usr/bin/ape:' >/proc/sys/fs/binfmt_misc/register"

💻 使用示例

基础用法

命令行聊天机器人界面

./Qwen_Qwen3-0.6B-Q4_K_M.llamafile

Web GUI模式

./Qwen_Qwen3-0.6B-Q4_K_M.llamafile --server

高级CLI模式

./Qwen_Qwen3-0.6B-Q4_K_M.llamafile --cli -p 'four score and seven' --log-disable

高级用法

切换上下文窗口大小

./Qwen_Qwen3-0.6B-Q4_K_M.llamafile -c 0

使用GPU加速

./Qwen_Qwen3-0.6B-Q4_K_M.llamafile -ngl 999

📚 详细文档

使用说明

多行提问：可以使用三引号进行多行提问。
查看运行状态信息：可以传递/stats和/context等命令查看运行时状态信息。
更改系统提示：可以通过传递-p "new system prompt"标志更改系统提示。
中断模型：按CTRL-C中断模型。
退出：按CTRL-D退出。

上下文窗口

该模型的最大上下文窗口大小为128k令牌，默认使用8192令牌的上下文窗口大小。可以通过传递-c 0标志让llamafile使用最大上下文大小。如果想与书籍进行对话，可以使用-f book.txt标志。

GPU加速

在有足够RAM的GPU上，可以传递-ngl 999标志使用系统的NVIDIA或AMD GPU。在Windows上，如果拥有NVIDIA GPU，只需安装显卡驱动；如果拥有AMD GPU，首次运行llamafile时应安装ROCm SDK v6.1，然后传递--recompile --gpu amd标志。在NVIDIA GPU上，默认使用预构建的tinyBLAS库进行矩阵乘法。如果系统上安装了CUDA SDK，可以传递--recompile标志为系统构建一个使用cuBLAS的GGML CUDA库，以确保获得最佳性能。

🔧 技术细节

模型信息

属性	详情
模型类型	因果语言模型
训练阶段	预训练和后训练
参数数量	0.6B
非嵌入参数数量	0.44B
层数	28
注意力头数量（GQA）	Q为16，KV为8
上下文长度	32,768

代码示例

使用`transformers`库进行文本生成

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen3-0.6B"

# 加载分词器和模型
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)

# 准备模型输入
prompt = "Give me a short introduction to large language model."
messages = [
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=True # 在思考和非思考模式之间切换。默认值为True。
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

# 进行文本补全
generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=32768
)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist() 

# 解析思考内容
try:
    # rindex查找151668 (</think>)
    index = len(output_ids) - output_ids[::-1].index(151668)
except ValueError:
    index = 0

thinking_content = tokenizer.decode(output_ids[:index], skip_special_tokens=True).strip("\n")
content = tokenizer.decode(output_ids[index:], skip_special_tokens=True).strip("\n")

print("thinking content:", thinking_content)
print("content:", content)

使用`SGLang`或`vLLM`创建OpenAI兼容的API端点

SGLang:

python -m sglang.launch_server --model-path Qwen/Qwen3-0.6B --reasoning-parser qwen3

vLLM:

vllm serve Qwen/Qwen3-0.6B --enable-reasoning --reasoning-parser deepseek_r1

思维模式和非思维模式切换

# 启用思维模式
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=True
)

# 禁用思维模式
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=False
)

高级用法：通过用户输入在思维模式和非思维模式之间切换

from transformers import AutoModelForCausalLM, AutoTokenizer

class QwenChatbot:
    def __init__(self, model_name="Qwen/Qwen3-0.6B"):
        self.tokenizer = AutoTokenizer.from_pretrained(model_name)
        self.model = AutoModelForCausalLM.from_pretrained(model_name)
        self.history = []

    def generate_response(self, user_input):
        messages = self.history + [{"role": "user", "content": user_input}]

        text = self.tokenizer.apply_chat_template(
            messages,
            tokenize=False,
            add_generation_prompt=True
        )

        inputs = self.tokenizer(text, return_tensors="pt")
        response_ids = self.model.generate(**inputs, max_new_tokens=32768)[0][len(inputs.input_ids[0]):].tolist()
        response = self.tokenizer.decode(response_ids, skip_special_tokens=True)

        # 更新历史记录
        self.history.append({"role": "user", "content": user_input})
        self.history.append({"role": "assistant", "content": response})

        return response

# 示例用法
if __name__ == "__main__":
    chatbot = QwenChatbot()

    # 第一次输入（无/think或/no_think标签，默认启用思维模式）
    user_input_1 = "How many r's in strawberries?"
    print(f"User: {user_input_1}")
    response_1 = chatbot.generate_response(user_input_1)
    print(f"Bot: {response_1}")
    print("----------------------")

    # 第二次输入带有/no_think
    user_input_2 = "Then, how many r's in blueberries? /no_think"
    print(f"User: {user_input_2}")
    response_2 = chatbot.generate_response(user_input_2)
    print(f"Bot: {response_2}") 
    print("----------------------")

    # 第三次输入带有/think
    user_input_3 = "Really? /think"
    print(f"User: {user_input_3}")
    response_3 = chatbot.generate_response(user_input_3)
    print(f"Bot: {response_3}")

代理使用

from qwen_agent.agents import Assistant

# 定义大语言模型
llm_cfg = {
    'model': 'Qwen3-0.6B',

    # 使用阿里云模型工作室提供的端点：
    # 'model_type': 'qwen_dashscope',
    # 'api_key': os.getenv('DASHSCOPE_API_KEY'),

    # 使用与OpenAI API兼容的自定义端点：
    'model_server': 'http://localhost:8000/v1',  # api_base
    'api_key': 'EMPTY',

    # 其他参数：
    # 'generate_cfg': {
    #         # 添加：当响应内容为 `<think>this is the thought</think>this is the answer;
    #         # 不添加：当响应已被reasoning_content和content分隔时。
    #         'thought_in_content': True,
    #     },
}

# 定义工具
tools = [
    {'mcpServers': {  # 可以指定MCP配置文件
            'time': {
                'command': 'uvx',
                'args': ['mcp-server-time', '--local-timezone=Asia/Shanghai']
            },
            "fetch": {
                "command": "uvx",
                "args": ["mcp-server-fetch"]
            }
        }
    },
  'code_interpreter',  # 内置工具
]

# 定义代理
bot = Assistant(llm=llm_cfg, function_list=tools)

# 流式生成
messages = [{'role': 'user', 'content': 'https://qwenlm.github.io/blog/ Introduce the latest developments of Qwen'}]
for responses in bot.run(messages=messages):
    pass
print(responses)

📄 许可证

本项目采用Apache-2.0许可证，详情请见LICENSE。

引用

如果您觉得我们的工作有帮助，请引用：

@misc{qwen3,
    title  = {Qwen3},
    url    = {https://qwenlm.github.io/blog/qwen3/},
    author = {Qwen Team},
    month  = {April},
    year   = {2025}
}

最佳实践

⚠️ 重要提示

如果遇到严重的无限重复问题，请参考最佳实践部分获取最佳采样参数，并将presence_penalty设置为1.5。

💡 使用建议

为了获得最佳性能，建议进行以下设置：

采样参数：

思维模式（enable_thinking=True）：使用Temperature=0.6，TopP=0.95，TopK=20和MinP=0。请勿使用贪婪解码，因为这可能导致性能下降和无限重复。

非思维模式（enable_thinking=False）：建议使用Temperature=0.7，TopP=0.8，TopK=20和MinP=0。

对于支持的框架，可以在0到2之间调整presence_penalty参数以减少无限重复。但是，使用较高的值可能偶尔会导致语言混合和模型性能略有下降。

足够的输出长度：对于大多数查询，建议使用32,768令牌的输出长度。对于高度复杂问题的基准测试，例如数学和编程竞赛中的问题，建议将最大输出长度设置为38,912令牌，以为模型提供足够的空间生成详细和全面的响应，从而提高其整体性能。

标准化输出格式：在进行基准测试时，建议使用提示来标准化模型输出。

数学问题：在提示中包含“请逐步推理，并将最终答案放在\boxed{}中”。

多项选择题：在提示中添加以下JSON结构以标准化响应：“请在answer字段中仅使用选项字母显示您的选择，例如"answer": "C"”。

历史记录中不包含思维内容：在多轮对话中，历史模型输出应仅包含最终输出部分，不需要包含思维内容。这在Jinja2提供的聊天模板中已经实现。但是，对于不直接使用Jinja2聊天模板的框架，开发人员需要确保遵循最佳实践。