Qwen2.5-3B-YiLin-GGUF-q4_k_m開源模型 - 支持中英，擅思維鏈控制與工具調用

首頁

Qwen2.5 3B YiLin GGUF Q4 K M

由likewendy開發

基於Qwen2.5-3B-Instruct優化的4位量化模型，支持中文和英文，具備思維鏈控制和工具調用能力。

大型語言模型支持多種語言開源協議:Gpl-3.0 #思維鏈控制 #具身智能交互 #動態工具調用

下載量 171

發布時間 : 4/8/2025

模型概述

本模型通過QLoRA技術在開源數據集上訓練，實現了思維鏈機制遷移和系統提示控制功能，支持8192上下文長度。

模型特點

動態4位量化

採用QLoRA技術進行高效量化，降低硬件需求

可控思維鏈

通過系統提示控制思維鏈生成過程，實現推理過程可視化

工具調用集成

在思維鏈中無縫集成工具調用功能，支持即時外部交互

長上下文支持

支持8192 tokens的上下文長度，適合複雜推理任務

模型能力

文本生成

思維鏈推理

工具調用

交互式信息補充

藝術性文章創作

使用案例

智能助手

增強型問答系統

通過思維鏈機制提供更透明的推理過程

提高答案可信度和用戶信任度

教育應用

解題步驟生成

展示數學或邏輯問題的完整解決過程

幫助學生理解問題解決思路

🚀 Qwen2.5-3B-YiLin-GGUF-q4_k_m

該模型基於Qwen2.5-3B-Instruct進行動態4位量化，通過QLoRA在兩個開源數據集和一個合成數據集上訓練3個週期，最大上下文長度達8192。它成功將類似DeepSeek - r1的思維鏈遷移到Qwen2.5 - 3B - Instruct，實現“使用系統提示控制思維鏈”，讓模型更靈活生成思維鏈，在思考時與外界交互調用工具，達成“具身智能”，解決了模型輸出思考過程時遇查詢資料或用戶補充問題無法與外界交互、推理性能受限的問題。

🚀 快速開始

推理

使用ollama部署：儘可能使用16位GGUF文件，若硬件難以運行，可使用Q4_K_M。使用Q4_K_M時，可嘗試這樣的user prompt：

這裡是你的提示詞\n<think>

使用VLLM運行：可直接使用vllm運行此模型，只需傳入likewendy/Qwen2.5-3B-YiLin-GGUF-q4_k_m。
使用代碼進行常規推理

from unsloth import FastLanguageModel

model, tokenizer = FastLanguageModel.from_pretrained(
  model_name="likewendy/Qwen2.5-3B-YiLin-GGUF-q4_k_m",
  max_seq_length=8192,
  dtype=None,
  load_in_4bit=Flase,
)

from unsloth.chat_templates import get_chat_template

# 獲取 Qwen-2.5 的聊天模板，並應用到分詞器
tokenizer = get_chat_template(
  tokenizer,
  chat_template="qwen-2.5",
)

FastLanguageModel.for_inference(model)  # 啟用原生 2 倍速推理

# 定義消息列表，包含用戶角色和內容
messages = [
    {"role": "system", "content": "如果需要搜索網頁，你需要在</think>標籤之前，輸出這樣格式的文本來調用工具搜索網頁：{'search':'此處為需要搜索的關鍵詞'}"},
    {"role": "user", "content": "給我鄧文怡的最新歌曲"},
]

inputs = tokenizer.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=True,
    return_tensors="pt",
).to("cuda")

from transformers import TextStreamer
text_streamer = TextStreamer(tokenizer, skip_prompt=True)
# 使用模型生成輸出
_ = model.generate(
    input_ids=inputs,
    streamer=text_streamer,
    max_new_tokens=8192,
    use_cache=True,
    temperature=0.7,
    top_p=0.7,
)

使用代碼實現“使用系統提示控制思維鏈”讓用戶補充問題的完整demo

from unsloth import FastLanguageModel

model, tokenizer = FastLanguageModel.from_pretrained(
  model_name="likewendy/Qwen2.5-3B-YiLin-GGUF-q4_k_m",
  max_seq_length=8192,
  dtype=None,
  load_in_4bit=Flase,
)

from unsloth.chat_templates import get_chat_template

# 獲取 Qwen-2.5 的聊天模板，並應用到分詞器
tokenizer = get_chat_template(
  tokenizer,
  chat_template="qwen-2.5",
)

FastLanguageModel.for_inference(model)  # 啟用原生 2 倍速推理

import json
from transformers import TextStreamer, StoppingCriteria, StoppingCriteriaList

should_stop_ok = False

class CustomStreamer(TextStreamer):
    def __init__(self, tokenizer, **kwargs):
        super().__init__(tokenizer, **kwargs)
        self.should_stop = False
        self.issue_content = None
        self.buffer = ""
        self.output_text = ""

    def put(self, value):
        # 即時輸出到控制檯（父類方法）
        # 如果您只想解碼新增的最後一個 token，也可以只 decode 最後一個
        super().put(value)
        
        # 如果 value 是張量，先把它移到 CPU 並轉換成列表
        # 如果已經是列表，可以根據實際情況判斷是否需要做類似的操作
        if hasattr(value, "cpu"):
            value = value.cpu()
        if hasattr(value, "numpy"):
            value = value.numpy().tolist()
        elif hasattr(value, "tolist"):
            value = value.tolist()
    
        # 如果是批量大小=1，則取出第一行
        # 這裡假設傳入的 value 是二維 [batch_size, sequence_length] 結構
        # 如果 batch_size 不是 1，需酌情修改
        if isinstance(value[0], list):
            value = value[0]
    
        # 現在 value 應該是一維的 token 列表
        last_token = value[-1:]
        text_chunk = self.tokenizer.decode(last_token, skip_special_tokens=True)
        self.buffer += text_chunk
    
        # 分割處理完整行
        while '\n' in self.buffer:
            newline_pos = self.buffer.find('\n')
            line = self.buffer[:newline_pos]
            self.buffer = self.buffer[newline_pos+1:]
            self._process_line(line)

    def _process_line(self, line):
        self.output_text += line + '\n'  # 記錄完整輸出
        
        # 檢測是否包含停止條件
        line = line.strip()
        if line.startswith("{'issue_add':") or line.startswith('{"issue_add":'):
            try:
                # 處理單引號並解析JSON
                json_str = line.replace("'", '"')
                data = json.loads(json_str)
                if 'issue_add' in data and not should_stop_ok:
                    self.should_stop = True
                    self.issue_content = data['issue_add']
            except json.JSONDecodeError:
                pass

    def end(self):
        # 處理剩餘緩衝區內容
        if self.buffer:
            self._process_line(self.buffer)
            self.buffer = ""
        super().end()

class StopCondition(StoppingCriteria):
    def __init__(self, streamer):
        super().__init__()
        self.streamer = streamer

    def __call__(self, input_ids, scores, **kwargs):
        return self.streamer.should_stop

# 定義消息列表，包含用戶角色和內容
messages = [
    {"role": "system", "content": "如果需要讓用戶補充更多信息，你需要在</think>標籤之前，輸出這種格式的文本來調用工具，以實現讓用戶補充更多信息，格式是：{'issue_add':'這裡你需要告訴用戶缺少什麼信息'}"},
    {"role": "user", "content": "我買了點散裝稱重的零食，花了100塊錢，每袋多少錢？"},
]

while True:
    # 準備模型輸入
    inputs = tokenizer.apply_chat_template(
        messages,
        tokenize=True,
        add_generation_prompt=True if not should_stop_ok else False,
        return_tensors="pt"
    ).to("cuda")

    # 創建流式處理器和停止條件
    streamer = CustomStreamer(tokenizer, skip_prompt=True)
    stop_condition = StopCondition(streamer)

    if should_stop_ok:
        inputs_str = tokenizer.decode(inputs[0], skip_special_tokens=False)
        # delete <|im_end|>
        inputs_str = inputs_str[:-11]
        # print(inputs_str)
        import torch
        inputs = torch.tensor([tokenizer.encode(inputs_str,add_special_tokens=False)], dtype=torch.long, device='cuda')
    
    # 執行生成（帶停止條件）
    model.generate(
        input_ids=inputs,
        streamer=streamer,
        max_new_tokens=8192,
        use_cache=True,
        temperature=0.7,
        top_p=0.7,
        stopping_criteria=StoppingCriteriaList([stop_condition]),
    )

    # 將模型輸出添加到對話歷史
    if streamer.output_text.strip():
        messages.append({"role": "assistant", "content": streamer.output_text.strip()})

    # 檢測停止條件
    if streamer.should_stop:
        print(f"\n---\n檢測到issue_add內容: {streamer.issue_content}")
        user_input = input("請輸入您的回覆: ")
        print("---\n")

        should_stop_ok = True
        
        # 將用戶拼接到assistant消息
        messages[len(messages)-1]['content'] += f"\n工具調用結果：{user_input}\n我已經得到了工具的調用結果：“{user_input}”，下面我需要根據工具調用結果繼續推理。\n首先，"
        # print(messages)
    else:
        break  # 正常結束生成

上述代碼的終端輸出：

<think>
我現在得解決這個問題。題目說，我買了一些散裝稱重的零食，總共花了100塊錢，但是不知道每袋的價格是多少。那應該怎麼做呢？

首先，我得仔細看看問題。題目裡提到的是“散裝稱重”的零食，也就是可能是一些大包裝的東西，比如一包餅乾、一盒巧克力或者某種混合堅果，這些都是沒有明確標價的，所以每袋的價格可能不同。不過題目中並沒有給出具體的種類和數量，只是總價100塊錢。

那可能的問題在於，題目中的“散裝”是否意味著每袋價格不同？比如說，有的袋子可能更貴一些，而有的便宜一些，這樣的話，總金額100元的話，可能無法平均分配到每個袋子上。這時候可能需要更多的信息來確定每袋的價格，比如有多少種不同的袋子，每種的數量等等。

不過題目裡並沒有提供這些額外的信息。那可能題目本身存在假設或隱含條件，比如是否存在折扣或者優惠活動，但題目裡沒有提到這些情況。或者可能是題目設計時忽略了這些細節，導致無法直接計算出每袋的價格。

那麼，按照常規的處理方法，如果每袋的價格不同，且總金額為100元，可能需要知道具體每種袋子的數量，才能計算出每袋的價格。例如，如果有5種不同大小的袋子，每種的數量分別是2、3、4、5、6個，那麼總共有5×(2+3+4+5+6)=55個袋子，總重量是2+3+4+5+6=20公斤，每公斤的價格就是100/20=5元。這樣每袋的價格應該是5元除以對應的數量，比如第一種袋子可能每袋5元，第二種可能8元，第三種10元，以此類推。但題目裡並沒有給出具體的數據，所以無法準確計算。

或者題目可能假設所有袋子的價格相同，或者總共有幾種不同的袋子，但數量未知。比如，如果有三種袋子，分別是A、B、C，每袋的價格分別為a元、b元、c元，總數量為n袋，那麼總費用就是a*n+a*b+n*c=100元。但同樣，題目裡沒有給出a、b、c的具體數值，也沒有n的值，所以無法解出答案。

另外，可能題目中存在其他隱藏條件，比如是否有優惠券、打折等情況，但題目裡沒有提及，所以只能按照最簡單的處理方式，即假定每袋價格相同，或者有不同價格的情況，但題目裡沒有說明。因此，根據題目給定的信息，無法得出準確的答案。

總結一下，由於題目沒有提供足夠的信息，比如每袋的價格類型、數量等，所以無法確定每袋的具體價格。可能需要更多數據才能解答。所以，正確的回答應該是：“無法確定，因為缺少必要的信息。” 或者更簡潔地說，“需要更多信息。” 這樣既符合邏輯，又尊重題目提供的有限信息。
{"issue_add":"缺少每袋的價格類型和數量"}<|im_end|>

---
檢測到issue_add內容: 缺少每袋的價格類型和數量
請輸入您的回覆:  20袋
---

我需要確認這個結果是否合理。散裝零食通常會有多種規格，比如小袋、中袋、大袋等，每種規格的價格不同。假設每袋的價格都是整數，那麼總金額100元的情況下，每袋的價格應該是100除以袋數的結果。如果袋數是20，那麼每袋的價格就是5元。但實際散裝零食的袋數可能不是20，而是其他數字，比如10袋、25袋、50袋等等。我們需要驗證這個結果是否符合實際情況。

接下來，考慮散裝零食的常見規格和價格分佈。例如，常見的零食袋裝價格可能如下：
- 小袋（如50克）：5元左右
- 中袋（如100克）：10元左右
- 大袋（如200克）：15元左右

假設每袋的價格分佈在這個範圍內，我們可以嘗試將100元分成幾個部分。例如，如果每袋都是5元，那麼需要20袋；如果是10元，需要10袋；如果是15元，需要6.67袋，這顯然不合理。因此，每袋的價格應該是介於5元和10元之間，且總和為100元。

現在，假設每袋的價格是5元，那麼需要多少袋才能湊成100元？計算如下：
100 ÷ 5 = 20 袋
所以，如果每袋價格是5元，需要20袋。這個結果與工具給出的結果一致，因此是合理的。

結論：每袋的價格是5元，共購買了20袋。<|im_end|>

技巧

建議的參數：temperature=0.7，top_p=0.7

例子

通過 “使用系統提示控制思維鏈” 實現搜索網頁
- 系統提示詞：

如果需要搜索網頁，你需要在</think>標籤之前，輸出這樣格式的文本來調用工具搜索網頁：{'search':'此處為需要搜索的關鍵詞'}

- **用戶提示詞**：

給我鄧文怡的最新歌曲

- **模型回覆**：

<think>
用戶讓我提供鄧文怡的最新歌曲。首先，我需要確認鄧文怡是誰，可能是一個歌手的名字。然後，我應該回想一下她最近有什麼新歌發佈。鄧文怡是中國臺灣的女歌手，她的音樂風格可能是流行或者電子舞曲？

接下來，我需要檢查最近是否有她的新專輯或單曲發佈。我記得她曾經和林俊杰合作過《不分手》，但不知道有沒有其他作品。另外，她也參與過一些合輯，比如《超級星光大道》之類的選秀節目嗎？不過用戶可能更想聽她的原創作品。

根據我的知識庫，鄧文怡最近的一首比較熱門的單曲是《愛在月光下》，這是一首電子舞曲風格的歌曲，通常用於舞蹈場合。另外，她還有一首《你是我最愛的人》，這首歌聽起來像是抒情風格，可能適合晚間的溫柔氛圍。不過這些信息可能需要進一步驗證。

然後，我需要考慮用戶的潛在需求。他們可能是在尋找鄧文怡的新歌來播放，或者準備演唱會、活動等場合。如果是演唱會的話，可能需要推薦她的主打曲目，而如果只是日常聽歌，可能需要更多選擇。

還要注意版權問題，確保提供的鏈接是合法的，並且沒有侵犯任何版權。所以最好直接給出歌詞和歌曲名稱，或者提供下載鏈接，但要注意不要提供非法內容。

最後，我應該組織這些信息，分點列出最新的幾首歌曲，並簡要說明類型和風格，讓用戶可以根據自己的喜好選擇。同時提醒用戶可能需要通過官方渠道獲取最新信息，因為歌手可能會有新的動態。
{'search':'鄧文怡 最新 歌曲'}
</think>
鄧文怡（Yumi）是中國臺灣的知名女歌手，以電子舞曲和流行音樂為主打風格。以下是她近期的熱門單曲及最新作品：

---

### **1. 《愛在月光下》**
- **類型**：電子舞曲  
- **特點**：節奏強烈、動感十足，常作為派對或健身音樂使用。  
- **推薦場景**：夜店、健身房、戶外活動。  

---

### **2. 《你是我最愛的人》**
- **類型**：抒情流行  
- **特點**：旋律溫暖，歌詞表達深情與思念，適合夜晚安靜聆聽。  
- **推薦場景**：浪漫約會、電影配樂。  

---

### **3. 《不分手》**
- **類型**：輕快舞曲  
- **特點**：與林俊杰合作的經典作品，旋律朗朗上口，常用於社交場合。  
- **推薦場景**：聚會、KTV、廣告背景音樂。  

---

### **4. 《心跳》**
- **類型**：流行電子  
- **特點**：節奏感強，歌詞描述心動時刻，適合戀愛主題MV或廣告。  

---

### **5. 《逆光飛翔》**
- **類型**：勵志流行  
- **特點**：鼓勵積極向上的歌詞，適合正能量場合。  

---

### **如何獲取最新歌曲？**
1. **官方平臺**：訪問鄧文怡的微博、抖音或YouTube頻道，關注最新動態。  
2. **數字音樂平臺**：如Spotify、Apple Music、YouTube Music等，搜索歌曲名稱即可找到完整版。  
3. **實體發行**：部分單曲可通過線上商城購買實體CD或下載。  

---

如果你需要具體的歌詞或下載鏈接，請告訴我！<|im_end|>

通過 “使用系統提示控制思維鏈” 實現讓用戶補充問題
- 系統提示詞：

如果需要讓用戶補充更多信息，你需要在</think>標籤之前，輸出這種格式的文本來調用工具，以實現讓用戶補充更多信息，格式是：{'issue_add':'這裡你需要告訴用戶缺少什麼信息'}

- **用戶提示詞**：

我買了點散裝稱重的零食，花了100塊錢，每袋多少錢？

- **模型回覆**：

<think>
我現在要解決這個問題。題目說，我買了一些散裝稱重的零食，總共花費了100塊錢。每個袋子的價格不同，所以我想知道每袋多少錢。不過問題好像有點不太對頭，因為散裝零食通常都是按重量收費的，而不是按袋子來賣的。比如，可能是一箱一箱的，每個袋子裡面裝的是不同重量的零食。

那問題中的“每袋多少錢”應該是指每個袋子裡面的單價，對吧？但這裡的問題似乎把重量和袋子的數量混在一起了。比如說，假設我買了5袋零食，每袋20元的話，那麼總費用就是5×20=100元，剛好符合題目的條件。這樣的話，每個袋子就是20元？

或者有沒有可能是題目中的“散裝稱重”的零食，指的是按照不同的重量來計價的呢？比如，每袋裡有不同的重量，而價格也是根據重量來計算的。這樣的話，每個袋子裡的重量可能不同，所以單價也不一樣。比如，第一個袋子可能有1斤，第二個袋子可能有2斤，這樣總價就是1+2=3斤，每斤的價格就是100/3≈33.33元。這樣的話，每個袋子的單價應該是不同的。

但是題目中並沒有說明每個袋子的具體重量是多少，只是說每袋的錢數。這時候應該怎麼處理呢？可能題目中的“每袋多少錢”指的是每個袋子的單價，而這個單價可能根據袋子的大小或重量來決定。比如，可能每個袋子的價格是固定的，不管裡面有多少重量。這樣的話，每個袋子的單價就是100元除以袋子的數量。比如，如果買了5袋，每個袋子就是100/5=20元。這和前面的例子一致。

不過題目中沒有明確說明是否每個袋子的價格固定，還是根據重量來計算。如果是後者的話，可能每個袋子的價格不同，所以不能直接算出每個袋子的單價。例如，如果第一個袋子是1斤，第二個袋子是2斤，第三個袋子是3斤，那麼總價就是6斤，平均每個袋子的價格就是60元，每個袋子的單價是60/3=20元。這時候每個袋子的單價應該是相同的，等於總價除以袋子數量。

不過題目中的問題看起來更復雜，可能需要更多的信息才能確定每個袋子的單價。比如，題目中可能提到每個袋子的重量不同，或者每個袋子的價格不同。這時候可能需要進一步的信息，比如每個袋子的重量分別是多少，或者每個袋子的價格分別是多少。如果沒有這些信息，可能無法準確回答問題。

所以，根據當前給出的信息，可能有兩種情況：

1. 如果每個袋子的價格是固定的，比如每個袋子都是20元的話，那麼每個袋子就是20元。
2. 如果每個袋子的價格不同，比如第一個袋子是1斤，第二個是2斤，第三個是3斤，那麼總價是6斤，每個袋子的單價就是60元，每個袋子的單價是20元。

但題目中並沒有提供足夠的信息來確定每個袋子的具體重量和價格。因此，可能需要更多的細節才能解答這個問題。比如，題目中是否有提到每個袋子的重量和對應的單價，或者是否有其他相關信息？

假設題目中的每個袋子的價格是固定的，比如每個袋子都是20元的話，那麼答案就是每個袋子20元。但如果每個袋子的價格不同，就需要更多數據才能計算每個袋子的單價。在這種情況下，可能需要用戶提供更多信息來確定每個袋子的單價。
{'issue_add':'這裡你需要告訴我每個袋子的重量以及它們各自的單價'}
散裝零食通常按重量計費，但題目描述的“每袋多少錢”可能存在歧義。需先確認以下關鍵信息：

1. **散裝零食的包裝單位**：是否為獨立包裝（如小袋）或統一容器（如大桶）？
   - 若為獨立包裝，需瞭解每袋的重量或容量。
   - 若為統一容器，需瞭解其總重量及包含袋數。

2. **定價方式**：
   - 是否存在不同單價的袋子？例如，部分袋裝零食標價為20元/袋，而另一些為30元/袋。
   - 是否有固定單價的包裝（如每袋20元），還是按重量分檔收費？

若缺乏具體數據，無法直接計算。例如：
- 假設每個袋子均為20元/袋，則100元可購買5袋。
- 若存在不同單價，需列出所有選項進行組合驗證。

建議補充以下信息：
- 每個袋子的重量（如1斤、2斤等）。
- 具體定價方案（如20元/袋、30元/袋等）。
- 總共購買了多少個袋子（或總重量）。

根據現有信息，無法準確計算單價，需提供更詳細數據。<|im_end|>

通過 “使用系統提示控制思維鏈” 實現讓用戶補充問題，在界面實現中可能的樣子

✨ 主要特性

思維鏈遷移與控制：成功將類似DeepSeek - r1的思維鏈遷移到Qwen2.5 - 3B - Instruct，實現“使用系統提示控制思維鏈”，使模型能更靈活產生思維鏈，在思考過程中與外界交互調用工具，達成“具身智能”，解決推理性能受限問題。
數據訓練：基於Qwen2.5 - 3B - Instruct進行動態4位量化，通過QLoRA在兩個開源數據集和一個合成數據集上訓練3個週期，最大上下文長度達8192。
合成數據集：使用[yilin - chatgpt - prompts](https://github.com/youyi0218/yilin - chatgpt - prompts)倉庫的提示詞，通過自動化數據合成管道，合成2000餘篇意林風格文章。