chinda-qwen3-4b-gguf開源泰語模型 - 為泰國AI生態賦予先進思考能力

首頁

Chinda Qwen3 4b Gguf

由iapp開發

Chinda LLM 4B是iApp Technology推出的前沿泰語模型，基於Qwen3-4B架構構建，為泰國AI生態系統帶來先進的思考能力。

大型語言模型開源協議:Apache-2.0 #泰語優化 #思考模式 #本地部署

下載量 115

發布時間 : 6/4/2025

模型概述

一個專注於泰語處理的4B參數大語言模型，具有優秀的推理能力和泰語準確性，支持思考模式與非思考模式切換。

模型特點

先進的思考模型

支持思考模式展示推理過程，在4B參數級別泰語模型中表現最佳

泰語高準確性

泰語輸出準確率達98.4%，專門針對泰語語言模式優化

模型能力

泰語文本生成

多輪對話

代碼生成

數學問題求解

多語言支持

長上下文處理

使用案例

RAG應用

自主AI系統

構建檢索增強生成系統，確保數據處理在泰國主權範圍內

移動應用

邊緣設備部署

在移動設備和筆記本上運行的小型語言模型

教育

數學輔導

解決數學問題和展示解題步驟

在MATH500基準測試中英語得分0.908，泰語0.612

編程

代碼助手

生成和解釋編程代碼

在LiveCodeBench基準測試中英語得分0.665，泰語0.198

🚀 Chinda開源泰語大語言模型4B (GGUF Q4_K_M)

Chinda開源泰語大語言模型4B是iApp Technology推出的前沿泰語模型，為泰國AI生態系統帶來了先進的思考能力。它基於最新的Qwen3 - 4B架構構建，體現了我們為泰國開發自主AI解決方案的承諾。

🚀 快速開始

安裝

pip install transformers torch

基礎用法

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "iapp/chinda-qwen3-4b"

# 加載分詞器和模型
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)

# 準備模型輸入
prompt = "‡∏≠‡∏ò‡∏¥‡∏ö‡∏≤‡∏¢‡πÄ‡∏Å‡∏µ‡πà‡∏¢‡∏ß‡∏Å‡∏±‡∏ö‡∏õ‡∏±‡∏ç‡∏ç‡∏≤‡∏õ‡∏£‡∏∞‡∏î‡∏¥‡∏©‡∏ê‡πå‡πÉ‡∏´‡πâ‡∏ü‡∏±‡∏á‡∏´‡∏ô‡πà‡∏≠‡∏¢"
messages = [
    {"role": "user", "content": prompt}
]

text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=True  # 啟用思考模式以獲得更好的推理能力
)

model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

# 生成響應
generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=1024,
    temperature=0.6,
    top_p=0.95,
    top_k=20,
    do_sample=True
)

output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist()

# 解析思考內容（如果啟用）
try:
    # 查找</think>標記 (151668)
    index = len(output_ids) - output_ids[::-1].index(151668)
except ValueError:
    index = 0

thinking_content = tokenizer.decode(output_ids[:index], skip_special_tokens=True).strip("\n")
content = tokenizer.decode(output_ids[index:], skip_special_tokens=True).strip("\n")

print("üß† 思考內容:", thinking_content)
print("üí¨ 響應內容:", content)

切換思考和非思考模式

啟用思考模式（默認）

text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=True  # 啟用詳細推理
)

禁用思考模式（提高效率）

text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=False  # 快速響應模式
)

API部署

使用vLLM

pip install vllm>=0.8.5
vllm serve iapp/chinda-qwen3-4b --enable-reasoning --reasoning-parser deepseek_r1

使用SGLang

pip install sglang>=0.4.6.post1
python -m sglang.launch_server --model-path iapp/chinda-qwen3-4b --reasoning-parser qwen3

使用Ollama（簡易本地部署）

安裝：

# 安裝Ollama（如果尚未安裝）
curl -fsSL https://ollama.com/install.sh | sh

# 拉取Chinda LLM 4B模型
ollama pull iapp/chinda-qwen3-4b

基礎用法：

# 開始與Chinda LLM聊天
ollama run iapp/chinda-qwen3-4b

# 示例對話
ollama run iapp/chinda-qwen3-4b "‡∏≠‡∏ò‡∏¥‡∏ö‡∏≤‡∏¢‡πÄ‡∏Å‡∏µ‡πà‡∏¢‡∏ß‡∏Å‡∏±‡∏ö‡∏õ‡∏±‡∏ç‡∏ç‡∏≤‡∏õ‡∏£‡∏∞‡∏î‡∏¥‡∏©‡∏ê‡πå‡πÉ‡∏´‡πâ‡∏ü‡∏±‡∏á‡∏´‡∏ô‡πà‡∏≠‡∏¢"

API服務器：

# 啟動Ollama API服務器
ollama serve

# 使用curl調用
curl http://localhost:11434/api/generate -d '{
  "model": "iapp/chinda-qwen3-4b",
  "prompt": "‡∏™‡∏ß‡∏±‡∏™‡∏î‡∏µ‡∏Ñ‡∏£‡∏±‡∏ö",
  "stream": false
}'

模型規格：

大小： 2.5GB（量化後）
上下文窗口： 40K個標記
架構： 針對本地部署進行了優化
性能： 在消費級硬件上推理速度快

✨ 主要特性

0. 面向所有人免費開源

Chinda LLM 4B完全免費且開源，使開發者、研究人員和企業能夠無限制地構建泰語AI應用程序。

1. 先進的思考模型

在4B參數級別的泰語大語言模型中得分最高
能夠在思考和非思考模式之間無縫切換
對複雜問題具有卓越的推理能力
可關閉思考模式以進行高效的通用對話

2. 出色的泰語準確性

輸出泰語的準確率達到98.4%
防止出現不必要的中文和外語輸出
專門針對泰語語言模式進行了微調

3. 最新架構

基於前沿的Qwen3 - 4B模型
融入了語言建模領域的最新進展
在性能和效率方面都進行了優化

4. 遵循Apache 2.0許可證

允許商業使用
允許修改和分發
對私人使用沒有限制

📚 詳細文檔

基準測試結果

Chinda LLM 4B在同類泰語模型中表現卓越：

基準測試	語言	Chinda LLM 4B	對比模型*
AIME24	英語	0.533	0.100
	泰語	0.100	0.000
LiveCodeBench	英語	0.665	0.209
	泰語	0.198	0.144
MATH500	英語	0.908	0.702
	泰語	0.612	0.566
IFEVAL	英語	0.849	0.848
	泰語	0.683	0.740
語言準確性	泰語	0.984	0.992
OpenThaiEval	泰語	0.651	0.544
平均值		0.569	0.414

對比模型：scb10x_typhoon2.1 - gemma3 - 4b
由iApp Technology團隊使用Skythought和Evalscope基準測試庫進行測試。結果顯示，Chinda LLM 4B的整體性能比最接近的對比模型高出37%。

適用場景

1. RAG應用（自主AI）

非常適合構建檢索增強生成系統，確保數據處理在泰國主權範圍內進行。

2. 移動和筆記本應用

可靠的小型語言模型，針對邊緣計算和個人設備進行了優化。

3. 數學計算

在數學推理和問題解決方面表現出色。

4. 代碼助手

在代碼生成和編程輔助方面具有強大的能力。

5. 資源高效性

推理速度非常快，GPU內存消耗極少，非常適合生產部署。

不適用場景

缺乏上下文的事實性問題

作為一個4B參數的模型，在沒有提供上下文的情況下被詢問具體事即時可能會產生幻覺。在進行事實性查詢時，始終使用RAG或提供相關上下文。

高級配置

處理長文本

Chinda LLM 4B原生支持最多32,768個標記。對於更長的上下文，可以啟用YaRN縮放：

{
    "rope_scaling": {
        "rope_type": "yarn",
        "factor": 4.0,
        "original_max_position_embeddings": 32768
    }
}

上下文長度和模板格式

上下文長度支持

原生上下文長度： 32,768個標記
擴展上下文長度： 最多131,072個標記（使用YaRN縮放）
輸入 + 輸出： 支持的總對話長度
推薦用法： 為了獲得最佳性能，保持對話長度在32K個標記以內

聊天模板格式

Chinda LLM 4B使用標準化的聊天模板格式進行一致的交互：

# 基本模板結構
messages = [
    {"role": "system", "content": "You are a helpful Thai AI assistant."},
    {"role": "user", "content": "‡∏™‡∏ß‡∏±‡∏™‡∏î‡∏µ‡∏Ñ‡∏£‡∏±‡∏ö"},
    {"role": "assistant", "content": "‡∏™‡∏ß‡∏±‡∏™‡∏î‡∏µ‡∏Ñ‡πà‡∏∞! ‡∏°‡∏µ‡∏≠‡∏∞‡πÑ‡∏£‡πÉ‡∏´‡πâ‡∏ä‡πà‡∏ß‡∏¢‡πÄ‡∏´‡∏•‡∏∑‡∏≠‡∏ö‡πâ‡∏≤‡∏á‡∏Ñ‡∏∞"},
    {"role": "user", "content": "‡∏ä‡πà‡∏ß‡∏¢‡∏≠‡∏ò‡∏¥‡∏ö‡∏≤‡∏¢‡πÄ‡∏£‡∏∑‡πà‡∏≠‡∏á AI ‡πÉ‡∏´‡πâ‡∏ü‡∏±‡∏á‡∏´‡∏ô‡πà‡∏≠‡∏¢"}
]

# 應用帶有思考模式的模板
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=True
)

模板結構

模板遵循標準的對話格式：

<|im_start|>system
You are a helpful Thai AI assistant.<|im_end|>
<|im_start|>user
‡∏™‡∏ß‡∏±‡∏™‡∏î‡∏µ‡∏Ñ‡∏£‡∏±‡∏ö<|im_end|>
<|im_start|>assistant
‡∏™‡∏ß‡∏±‡∏™‡∏î‡∏µ‡∏Ñ‡πà‡∏∞! ‡∏°‡∏µ‡∏≠‡∏∞‡πÑ‡∏£‡πÉ‡∏´‡πâ‡∏ä‡πà‡∏ß‡∏¢‡πÄ‡∏´‡∏•‡∏∑‡∏≠‡∏ö‡πâ‡∏≤‡∏á‡∏Ñ‡∏∞<|im_end|>
<|im_start|>user
‡∏ä‡πà‡∏ß‡∏¢‡∏≠‡∏ò‡∏¥‡∏ö‡∏≤‡∏¢‡πÄ‡∏£‡∏∑‡πà‡∏≠‡∏á AI ‡πÉ‡∏´‡πâ‡∏ü‡∏±‡∏á‡∏´‡∏ô‡πà‡∏≠‡∏¢<|im_end|>
<|im_start|>assistant

高級模板用法

# 帶有思考控制的多輪對話
def create_conversation(messages, enable_thinking=True):
    # 如果沒有系統消息，則添加系統消息
    if not messages or messages[0]["role"] != "system":
        system_msg = {
            "role": "system", 
            "content": "‡∏Ñ‡∏∏‡∏ì‡πÄ‡∏õ‡πá‡∏ô AI ‡∏ú‡∏π‡πâ‡∏ä‡πà‡∏ß‡∏¢‡∏ó‡∏µ‡πà‡∏â‡∏•‡∏≤‡∏î‡πÅ‡∏•‡∏∞‡πÄ‡∏õ‡πá‡∏ô‡∏õ‡∏£‡∏∞‡πÇ‡∏¢‡∏ä‡∏ô‡πå ‡∏û‡∏π‡∏î‡∏†‡∏≤‡∏©‡∏≤‡πÑ‡∏ó‡∏¢‡πÑ‡∏î‡πâ‡∏≠‡∏¢‡πà‡∏≤‡∏á‡πÄ‡∏õ‡πá‡∏ô‡∏ò‡∏£‡∏£‡∏°‡∏ä‡∏≤‡∏ï‡∏¥"
        }
        messages = [system_msg] + messages
    
    # 應用聊天模板
    text = tokenizer.apply_chat_template(
        messages,
        tokenize=False,
        add_generation_prompt=True,
        enable_thinking=enable_thinking
    )
    
    return text

# 示例用法
conversation = [
    {"role": "user", "content": "‡∏Ñ‡∏≥‡∏ô‡∏ß‡∏ì 15 √ó 23 = ?"},
]

prompt = create_conversation(conversation, enable_thinking=True)

動態模式切換

你可以在對話中使用特殊命令來控制思考模式：

# 為複雜問題啟用思考模式
messages = [
    {"role": "user", "content": "/think ‡πÅ‡∏Å‡πâ‡∏™‡∏°‡∏Å‡∏≤‡∏£: x¬≤ + 5x - 14 = 0"}
]

# 為快速響應禁用思考模式  
messages = [
    {"role": "user", "content": "/no_think ‡∏™‡∏ß‡∏±‡∏™‡∏î‡∏µ"}
]

上下文管理最佳實踐

監控標記數量： 跟蹤總標記數（輸入 + 輸出）
截斷舊消息： 接近限制時刪除最舊的消息
對長上下文使用YaRN： 對於超過32K個標記的文檔，啟用rope縮放
批量處理： 對於非常長的文本，考慮分塊並批量處理

def manage_context(messages, max_tokens=30000):
    """簡單的上下文管理函數"""
    total_tokens = sum(len(tokenizer.encode(msg["content"])) for msg in messages)
    
    while total_tokens > max_tokens and len(messages) > 2:
        # 保留系統消息並刪除最舊的用戶/助手消息對
        if messages[1]["role"] == "user":
            messages.pop(1)  # 刪除用戶消息
            if len(messages) > 1 and messages[1]["role"] == "assistant":
                messages.pop(1)  # 刪除相應的助手消息
        
        total_tokens = sum(len(tokenizer.encode(msg["content"])) for msg in messages)
    
    return messages

企業支持

對於企業部署、定製訓練或商業支持，請通過以下方式聯繫我們：

郵箱： sale@iapp.co.th
網站： iapp.co.th

常見問題解答

為什麼模型名為“Chinda”？

“Chinda”（‡∏à‡∏¥‡∏ô‡∏î‡∏≤）這個名字來源於“‡∏à‡∏¥‡∏ô‡∏î‡∏≤‡∏°‡∏ì‡∏µ”（Chindamani），它被認為是泰國素可泰時期由帕拉·霍拉蒂博迪（Sri Dharmasokaraja）撰寫的第一本書。就像《Chindamani》是泰國文學和學習的基礎文本一樣，Chinda LLM代表了我們泰國自主AI的基礎——一個真正理解並以泰語思考的模型，在數字時代保留並提升泰語能力。

我可以將Chinda LLM 4B用於商業目的嗎？

可以！Chinda LLM 4B遵循Apache 2.0許可證，允許：

商業使用 - 在商業產品和服務中使用
研究使用 - 學術和研究應用
修改 - 對模型進行修改和調整
分發 - 分享和重新分發模型
私人使用 - 在公司內部項目中使用

對商業應用沒有限制，可以自由構建和部署！

思考模式和非思考模式有什麼區別？

思考模式（enable_thinking=True）：

模型會在<think>...</think>塊中展示其推理過程
更適合處理複雜問題、數學、編碼和邏輯推理
響應速度較慢，但更準確
推薦用於需要深入分析的任務

非思考模式（enable_thinking=False）：

直接給出答案，不展示推理過程
對於一般對話，響應速度更快
更適合簡單查詢和聊天應用
資源使用效率更高

你可以在兩種模式之間切換，或者讓用戶使用/think和/no_think命令動態控制。

Chinda LLM 4B與其他泰語模型相比如何？

與最接近的對比模型相比，Chinda LLM 4B的整體性能提高了37%：

整體平均值： 0.569 vs 0.414（對比模型）
數學（MATH500）： 英語為0.908 vs 0.702，泰語為0.612 vs 0.566
代碼（LiveCodeBench）： 英語為0.665 vs 0.209，泰語為0.198 vs 0.144
泰語準確性： 98.4%（防止輸出中文/外語）
OpenThaiEval： 0.651 vs 0.544

它目前是4B參數級別的泰語大語言模型中得分最高的。

運行Chinda LLM 4B需要什麼系統要求？

最低要求：

GPU： 8GB顯存（RTX 3070/4060 Ti或更高）
內存： 16GB系統內存
存儲： 8GB可用空間用於模型下載
Python： 3.8及以上版本，搭配PyTorch

生產環境推薦：

GPU： 16GB及以上顯存（RTX 4080/A4000或更高）
內存： 32GB及以上系統內存
存儲： 使用SSD以加快加載速度

僅使用CPU模式： 可行，但速度會顯著減慢（不推薦用於生產環境）

我可以針對特定用例對Chinda LLM 4B進行微調嗎？

可以！作為遵循Apache 2.0許可證的開源模型，你可以：

在特定領域的數據上進行微調
針對特定任務或行業進行定製
必要時修改架構
創建用於特定應用的衍生模型

適用於Chinda的流行微調框架包括：

Unsloth - 快速且內存高效
LoRA/QLoRA - 參數高效的微調
Hugging Face Transformers - 全量微調
Axolotl - 高級訓練配置

需要微調幫助？請通過sale@iapp.co.th聯繫我們的團隊。

Chinda LLM 4B支持哪些語言？

主要語言：

泰語 - 達到母語水平的理解和生成能力（準確率98.4%）
英語 - 在所有基準測試中表現出色

其他語言：

支持100多種語言（繼承自Qwen3 - 4B基礎模型）
專注於優化泰英雙語任務
支持多種編程語言的代碼生成

特殊功能：

在泰語和英語之間進行代碼切換
在泰語和其他語言之間進行翻譯
具備多語言推理能力

訓練數據是否公開可用？

模型權重是開源的，但具體的訓練數據集並未公開發布。不過：

基礎模型： 基於Qwen3 - 4B（阿里巴巴的開放基礎模型）構建
泰語優化： 為泰語任務定製了數據集
質量優先： 精心挑選了高質量的泰語內容
隱私合規： 不包含個人或敏感數據

如需進行研究合作或諮詢數據集相關問題，請聯繫我們的研究團隊。

如何獲得支持或報告問題？

技術問題：

GitHub Issues： 報告漏洞和技術問題
Hugging Face： 提出與模型相關的問題並參與討論
文檔： 查看我們全面的指南

商業支持：

郵箱： sale@iapp.co.th
企業支持： 提供定製訓練和部署協助
諮詢服務： 提供集成和優化服務

社區支持：

泰國AI社區： 參與關於泰國AI發展的討論
開發者論壇： 與其他Chinda用戶交流

模型下載大小是多少，採用什麼格式？

模型規格：

參數數量： 40.2億（4B）
下載大小： 約8GB（壓縮後）
格式： Safetensors（推薦）和PyTorch
精度： BF16（腦浮點16位）

下載選項：

Hugging Face Hub： huggingface.co/iapp/chinda-qwen3-4b
Git LFS： 用於版本控制集成
直接下載： 單個模型文件
量化版本： 提供減少內存使用的版本（GGUF，AWQ）

量化選項：

4位（GGUF）： 約2.5GB，可在4GB顯存的GPU上運行
8位： 約4GB，性能和內存使用平衡
16位（原始）： 約8GB，全性能版本

📄 許可證

本項目採用Apache 2.0許可證。

🔧 技術細節

如果你在研究或項目中使用了Chinda LLM 4B，請按以下格式引用：

@misc{chinda-llm-4b,
  title={Chinda LLM 4B: Thai Sovereign AI Language Model},
  author={iApp Technology},
  year={2025},
  publisher={Hugging Face},
  url={https://huggingface.co/iapp/chinda-qwen3-4b}
}

由iApp Technology打造 - 以卓越的自主AI賦能泰國企業

image/jpeg