chinda-qwen3-4b-gguf开源泰语模型 - 为泰国AI生态赋予先进思考能力

首页

Chinda Qwen3 4b Gguf

由 iapp 开发

Chinda LLM 4B是iApp Technology推出的前沿泰语模型，基于Qwen3-4B架构构建，为泰国AI生态系统带来先进的思考能力。

大型语言模型开源协议:Apache-2.0 #泰语优化 #思考模式 #本地部署

下载量 115

发布时间 : 6/4/2025

模型简介

一个专注于泰语处理的4B参数大语言模型，具有优秀的推理能力和泰语准确性，支持思考模式与非思考模式切换。

模型特点

先进的思考模型

支持思考模式展示推理过程，在4B参数级别泰语模型中表现最佳

泰语高准确性

泰语输出准确率达98.4%，专门针对泰语语言模式优化

模型能力

泰语文本生成

多轮对话

代码生成

数学问题求解

多语言支持

长上下文处理

使用案例

RAG应用

自主AI系统

构建检索增强生成系统，确保数据处理在泰国主权范围内

移动应用

边缘设备部署

在移动设备和笔记本上运行的小型语言模型

教育

数学辅导

解决数学问题和展示解题步骤

在MATH500基准测试中英语得分0.908，泰语0.612

编程

代码助手

生成和解释编程代码

在LiveCodeBench基准测试中英语得分0.665，泰语0.198

🚀 Chinda开源泰语大语言模型4B (GGUF Q4_K_M)

Chinda开源泰语大语言模型4B是iApp Technology推出的前沿泰语模型，为泰国AI生态系统带来了先进的思考能力。它基于最新的Qwen3 - 4B架构构建，体现了我们为泰国开发自主AI解决方案的承诺。

🚀 快速开始

安装

pip install transformers torch

基础用法

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "iapp/chinda-qwen3-4b"

# 加载分词器和模型
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)

# 准备模型输入
prompt = "‡∏≠‡∏ò‡∏¥‡∏ö‡∏≤‡∏¢‡πÄ‡∏Å‡∏µ‡πà‡∏¢‡∏ß‡∏Å‡∏±‡∏ö‡∏õ‡∏±‡∏ç‡∏ç‡∏≤‡∏õ‡∏£‡∏∞‡∏î‡∏¥‡∏©‡∏ê‡πå‡πÉ‡∏´‡πâ‡∏ü‡∏±‡∏á‡∏´‡∏ô‡πà‡∏≠‡∏¢"
messages = [
    {"role": "user", "content": prompt}
]

text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=True  # 启用思考模式以获得更好的推理能力
)

model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

# 生成响应
generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=1024,
    temperature=0.6,
    top_p=0.95,
    top_k=20,
    do_sample=True
)

output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist()

# 解析思考内容（如果启用）
try:
    # 查找</think>标记 (151668)
    index = len(output_ids) - output_ids[::-1].index(151668)
except ValueError:
    index = 0

thinking_content = tokenizer.decode(output_ids[:index], skip_special_tokens=True).strip("\n")
content = tokenizer.decode(output_ids[index:], skip_special_tokens=True).strip("\n")

print("üß† 思考内容:", thinking_content)
print("üí¨ 响应内容:", content)

切换思考和非思考模式

启用思考模式（默认）

text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=True  # 启用详细推理
)

禁用思考模式（提高效率）

text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=False  # 快速响应模式
)

API部署

使用vLLM

pip install vllm>=0.8.5
vllm serve iapp/chinda-qwen3-4b --enable-reasoning --reasoning-parser deepseek_r1

使用SGLang

pip install sglang>=0.4.6.post1
python -m sglang.launch_server --model-path iapp/chinda-qwen3-4b --reasoning-parser qwen3

使用Ollama（简易本地部署）

安装：

# 安装Ollama（如果尚未安装）
curl -fsSL https://ollama.com/install.sh | sh

# 拉取Chinda LLM 4B模型
ollama pull iapp/chinda-qwen3-4b

基础用法：

# 开始与Chinda LLM聊天
ollama run iapp/chinda-qwen3-4b

# 示例对话
ollama run iapp/chinda-qwen3-4b "‡∏≠‡∏ò‡∏¥‡∏ö‡∏≤‡∏¢‡πÄ‡∏Å‡∏µ‡πà‡∏¢‡∏ß‡∏Å‡∏±‡∏ö‡∏õ‡∏±‡∏ç‡∏ç‡∏≤‡∏õ‡∏£‡∏∞‡∏î‡∏¥‡∏©‡∏ê‡πå‡πÉ‡∏´‡πâ‡∏ü‡∏±‡∏á‡∏´‡∏ô‡πà‡∏≠‡∏¢"

API服务器：

# 启动Ollama API服务器
ollama serve

# 使用curl调用
curl http://localhost:11434/api/generate -d '{
  "model": "iapp/chinda-qwen3-4b",
  "prompt": "‡∏™‡∏ß‡∏±‡∏™‡∏î‡∏µ‡∏Ñ‡∏£‡∏±‡∏ö",
  "stream": false
}'

模型规格：

大小： 2.5GB（量化后）
上下文窗口： 40K个标记
架构： 针对本地部署进行了优化
性能： 在消费级硬件上推理速度快

✨ 主要特性

0. 面向所有人免费开源

Chinda LLM 4B完全免费且开源，使开发者、研究人员和企业能够无限制地构建泰语AI应用程序。

1. 先进的思考模型

在4B参数级别的泰语大语言模型中得分最高
能够在思考和非思考模式之间无缝切换
对复杂问题具有卓越的推理能力
可关闭思考模式以进行高效的通用对话

2. 出色的泰语准确性

输出泰语的准确率达到98.4%
防止出现不必要的中文和外语输出
专门针对泰语语言模式进行了微调

3. 最新架构

基于前沿的Qwen3 - 4B模型
融入了语言建模领域的最新进展
在性能和效率方面都进行了优化

4. 遵循Apache 2.0许可证

允许商业使用
允许修改和分发
对私人使用没有限制

📚 详细文档

基准测试结果

Chinda LLM 4B在同类泰语模型中表现卓越：

基准测试	语言	Chinda LLM 4B	对比模型*
AIME24	英语	0.533	0.100
	泰语	0.100	0.000
LiveCodeBench	英语	0.665	0.209
	泰语	0.198	0.144
MATH500	英语	0.908	0.702
	泰语	0.612	0.566
IFEVAL	英语	0.849	0.848
	泰语	0.683	0.740
语言准确性	泰语	0.984	0.992
OpenThaiEval	泰语	0.651	0.544
平均值		0.569	0.414

对比模型：scb10x_typhoon2.1 - gemma3 - 4b
由iApp Technology团队使用Skythought和Evalscope基准测试库进行测试。结果显示，Chinda LLM 4B的整体性能比最接近的对比模型高出37%。

适用场景

1. RAG应用（自主AI）

非常适合构建检索增强生成系统，确保数据处理在泰国主权范围内进行。

2. 移动和笔记本应用

可靠的小型语言模型，针对边缘计算和个人设备进行了优化。

3. 数学计算

在数学推理和问题解决方面表现出色。

4. 代码助手

在代码生成和编程辅助方面具有强大的能力。

5. 资源高效性

推理速度非常快，GPU内存消耗极少，非常适合生产部署。

不适用场景

缺乏上下文的事实性问题

作为一个4B参数的模型，在没有提供上下文的情况下被询问具体事实时可能会产生幻觉。在进行事实性查询时，始终使用RAG或提供相关上下文。

高级配置

处理长文本

Chinda LLM 4B原生支持最多32,768个标记。对于更长的上下文，可以启用YaRN缩放：

{
    "rope_scaling": {
        "rope_type": "yarn",
        "factor": 4.0,
        "original_max_position_embeddings": 32768
    }
}

上下文长度和模板格式

上下文长度支持

原生上下文长度： 32,768个标记
扩展上下文长度： 最多131,072个标记（使用YaRN缩放）
输入 + 输出： 支持的总对话长度
推荐用法： 为了获得最佳性能，保持对话长度在32K个标记以内

聊天模板格式

Chinda LLM 4B使用标准化的聊天模板格式进行一致的交互：

# 基本模板结构
messages = [
    {"role": "system", "content": "You are a helpful Thai AI assistant."},
    {"role": "user", "content": "‡∏™‡∏ß‡∏±‡∏™‡∏î‡∏µ‡∏Ñ‡∏£‡∏±‡∏ö"},
    {"role": "assistant", "content": "‡∏™‡∏ß‡∏±‡∏™‡∏î‡∏µ‡∏Ñ‡πà‡∏∞! ‡∏°‡∏µ‡∏≠‡∏∞‡πÑ‡∏£‡πÉ‡∏´‡πâ‡∏ä‡πà‡∏ß‡∏¢‡πÄ‡∏´‡∏•‡∏∑‡∏≠‡∏ö‡πâ‡∏≤‡∏á‡∏Ñ‡∏∞"},
    {"role": "user", "content": "‡∏ä‡πà‡∏ß‡∏¢‡∏≠‡∏ò‡∏¥‡∏ö‡∏≤‡∏¢‡πÄ‡∏£‡∏∑‡πà‡∏≠‡∏á AI ‡πÉ‡∏´‡πâ‡∏ü‡∏±‡∏á‡∏´‡∏ô‡πà‡∏≠‡∏¢"}
]

# 应用带有思考模式的模板
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=True
)

模板结构

模板遵循标准的对话格式：

<|im_start|>system
You are a helpful Thai AI assistant.<|im_end|>
<|im_start|>user
‡∏™‡∏ß‡∏±‡∏™‡∏î‡∏µ‡∏Ñ‡∏£‡∏±‡∏ö<|im_end|>
<|im_start|>assistant
‡∏™‡∏ß‡∏±‡∏™‡∏î‡∏µ‡∏Ñ‡πà‡∏∞! ‡∏°‡∏µ‡∏≠‡∏∞‡πÑ‡∏£‡πÉ‡∏´‡πâ‡∏ä‡πà‡∏ß‡∏¢‡πÄ‡∏´‡∏•‡∏∑‡∏≠‡∏ö‡πâ‡∏≤‡∏á‡∏Ñ‡∏∞<|im_end|>
<|im_start|>user
‡∏ä‡πà‡∏ß‡∏¢‡∏≠‡∏ò‡∏¥‡∏ö‡∏≤‡∏¢‡πÄ‡∏£‡∏∑‡πà‡∏≠‡∏á AI ‡πÉ‡∏´‡πâ‡∏ü‡∏±‡∏á‡∏´‡∏ô‡πà‡∏≠‡∏¢<|im_end|>
<|im_start|>assistant

高级模板用法

# 带有思考控制的多轮对话
def create_conversation(messages, enable_thinking=True):
    # 如果没有系统消息，则添加系统消息
    if not messages or messages[0]["role"] != "system":
        system_msg = {
            "role": "system", 
            "content": "‡∏Ñ‡∏∏‡∏ì‡πÄ‡∏õ‡πá‡∏ô AI ‡∏ú‡∏π‡πâ‡∏ä‡πà‡∏ß‡∏¢‡∏ó‡∏µ‡πà‡∏â‡∏•‡∏≤‡∏î‡πÅ‡∏•‡∏∞‡πÄ‡∏õ‡πá‡∏ô‡∏õ‡∏£‡∏∞‡πÇ‡∏¢‡∏ä‡∏ô‡πå ‡∏û‡∏π‡∏î‡∏†‡∏≤‡∏©‡∏≤‡πÑ‡∏ó‡∏¢‡πÑ‡∏î‡πâ‡∏≠‡∏¢‡πà‡∏≤‡∏á‡πÄ‡∏õ‡πá‡∏ô‡∏ò‡∏£‡∏£‡∏°‡∏ä‡∏≤‡∏ï‡∏¥"
        }
        messages = [system_msg] + messages
    
    # 应用聊天模板
    text = tokenizer.apply_chat_template(
        messages,
        tokenize=False,
        add_generation_prompt=True,
        enable_thinking=enable_thinking
    )
    
    return text

# 示例用法
conversation = [
    {"role": "user", "content": "‡∏Ñ‡∏≥‡∏ô‡∏ß‡∏ì 15 √ó 23 = ?"},
]

prompt = create_conversation(conversation, enable_thinking=True)

动态模式切换

你可以在对话中使用特殊命令来控制思考模式：

# 为复杂问题启用思考模式
messages = [
    {"role": "user", "content": "/think ‡πÅ‡∏Å‡πâ‡∏™‡∏°‡∏Å‡∏≤‡∏£: x¬≤ + 5x - 14 = 0"}
]

# 为快速响应禁用思考模式  
messages = [
    {"role": "user", "content": "/no_think ‡∏™‡∏ß‡∏±‡∏™‡∏î‡∏µ"}
]

上下文管理最佳实践

监控标记数量： 跟踪总标记数（输入 + 输出）
截断旧消息： 接近限制时删除最旧的消息
对长上下文使用YaRN： 对于超过32K个标记的文档，启用rope缩放
批量处理： 对于非常长的文本，考虑分块并批量处理

def manage_context(messages, max_tokens=30000):
    """简单的上下文管理函数"""
    total_tokens = sum(len(tokenizer.encode(msg["content"])) for msg in messages)
    
    while total_tokens > max_tokens and len(messages) > 2:
        # 保留系统消息并删除最旧的用户/助手消息对
        if messages[1]["role"] == "user":
            messages.pop(1)  # 删除用户消息
            if len(messages) > 1 and messages[1]["role"] == "assistant":
                messages.pop(1)  # 删除相应的助手消息
        
        total_tokens = sum(len(tokenizer.encode(msg["content"])) for msg in messages)
    
    return messages

企业支持

对于企业部署、定制训练或商业支持，请通过以下方式联系我们：

邮箱： sale@iapp.co.th
网站： iapp.co.th

常见问题解答

为什么模型名为“Chinda”？

“Chinda”（‡∏à‡∏¥‡∏ô‡∏î‡∏≤）这个名字来源于“‡∏à‡∏¥‡∏ô‡∏î‡∏≤‡∏°‡∏ì‡∏µ”（Chindamani），它被认为是泰国素可泰时期由帕拉·霍拉蒂博迪（Sri Dharmasokaraja）撰写的第一本书。就像《Chindamani》是泰国文学和学习的基础文本一样，Chinda LLM代表了我们泰国自主AI的基础——一个真正理解并以泰语思考的模型，在数字时代保留并提升泰语能力。

我可以将Chinda LLM 4B用于商业目的吗？

可以！Chinda LLM 4B遵循Apache 2.0许可证，允许：

商业使用 - 在商业产品和服务中使用
研究使用 - 学术和研究应用
修改 - 对模型进行修改和调整
分发 - 分享和重新分发模型
私人使用 - 在公司内部项目中使用

对商业应用没有限制，可以自由构建和部署！

思考模式和非思考模式有什么区别？

思考模式（enable_thinking=True）：

模型会在<think>...</think>块中展示其推理过程
更适合处理复杂问题、数学、编码和逻辑推理
响应速度较慢，但更准确
推荐用于需要深入分析的任务

非思考模式（enable_thinking=False）：

直接给出答案，不展示推理过程
对于一般对话，响应速度更快
更适合简单查询和聊天应用
资源使用效率更高

你可以在两种模式之间切换，或者让用户使用/think和/no_think命令动态控制。

Chinda LLM 4B与其他泰语模型相比如何？

与最接近的对比模型相比，Chinda LLM 4B的整体性能提高了37%：

整体平均值： 0.569 vs 0.414（对比模型）
数学（MATH500）： 英语为0.908 vs 0.702，泰语为0.612 vs 0.566
代码（LiveCodeBench）： 英语为0.665 vs 0.209，泰语为0.198 vs 0.144
泰语准确性： 98.4%（防止输出中文/外语）
OpenThaiEval： 0.651 vs 0.544

它目前是4B参数级别的泰语大语言模型中得分最高的。

运行Chinda LLM 4B需要什么系统要求？

最低要求：

GPU： 8GB显存（RTX 3070/4060 Ti或更高）
内存： 16GB系统内存
存储： 8GB可用空间用于模型下载
Python： 3.8及以上版本，搭配PyTorch

生产环境推荐：

GPU： 16GB及以上显存（RTX 4080/A4000或更高）
内存： 32GB及以上系统内存
存储： 使用SSD以加快加载速度

仅使用CPU模式： 可行，但速度会显著减慢（不推荐用于生产环境）

我可以针对特定用例对Chinda LLM 4B进行微调吗？

可以！作为遵循Apache 2.0许可证的开源模型，你可以：

在特定领域的数据上进行微调
针对特定任务或行业进行定制
必要时修改架构
创建用于特定应用的衍生模型

适用于Chinda的流行微调框架包括：

Unsloth - 快速且内存高效
LoRA/QLoRA - 参数高效的微调
Hugging Face Transformers - 全量微调
Axolotl - 高级训练配置

需要微调帮助？请通过sale@iapp.co.th联系我们的团队。

Chinda LLM 4B支持哪些语言？

主要语言：

泰语 - 达到母语水平的理解和生成能力（准确率98.4%）
英语 - 在所有基准测试中表现出色

其他语言：

支持100多种语言（继承自Qwen3 - 4B基础模型）
专注于优化泰英双语任务
支持多种编程语言的代码生成

特殊功能：

在泰语和英语之间进行代码切换
在泰语和其他语言之间进行翻译
具备多语言推理能力

训练数据是否公开可用？

模型权重是开源的，但具体的训练数据集并未公开发布。不过：

基础模型： 基于Qwen3 - 4B（阿里巴巴的开放基础模型）构建
泰语优化： 为泰语任务定制了数据集
质量优先： 精心挑选了高质量的泰语内容
隐私合规： 不包含个人或敏感数据

如需进行研究合作或咨询数据集相关问题，请联系我们的研究团队。

如何获得支持或报告问题？

技术问题：

GitHub Issues： 报告漏洞和技术问题
Hugging Face： 提出与模型相关的问题并参与讨论
文档： 查看我们全面的指南

商业支持：

邮箱： sale@iapp.co.th
企业支持： 提供定制训练和部署协助
咨询服务： 提供集成和优化服务

社区支持：

泰国AI社区： 参与关于泰国AI发展的讨论
开发者论坛： 与其他Chinda用户交流

模型下载大小是多少，采用什么格式？

模型规格：

参数数量： 40.2亿（4B）
下载大小： 约8GB（压缩后）
格式： Safetensors（推荐）和PyTorch
精度： BF16（脑浮点16位）

下载选项：

Hugging Face Hub： huggingface.co/iapp/chinda-qwen3-4b
Git LFS： 用于版本控制集成
直接下载： 单个模型文件
量化版本： 提供减少内存使用的版本（GGUF，AWQ）

量化选项：

4位（GGUF）： 约2.5GB，可在4GB显存的GPU上运行
8位： 约4GB，性能和内存使用平衡
16位（原始）： 约8GB，全性能版本

📄 许可证

本项目采用Apache 2.0许可证。

🔧 技术细节

如果你在研究或项目中使用了Chinda LLM 4B，请按以下格式引用：

@misc{chinda-llm-4b,
  title={Chinda LLM 4B: Thai Sovereign AI Language Model},
  author={iApp Technology},
  year={2025},
  publisher={Hugging Face},
  url={https://huggingface.co/iapp/chinda-qwen3-4b}
}

由iApp Technology打造 - 以卓越的自主AI赋能泰国企业

image/jpeg