模型简介
模型特点
模型能力
使用案例
🚀 Chinda开源泰语大语言模型4B (GGUF Q4_K_M)
Chinda开源泰语大语言模型4B是iApp Technology推出的前沿泰语模型,为泰国AI生态系统带来了先进的思考能力。它基于最新的Qwen3 - 4B架构构建,体现了我们为泰国开发自主AI解决方案的承诺。
🚀 快速开始
安装
pip install transformers torch
基础用法
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "iapp/chinda-qwen3-4b"
# 加载分词器和模型
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
# 准备模型输入
prompt = "อธิบายเกี่ยวกับปัญญาประดิษฐ์ให้ฟังหน่อย"
messages = [
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True,
enable_thinking=True # 启用思考模式以获得更好的推理能力
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
# 生成响应
generated_ids = model.generate(
**model_inputs,
max_new_tokens=1024,
temperature=0.6,
top_p=0.95,
top_k=20,
do_sample=True
)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist()
# 解析思考内容(如果启用)
try:
# 查找</think>标记 (151668)
index = len(output_ids) - output_ids[::-1].index(151668)
except ValueError:
index = 0
thinking_content = tokenizer.decode(output_ids[:index], skip_special_tokens=True).strip("\n")
content = tokenizer.decode(output_ids[index:], skip_special_tokens=True).strip("\n")
print("ü߆ 思考内容:", thinking_content)
print("üí¨ 响应内容:", content)
切换思考和非思考模式
启用思考模式(默认)
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True,
enable_thinking=True # 启用详细推理
)
禁用思考模式(提高效率)
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True,
enable_thinking=False # 快速响应模式
)
API部署
使用vLLM
pip install vllm>=0.8.5
vllm serve iapp/chinda-qwen3-4b --enable-reasoning --reasoning-parser deepseek_r1
使用SGLang
pip install sglang>=0.4.6.post1
python -m sglang.launch_server --model-path iapp/chinda-qwen3-4b --reasoning-parser qwen3
使用Ollama(简易本地部署)
安装:
# 安装Ollama(如果尚未安装)
curl -fsSL https://ollama.com/install.sh | sh
# 拉取Chinda LLM 4B模型
ollama pull iapp/chinda-qwen3-4b
基础用法:
# 开始与Chinda LLM聊天
ollama run iapp/chinda-qwen3-4b
# 示例对话
ollama run iapp/chinda-qwen3-4b "อธิบายเกี่ยวกับปัญญาประดิษฐ์ให้ฟังหน่อย"
API服务器:
# 启动Ollama API服务器
ollama serve
# 使用curl调用
curl http://localhost:11434/api/generate -d '{
"model": "iapp/chinda-qwen3-4b",
"prompt": "สวัสดีครับ",
"stream": false
}'
模型规格:
- 大小: 2.5GB(量化后)
- 上下文窗口: 40K个标记
- 架构: 针对本地部署进行了优化
- 性能: 在消费级硬件上推理速度快
✨ 主要特性
0. 面向所有人免费开源
Chinda LLM 4B完全免费且开源,使开发者、研究人员和企业能够无限制地构建泰语AI应用程序。
1. 先进的思考模型
- 在4B参数级别的泰语大语言模型中得分最高
- 能够在思考和非思考模式之间无缝切换
- 对复杂问题具有卓越的推理能力
- 可关闭思考模式以进行高效的通用对话
2. 出色的泰语准确性
- 输出泰语的准确率达到98.4%
- 防止出现不必要的中文和外语输出
- 专门针对泰语语言模式进行了微调
3. 最新架构
- 基于前沿的Qwen3 - 4B模型
- 融入了语言建模领域的最新进展
- 在性能和效率方面都进行了优化
4. 遵循Apache 2.0许可证
- 允许商业使用
- 允许修改和分发
- 对私人使用没有限制
📚 详细文档
基准测试结果
Chinda LLM 4B在同类泰语模型中表现卓越:
基准测试 | 语言 | Chinda LLM 4B | 对比模型* |
---|---|---|---|
AIME24 | 英语 | 0.533 | 0.100 |
泰语 | 0.100 | 0.000 | |
LiveCodeBench | 英语 | 0.665 | 0.209 |
泰语 | 0.198 | 0.144 | |
MATH500 | 英语 | 0.908 | 0.702 |
泰语 | 0.612 | 0.566 | |
IFEVAL | 英语 | 0.849 | 0.848 |
泰语 | 0.683 | 0.740 | |
语言准确性 | 泰语 | 0.984 | 0.992 |
OpenThaiEval | 泰语 | 0.651 | 0.544 |
平均值 | 0.569 | 0.414 |
- 对比模型:scb10x_typhoon2.1 - gemma3 - 4b
- 由iApp Technology团队使用Skythought和Evalscope基准测试库进行测试。结果显示,Chinda LLM 4B的整体性能比最接近的对比模型高出37%。
适用场景
1. RAG应用(自主AI)
非常适合构建检索增强生成系统,确保数据处理在泰国主权范围内进行。
2. 移动和笔记本应用
可靠的小型语言模型,针对边缘计算和个人设备进行了优化。
3. 数学计算
在数学推理和问题解决方面表现出色。
4. 代码助手
在代码生成和编程辅助方面具有强大的能力。
5. 资源高效性
推理速度非常快,GPU内存消耗极少,非常适合生产部署。
不适用场景
缺乏上下文的事实性问题
作为一个4B参数的模型,在没有提供上下文的情况下被询问具体事实时可能会产生幻觉。在进行事实性查询时,始终使用RAG或提供相关上下文。
高级配置
处理长文本
Chinda LLM 4B原生支持最多32,768个标记。对于更长的上下文,可以启用YaRN缩放:
{
"rope_scaling": {
"rope_type": "yarn",
"factor": 4.0,
"original_max_position_embeddings": 32768
}
}
推荐参数
思考模式:
- 温度:0.6
- 采样概率:0.95
- 采样数量:20
- 最小采样概率:0
非思考模式:
- 温度:0.7
- 采样概率:0.8
- 采样数量:20
- 最小采样概率:0
上下文长度和模板格式
上下文长度支持
- 原生上下文长度: 32,768个标记
- 扩展上下文长度: 最多131,072个标记(使用YaRN缩放)
- 输入 + 输出: 支持的总对话长度
- 推荐用法: 为了获得最佳性能,保持对话长度在32K个标记以内
聊天模板格式
Chinda LLM 4B使用标准化的聊天模板格式进行一致的交互:
# 基本模板结构
messages = [
{"role": "system", "content": "You are a helpful Thai AI assistant."},
{"role": "user", "content": "สวัสดีครับ"},
{"role": "assistant", "content": "สวัสดีค่ะ! มีอะไรให้ช่วยเหลือบ้างคะ"},
{"role": "user", "content": "ช่วยอธิบายเรื่อง AI ให้ฟังหน่อย"}
]
# 应用带有思考模式的模板
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True,
enable_thinking=True
)
模板结构
模板遵循标准的对话格式:
<|im_start|>system
You are a helpful Thai AI assistant.<|im_end|>
<|im_start|>user
สวัสดีครับ<|im_end|>
<|im_start|>assistant
สวัสดีค่ะ! มีอะไรให้ช่วยเหลือบ้างคะ<|im_end|>
<|im_start|>user
ช่วยอธิบายเรื่อง AI ให้ฟังหน่อย<|im_end|>
<|im_start|>assistant
高级模板用法
# 带有思考控制的多轮对话
def create_conversation(messages, enable_thinking=True):
# 如果没有系统消息,则添加系统消息
if not messages or messages[0]["role"] != "system":
system_msg = {
"role": "system",
"content": "คุณเป็น AI ผู้ช่วยที่ฉลาดและเป็นประโยชน์ พูดภาษาไทยได้อย่างเป็นธรรมชาติ"
}
messages = [system_msg] + messages
# 应用聊天模板
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True,
enable_thinking=enable_thinking
)
return text
# 示例用法
conversation = [
{"role": "user", "content": "คำนวณ 15 × 23 = ?"},
]
prompt = create_conversation(conversation, enable_thinking=True)
动态模式切换
你可以在对话中使用特殊命令来控制思考模式:
# 为复杂问题启用思考模式
messages = [
{"role": "user", "content": "/think แก้สมการ: x² + 5x - 14 = 0"}
]
# 为快速响应禁用思考模式
messages = [
{"role": "user", "content": "/no_think สวัสดี"}
]
上下文管理最佳实践
- 监控标记数量: 跟踪总标记数(输入 + 输出)
- 截断旧消息: 接近限制时删除最旧的消息
- 对长上下文使用YaRN: 对于超过32K个标记的文档,启用rope缩放
- 批量处理: 对于非常长的文本,考虑分块并批量处理
def manage_context(messages, max_tokens=30000):
"""简单的上下文管理函数"""
total_tokens = sum(len(tokenizer.encode(msg["content"])) for msg in messages)
while total_tokens > max_tokens and len(messages) > 2:
# 保留系统消息并删除最旧的用户/助手消息对
if messages[1]["role"] == "user":
messages.pop(1) # 删除用户消息
if len(messages) > 1 and messages[1]["role"] == "assistant":
messages.pop(1) # 删除相应的助手消息
total_tokens = sum(len(tokenizer.encode(msg["content"])) for msg in messages)
return messages
企业支持
对于企业部署、定制训练或商业支持,请通过以下方式联系我们:
- 邮箱: sale@iapp.co.th
- 网站: iapp.co.th
常见问题解答
为什么模型名为“Chinda”?
“Chinda”(‡∏à‡∏¥‡∏ô‡∏î‡∏≤)这个名字来源于“‡∏à‡∏¥‡∏ô‡∏î‡∏≤‡∏°‡∏ì‡∏µ”(Chindamani),它被认为是泰国素可泰时期由帕拉·霍拉蒂博迪(Sri Dharmasokaraja)撰写的第一本书。就像《Chindamani》是泰国文学和学习的基础文本一样,Chinda LLM代表了我们泰国自主AI的基础——一个真正理解并以泰语思考的模型,在数字时代保留并提升泰语能力。
我可以将Chinda LLM 4B用于商业目的吗?
可以!Chinda LLM 4B遵循Apache 2.0许可证,允许:
- 商业使用 - 在商业产品和服务中使用
- 研究使用 - 学术和研究应用
- 修改 - 对模型进行修改和调整
- 分发 - 分享和重新分发模型
- 私人使用 - 在公司内部项目中使用
对商业应用没有限制,可以自由构建和部署!
思考模式和非思考模式有什么区别?
思考模式(enable_thinking=True
):
- 模型会在
<think>...</think>
块中展示其推理过程 - 更适合处理复杂问题、数学、编码和逻辑推理
- 响应速度较慢,但更准确
- 推荐用于需要深入分析的任务
非思考模式(enable_thinking=False
):
- 直接给出答案,不展示推理过程
- 对于一般对话,响应速度更快
- 更适合简单查询和聊天应用
- 资源使用效率更高
你可以在两种模式之间切换,或者让用户使用/think
和/no_think
命令动态控制。
Chinda LLM 4B与其他泰语模型相比如何?
与最接近的对比模型相比,Chinda LLM 4B的整体性能提高了37%:
- 整体平均值: 0.569 vs 0.414(对比模型)
- 数学(MATH500): 英语为0.908 vs 0.702,泰语为0.612 vs 0.566
- 代码(LiveCodeBench): 英语为0.665 vs 0.209,泰语为0.198 vs 0.144
- 泰语准确性: 98.4%(防止输出中文/外语)
- OpenThaiEval: 0.651 vs 0.544
它目前是4B参数级别的泰语大语言模型中得分最高的。
运行Chinda LLM 4B需要什么系统要求?
最低要求:
- GPU: 8GB显存(RTX 3070/4060 Ti或更高)
- 内存: 16GB系统内存
- 存储: 8GB可用空间用于模型下载
- Python: 3.8及以上版本,搭配PyTorch
生产环境推荐:
- GPU: 16GB及以上显存(RTX 4080/A4000或更高)
- 内存: 32GB及以上系统内存
- 存储: 使用SSD以加快加载速度
仅使用CPU模式: 可行,但速度会显著减慢(不推荐用于生产环境)
我可以针对特定用例对Chinda LLM 4B进行微调吗?
可以!作为遵循Apache 2.0许可证的开源模型,你可以:
- 在特定领域的数据上进行微调
- 针对特定任务或行业进行定制
- 必要时修改架构
- 创建用于特定应用的衍生模型
适用于Chinda的流行微调框架包括:
- Unsloth - 快速且内存高效
- LoRA/QLoRA - 参数高效的微调
- Hugging Face Transformers - 全量微调
- Axolotl - 高级训练配置
需要微调帮助?请通过sale@iapp.co.th联系我们的团队。
Chinda LLM 4B支持哪些语言?
主要语言:
- 泰语 - 达到母语水平的理解和生成能力(准确率98.4%)
- 英语 - 在所有基准测试中表现出色
其他语言:
- 支持100多种语言(继承自Qwen3 - 4B基础模型)
- 专注于优化泰英双语任务
- 支持多种编程语言的代码生成
特殊功能:
- 在泰语和英语之间进行代码切换
- 在泰语和其他语言之间进行翻译
- 具备多语言推理能力
训练数据是否公开可用?
模型权重是开源的,但具体的训练数据集并未公开发布。不过:
- 基础模型: 基于Qwen3 - 4B(阿里巴巴的开放基础模型)构建
- 泰语优化: 为泰语任务定制了数据集
- 质量优先: 精心挑选了高质量的泰语内容
- 隐私合规: 不包含个人或敏感数据
如需进行研究合作或咨询数据集相关问题,请联系我们的研究团队。
如何获得支持或报告问题?
技术问题:
- GitHub Issues: 报告漏洞和技术问题
- Hugging Face: 提出与模型相关的问题并参与讨论
- 文档: 查看我们全面的指南
商业支持:
- 邮箱: sale@iapp.co.th
- 企业支持: 提供定制训练和部署协助
- 咨询服务: 提供集成和优化服务
社区支持:
- 泰国AI社区: 参与关于泰国AI发展的讨论
- 开发者论坛: 与其他Chinda用户交流
模型下载大小是多少,采用什么格式?
模型规格:
- 参数数量: 40.2亿(4B)
- 下载大小: 约8GB(压缩后)
- 格式: Safetensors(推荐)和PyTorch
- 精度: BF16(脑浮点16位)
下载选项:
- Hugging Face Hub:
huggingface.co/iapp/chinda-qwen3-4b
- Git LFS: 用于版本控制集成
- 直接下载: 单个模型文件
- 量化版本: 提供减少内存使用的版本(GGUF,AWQ)
量化选项:
- 4位(GGUF): 约2.5GB,可在4GB显存的GPU上运行
- 8位: 约4GB,性能和内存使用平衡
- 16位(原始): 约8GB,全性能版本
📄 许可证
本项目采用Apache 2.0许可证。
🔧 技术细节
如果你在研究或项目中使用了Chinda LLM 4B,请按以下格式引用:
@misc{chinda-llm-4b,
title={Chinda LLM 4B: Thai Sovereign AI Language Model},
author={iApp Technology},
year={2025},
publisher={Hugging Face},
url={https://huggingface.co/iapp/chinda-qwen3-4b}
}
由iApp Technology打造 - 以卓越的自主AI赋能泰国企业
由iApp Technology提供支持
免责声明:提供的响应不保证完全准确。



