模型概述
模型特點
模型能力
使用案例
🚀 Chinda開源泰語大語言模型4B (GGUF Q4_K_M)
Chinda開源泰語大語言模型4B是iApp Technology推出的前沿泰語模型,為泰國AI生態系統帶來了先進的思考能力。它基於最新的Qwen3 - 4B架構構建,體現了我們為泰國開發自主AI解決方案的承諾。
🚀 快速開始
安裝
pip install transformers torch
基礎用法
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "iapp/chinda-qwen3-4b"
# 加載分詞器和模型
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
# 準備模型輸入
prompt = "อธิบายเกี่ยวกับปัญญาประดิษฐ์ให้ฟังหน่อย"
messages = [
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True,
enable_thinking=True # 啟用思考模式以獲得更好的推理能力
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
# 生成響應
generated_ids = model.generate(
**model_inputs,
max_new_tokens=1024,
temperature=0.6,
top_p=0.95,
top_k=20,
do_sample=True
)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist()
# 解析思考內容(如果啟用)
try:
# 查找</think>標記 (151668)
index = len(output_ids) - output_ids[::-1].index(151668)
except ValueError:
index = 0
thinking_content = tokenizer.decode(output_ids[:index], skip_special_tokens=True).strip("\n")
content = tokenizer.decode(output_ids[index:], skip_special_tokens=True).strip("\n")
print("ü߆ 思考內容:", thinking_content)
print("üí¨ 響應內容:", content)
切換思考和非思考模式
啟用思考模式(默認)
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True,
enable_thinking=True # 啟用詳細推理
)
禁用思考模式(提高效率)
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True,
enable_thinking=False # 快速響應模式
)
API部署
使用vLLM
pip install vllm>=0.8.5
vllm serve iapp/chinda-qwen3-4b --enable-reasoning --reasoning-parser deepseek_r1
使用SGLang
pip install sglang>=0.4.6.post1
python -m sglang.launch_server --model-path iapp/chinda-qwen3-4b --reasoning-parser qwen3
使用Ollama(簡易本地部署)
安裝:
# 安裝Ollama(如果尚未安裝)
curl -fsSL https://ollama.com/install.sh | sh
# 拉取Chinda LLM 4B模型
ollama pull iapp/chinda-qwen3-4b
基礎用法:
# 開始與Chinda LLM聊天
ollama run iapp/chinda-qwen3-4b
# 示例對話
ollama run iapp/chinda-qwen3-4b "อธิบายเกี่ยวกับปัญญาประดิษฐ์ให้ฟังหน่อย"
API服務器:
# 啟動Ollama API服務器
ollama serve
# 使用curl調用
curl http://localhost:11434/api/generate -d '{
"model": "iapp/chinda-qwen3-4b",
"prompt": "สวัสดีครับ",
"stream": false
}'
模型規格:
- 大小: 2.5GB(量化後)
- 上下文窗口: 40K個標記
- 架構: 針對本地部署進行了優化
- 性能: 在消費級硬件上推理速度快
✨ 主要特性
0. 面向所有人免費開源
Chinda LLM 4B完全免費且開源,使開發者、研究人員和企業能夠無限制地構建泰語AI應用程序。
1. 先進的思考模型
- 在4B參數級別的泰語大語言模型中得分最高
- 能夠在思考和非思考模式之間無縫切換
- 對複雜問題具有卓越的推理能力
- 可關閉思考模式以進行高效的通用對話
2. 出色的泰語準確性
- 輸出泰語的準確率達到98.4%
- 防止出現不必要的中文和外語輸出
- 專門針對泰語語言模式進行了微調
3. 最新架構
- 基於前沿的Qwen3 - 4B模型
- 融入了語言建模領域的最新進展
- 在性能和效率方面都進行了優化
4. 遵循Apache 2.0許可證
- 允許商業使用
- 允許修改和分發
- 對私人使用沒有限制
📚 詳細文檔
基準測試結果
Chinda LLM 4B在同類泰語模型中表現卓越:
基準測試 | 語言 | Chinda LLM 4B | 對比模型* |
---|---|---|---|
AIME24 | 英語 | 0.533 | 0.100 |
泰語 | 0.100 | 0.000 | |
LiveCodeBench | 英語 | 0.665 | 0.209 |
泰語 | 0.198 | 0.144 | |
MATH500 | 英語 | 0.908 | 0.702 |
泰語 | 0.612 | 0.566 | |
IFEVAL | 英語 | 0.849 | 0.848 |
泰語 | 0.683 | 0.740 | |
語言準確性 | 泰語 | 0.984 | 0.992 |
OpenThaiEval | 泰語 | 0.651 | 0.544 |
平均值 | 0.569 | 0.414 |
- 對比模型:scb10x_typhoon2.1 - gemma3 - 4b
- 由iApp Technology團隊使用Skythought和Evalscope基準測試庫進行測試。結果顯示,Chinda LLM 4B的整體性能比最接近的對比模型高出37%。
適用場景
1. RAG應用(自主AI)
非常適合構建檢索增強生成系統,確保數據處理在泰國主權範圍內進行。
2. 移動和筆記本應用
可靠的小型語言模型,針對邊緣計算和個人設備進行了優化。
3. 數學計算
在數學推理和問題解決方面表現出色。
4. 代碼助手
在代碼生成和編程輔助方面具有強大的能力。
5. 資源高效性
推理速度非常快,GPU內存消耗極少,非常適合生產部署。
不適用場景
缺乏上下文的事實性問題
作為一個4B參數的模型,在沒有提供上下文的情況下被詢問具體事即時可能會產生幻覺。在進行事實性查詢時,始終使用RAG或提供相關上下文。
高級配置
處理長文本
Chinda LLM 4B原生支持最多32,768個標記。對於更長的上下文,可以啟用YaRN縮放:
{
"rope_scaling": {
"rope_type": "yarn",
"factor": 4.0,
"original_max_position_embeddings": 32768
}
}
推薦參數
思考模式:
- 溫度:0.6
- 採樣概率:0.95
- 採樣數量:20
- 最小採樣概率:0
非思考模式:
- 溫度:0.7
- 採樣概率:0.8
- 採樣數量:20
- 最小採樣概率:0
上下文長度和模板格式
上下文長度支持
- 原生上下文長度: 32,768個標記
- 擴展上下文長度: 最多131,072個標記(使用YaRN縮放)
- 輸入 + 輸出: 支持的總對話長度
- 推薦用法: 為了獲得最佳性能,保持對話長度在32K個標記以內
聊天模板格式
Chinda LLM 4B使用標準化的聊天模板格式進行一致的交互:
# 基本模板結構
messages = [
{"role": "system", "content": "You are a helpful Thai AI assistant."},
{"role": "user", "content": "สวัสดีครับ"},
{"role": "assistant", "content": "สวัสดีค่ะ! มีอะไรให้ช่วยเหลือบ้างคะ"},
{"role": "user", "content": "ช่วยอธิบายเรื่อง AI ให้ฟังหน่อย"}
]
# 應用帶有思考模式的模板
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True,
enable_thinking=True
)
模板結構
模板遵循標準的對話格式:
<|im_start|>system
You are a helpful Thai AI assistant.<|im_end|>
<|im_start|>user
สวัสดีครับ<|im_end|>
<|im_start|>assistant
สวัสดีค่ะ! มีอะไรให้ช่วยเหลือบ้างคะ<|im_end|>
<|im_start|>user
ช่วยอธิบายเรื่อง AI ให้ฟังหน่อย<|im_end|>
<|im_start|>assistant
高級模板用法
# 帶有思考控制的多輪對話
def create_conversation(messages, enable_thinking=True):
# 如果沒有系統消息,則添加系統消息
if not messages or messages[0]["role"] != "system":
system_msg = {
"role": "system",
"content": "คุณเป็น AI ผู้ช่วยที่ฉลาดและเป็นประโยชน์ พูดภาษาไทยได้อย่างเป็นธรรมชาติ"
}
messages = [system_msg] + messages
# 應用聊天模板
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True,
enable_thinking=enable_thinking
)
return text
# 示例用法
conversation = [
{"role": "user", "content": "คำนวณ 15 × 23 = ?"},
]
prompt = create_conversation(conversation, enable_thinking=True)
動態模式切換
你可以在對話中使用特殊命令來控制思考模式:
# 為複雜問題啟用思考模式
messages = [
{"role": "user", "content": "/think แก้สมการ: x² + 5x - 14 = 0"}
]
# 為快速響應禁用思考模式
messages = [
{"role": "user", "content": "/no_think สวัสดี"}
]
上下文管理最佳實踐
- 監控標記數量: 跟蹤總標記數(輸入 + 輸出)
- 截斷舊消息: 接近限制時刪除最舊的消息
- 對長上下文使用YaRN: 對於超過32K個標記的文檔,啟用rope縮放
- 批量處理: 對於非常長的文本,考慮分塊並批量處理
def manage_context(messages, max_tokens=30000):
"""簡單的上下文管理函數"""
total_tokens = sum(len(tokenizer.encode(msg["content"])) for msg in messages)
while total_tokens > max_tokens and len(messages) > 2:
# 保留系統消息並刪除最舊的用戶/助手消息對
if messages[1]["role"] == "user":
messages.pop(1) # 刪除用戶消息
if len(messages) > 1 and messages[1]["role"] == "assistant":
messages.pop(1) # 刪除相應的助手消息
total_tokens = sum(len(tokenizer.encode(msg["content"])) for msg in messages)
return messages
企業支持
對於企業部署、定製訓練或商業支持,請通過以下方式聯繫我們:
- 郵箱: sale@iapp.co.th
- 網站: iapp.co.th
常見問題解答
為什麼模型名為“Chinda”?
“Chinda”(‡∏à‡∏¥‡∏ô‡∏î‡∏≤)這個名字來源於“‡∏à‡∏¥‡∏ô‡∏î‡∏≤‡∏°‡∏ì‡∏µ”(Chindamani),它被認為是泰國素可泰時期由帕拉·霍拉蒂博迪(Sri Dharmasokaraja)撰寫的第一本書。就像《Chindamani》是泰國文學和學習的基礎文本一樣,Chinda LLM代表了我們泰國自主AI的基礎——一個真正理解並以泰語思考的模型,在數字時代保留並提升泰語能力。
我可以將Chinda LLM 4B用於商業目的嗎?
可以!Chinda LLM 4B遵循Apache 2.0許可證,允許:
- 商業使用 - 在商業產品和服務中使用
- 研究使用 - 學術和研究應用
- 修改 - 對模型進行修改和調整
- 分發 - 分享和重新分發模型
- 私人使用 - 在公司內部項目中使用
對商業應用沒有限制,可以自由構建和部署!
思考模式和非思考模式有什麼區別?
思考模式(enable_thinking=True
):
- 模型會在
<think>...</think>
塊中展示其推理過程 - 更適合處理複雜問題、數學、編碼和邏輯推理
- 響應速度較慢,但更準確
- 推薦用於需要深入分析的任務
非思考模式(enable_thinking=False
):
- 直接給出答案,不展示推理過程
- 對於一般對話,響應速度更快
- 更適合簡單查詢和聊天應用
- 資源使用效率更高
你可以在兩種模式之間切換,或者讓用戶使用/think
和/no_think
命令動態控制。
Chinda LLM 4B與其他泰語模型相比如何?
與最接近的對比模型相比,Chinda LLM 4B的整體性能提高了37%:
- 整體平均值: 0.569 vs 0.414(對比模型)
- 數學(MATH500): 英語為0.908 vs 0.702,泰語為0.612 vs 0.566
- 代碼(LiveCodeBench): 英語為0.665 vs 0.209,泰語為0.198 vs 0.144
- 泰語準確性: 98.4%(防止輸出中文/外語)
- OpenThaiEval: 0.651 vs 0.544
它目前是4B參數級別的泰語大語言模型中得分最高的。
運行Chinda LLM 4B需要什麼系統要求?
最低要求:
- GPU: 8GB顯存(RTX 3070/4060 Ti或更高)
- 內存: 16GB系統內存
- 存儲: 8GB可用空間用於模型下載
- Python: 3.8及以上版本,搭配PyTorch
生產環境推薦:
- GPU: 16GB及以上顯存(RTX 4080/A4000或更高)
- 內存: 32GB及以上系統內存
- 存儲: 使用SSD以加快加載速度
僅使用CPU模式: 可行,但速度會顯著減慢(不推薦用於生產環境)
我可以針對特定用例對Chinda LLM 4B進行微調嗎?
可以!作為遵循Apache 2.0許可證的開源模型,你可以:
- 在特定領域的數據上進行微調
- 針對特定任務或行業進行定製
- 必要時修改架構
- 創建用於特定應用的衍生模型
適用於Chinda的流行微調框架包括:
- Unsloth - 快速且內存高效
- LoRA/QLoRA - 參數高效的微調
- Hugging Face Transformers - 全量微調
- Axolotl - 高級訓練配置
需要微調幫助?請通過sale@iapp.co.th聯繫我們的團隊。
Chinda LLM 4B支持哪些語言?
主要語言:
- 泰語 - 達到母語水平的理解和生成能力(準確率98.4%)
- 英語 - 在所有基準測試中表現出色
其他語言:
- 支持100多種語言(繼承自Qwen3 - 4B基礎模型)
- 專注於優化泰英雙語任務
- 支持多種編程語言的代碼生成
特殊功能:
- 在泰語和英語之間進行代碼切換
- 在泰語和其他語言之間進行翻譯
- 具備多語言推理能力
訓練數據是否公開可用?
模型權重是開源的,但具體的訓練數據集並未公開發布。不過:
- 基礎模型: 基於Qwen3 - 4B(阿里巴巴的開放基礎模型)構建
- 泰語優化: 為泰語任務定製了數據集
- 質量優先: 精心挑選了高質量的泰語內容
- 隱私合規: 不包含個人或敏感數據
如需進行研究合作或諮詢數據集相關問題,請聯繫我們的研究團隊。
如何獲得支持或報告問題?
技術問題:
- GitHub Issues: 報告漏洞和技術問題
- Hugging Face: 提出與模型相關的問題並參與討論
- 文檔: 查看我們全面的指南
商業支持:
- 郵箱: sale@iapp.co.th
- 企業支持: 提供定製訓練和部署協助
- 諮詢服務: 提供集成和優化服務
社區支持:
- 泰國AI社區: 參與關於泰國AI發展的討論
- 開發者論壇: 與其他Chinda用戶交流
模型下載大小是多少,採用什麼格式?
模型規格:
- 參數數量: 40.2億(4B)
- 下載大小: 約8GB(壓縮後)
- 格式: Safetensors(推薦)和PyTorch
- 精度: BF16(腦浮點16位)
下載選項:
- Hugging Face Hub:
huggingface.co/iapp/chinda-qwen3-4b
- Git LFS: 用於版本控制集成
- 直接下載: 單個模型文件
- 量化版本: 提供減少內存使用的版本(GGUF,AWQ)
量化選項:
- 4位(GGUF): 約2.5GB,可在4GB顯存的GPU上運行
- 8位: 約4GB,性能和內存使用平衡
- 16位(原始): 約8GB,全性能版本
📄 許可證
本項目採用Apache 2.0許可證。
🔧 技術細節
如果你在研究或項目中使用了Chinda LLM 4B,請按以下格式引用:
@misc{chinda-llm-4b,
title={Chinda LLM 4B: Thai Sovereign AI Language Model},
author={iApp Technology},
year={2025},
publisher={Hugging Face},
url={https://huggingface.co/iapp/chinda-qwen3-4b}
}
由iApp Technology打造 - 以卓越的自主AI賦能泰國企業
由iApp Technology提供支持
免責聲明:提供的響應不保證完全準確。



