🚀 粤语大语言模型聊天版 v1.0 - 32B
粤语大语言模型聊天版 v1.0 是 hon9kon9ize 推出的第一代粤语大语言模型。它基于 v0.5 预览版 的成功经验,在与香港相关的特定知识和粤语对话方面表现出色。

📚 详细文档
模型描述
基础模型是通过对 通义千问 2.5 32B 进行持续预训练得到的,使用了 6 亿篇公开的香港新闻文章和粤语网站数据。指令微调模型则是使用包含 75000 对指令的数据集进行训练的,其中 45000 对是由其他大语言模型生成并经过人工审核的粤语指令。
该模型在 玄海超级计算机 上使用 16 块英伟达 H100 96GB HBM2e GPU 进行训练。
属性 |
详情 |
模型类型 |
粤语大语言模型聊天版 v1.0 - 32B |
基础模型 |
hon9kon9ize/CantoneseLLM - v1.0 - 32B - cpt |
预训练数据 |
6 亿篇公开的香港新闻文章和粤语网站数据 |
微调数据 |
75000 对指令,其中 45000 对为粤语指令 |
训练硬件 |
16 块英伟达 H100 96GB HBM2e GPU |
性能表现
在 香港评估基准 中,该模型在理解粤语和香港文化方面是同类开源大语言模型中的佼佼者。不过,正如我们所看到的,推理模型的表现明显优于其他模型。目前,团队正在为 v2 版本开发推理模型。
模型 |
香港文化(零样本) |
粤语语言学 |
粤语大语言模型聊天版 v0.5 6B |
52.0% |
12.8% |
粤语大语言模型聊天版 v0.5 34B |
72.5% |
54.5% |
粤语大语言模型聊天版 v1.0 3B |
56.0% |
45.7% |
粤语大语言模型聊天版 v1.0 7B |
60.3% |
46.5% |
粤语大语言模型聊天版 v1.0 32B |
69.8% |
52.7% |
粤语大语言模型聊天版 v1.0 72B |
75.4% |
59.6% |
Llama 3.1 8B 指令版 |
45.6% |
35.1% |
Llama 3.1 70B 指令版 |
63.0% |
50.3% |
通义千问 2.5 7B 指令版 |
51.2% |
30.3% |
通义千问 2.5 32B 指令版 |
59.9% |
45.1% |
通义千问 2.5 72B 指令版 |
65.9% |
45.9% |
Claude 3.5 Sonnet |
71.7% |
63.2% |
DeepSeek R1 |
88.8% |
77.5% |
Gemini 2.0 Flash |
80.2% |
75.3% |
Gemini 2.5 Pro |
92.1% |
87.3% |
GPT4o |
77.5% |
63.8% |
GPT4o - mini |
55.6% |
57.3% |
💻 使用示例
基础用法
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
model_id = "hon9kon9ize/CantoneseLLMChat-v1.0-32B"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
model_id,
torch_dtype=torch.bfloat16,
device_map="auto",
)
def chat(messages, temperature=0.9, max_new_tokens=200):
input_ids = tokenizer.apply_chat_template(conversation=messages, tokenize=True, add_generation_prompt=True, return_tensors='pt').to('cuda:0')
output_ids = model.generate(input_ids, max_new_tokens=max_new_tokens, temperature=temperature)
response = tokenizer.decode(output_ids[0][input_ids.shape[1]:], skip_special_tokens=False)
return response
prompt = "邊個係香港特首?"
messages = [
{"role": "system", "content": "you are a helpful assistant."},
{"role": "user", "content": prompt}
]
print(chat(messages))
📄 许可证
许可证类型:其他