🚀 印尼语-4b模型报告
本报告介绍的印尼语-4b模型,基于高质量印尼语数据持续训练,在多项印尼语NLP任务中表现出色,为相关应用提供了有力支持。
✨ 主要特性
- 持续训练:基于通义千问-4b(qwen-4b)模型,使用100亿印尼语数据中的10亿高质量文本进行持续训练。
- 性能优越:在印尼语任务上超越了一些40亿参数甚至70亿参数的模型。
- 应用广泛:适用于问答、情感分析、文档摘要等多种自然语言处理任务。
📦 安装指南
本部分暂未提供安装相关命令,若有需要可参考模型官方文档。
💻 使用示例
基础用法
from transformers import AutoModelForCausalLM, AutoTokenizer
device = "cuda"
model = AutoModelForCausalLM.from_pretrained(
"Bahasalab/Bahasa-4b-chat-v2",
torch_dtype="auto",
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained("Bahasalab/Bahasa-4b-chat")
messages = [
{"role": "system", "content": "Kamu adalah asisten yang membantu"},
{"role": "user", "content": "kamu siapa"}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(device)
generated_ids = model.generate(
input_ids=model_inputs.input_ids,
attention_mask=model_inputs.attention_mask,
max_new_tokens=512,
eos_token_id=tokenizer.eos_token_id
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)
高级用法
目前文档未提供高级用法示例,你可以根据实际需求对代码进行扩展和优化。
📚 详细文档
模型名称
印尼语-4b(Bahasa-4b)
模型开发者
Bahasa AI
预期用途
该模型旨在用于各种需要理解和生成印尼语的自然语言处理任务,适用于问答、情感分析、文档摘要等应用场景。
训练数据
印尼语-4b模型在从1000亿数据池中收集的100亿印尼语数据子集上进行训练。
基准测试
以下表格展示了印尼语-4b模型与Sailor_4b和Mistral-7B-v0.1模型在多个基准测试中的性能对比:
数据集 |
版本 |
指标 |
模式 |
Sailor_4b |
印尼语-4b-hf |
Mistral-7B-v0.1 |
tydiqa-id |
0e9309 |
EM |
gen |
53.98 |
55.04 |
63.54 |
tydiqa-id |
0e9309 |
F1 |
gen |
73.48 |
75.39 |
78.73 |
xcopa-id |
36c11c |
EM |
ppl |
69.2 |
73.2 |
62.40 |
xcopa-id |
36c11c |
F1 |
ppl |
69.2 |
73.2 |
- |
m3exam-id-ppl |
ede415 |
EM |
ppl |
31.27 |
44.47 |
26.68 |
belebele-id-ppl |
7fe030 |
EM |
ppl |
41.33 |
42.33 |
41.33 |
这些数据表明,印尼语-4b模型在各种印尼语任务中始终优于Sailor_4b模型,在不同数据集上的精确匹配(EM)和F1分数均有所提高,并且与Mistral-7B-v0.1模型具有竞争力。
📄 许可证
本模型使用通义千问(tongyi-qianwen)相关许可。