🚀 印尼語-4b模型報告
本報告介紹的印尼語-4b模型,基於高質量印尼語數據持續訓練,在多項印尼語NLP任務中表現出色,為相關應用提供了有力支持。
✨ 主要特性
- 持續訓練:基於通義千問-4b(qwen-4b)模型,使用100億印尼語數據中的10億高質量文本進行持續訓練。
- 性能優越:在印尼語任務上超越了一些40億參數甚至70億參數的模型。
- 應用廣泛:適用於問答、情感分析、文檔摘要等多種自然語言處理任務。
📦 安裝指南
本部分暫未提供安裝相關命令,若有需要可參考模型官方文檔。
💻 使用示例
基礎用法
from transformers import AutoModelForCausalLM, AutoTokenizer
device = "cuda"
model = AutoModelForCausalLM.from_pretrained(
"Bahasalab/Bahasa-4b-chat-v2",
torch_dtype="auto",
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained("Bahasalab/Bahasa-4b-chat")
messages = [
{"role": "system", "content": "Kamu adalah asisten yang membantu"},
{"role": "user", "content": "kamu siapa"}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(device)
generated_ids = model.generate(
input_ids=model_inputs.input_ids,
attention_mask=model_inputs.attention_mask,
max_new_tokens=512,
eos_token_id=tokenizer.eos_token_id
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)
高級用法
目前文檔未提供高級用法示例,你可以根據實際需求對代碼進行擴展和優化。
📚 詳細文檔
模型名稱
印尼語-4b(Bahasa-4b)
模型開發者
Bahasa AI
預期用途
該模型旨在用於各種需要理解和生成印尼語的自然語言處理任務,適用於問答、情感分析、文檔摘要等應用場景。
訓練數據
印尼語-4b模型在從1000億數據池中收集的100億印尼語數據子集上進行訓練。
基準測試
以下表格展示了印尼語-4b模型與Sailor_4b和Mistral-7B-v0.1模型在多個基準測試中的性能對比:
數據集 |
版本 |
指標 |
模式 |
Sailor_4b |
印尼語-4b-hf |
Mistral-7B-v0.1 |
tydiqa-id |
0e9309 |
EM |
gen |
53.98 |
55.04 |
63.54 |
tydiqa-id |
0e9309 |
F1 |
gen |
73.48 |
75.39 |
78.73 |
xcopa-id |
36c11c |
EM |
ppl |
69.2 |
73.2 |
62.40 |
xcopa-id |
36c11c |
F1 |
ppl |
69.2 |
73.2 |
- |
m3exam-id-ppl |
ede415 |
EM |
ppl |
31.27 |
44.47 |
26.68 |
belebele-id-ppl |
7fe030 |
EM |
ppl |
41.33 |
42.33 |
41.33 |
這些數據表明,印尼語-4b模型在各種印尼語任務中始終優於Sailor_4b模型,在不同數據集上的精確匹配(EM)和F1分數均有所提高,並且與Mistral-7B-v0.1模型具有競爭力。
📄 許可證
本模型使用通義千問(tongyi-qianwen)相關許可。