🚀 Bahasa-4bモデルレポート
Bahasa-4bは、インドネシア語の理解と生成を必要とする様々なNLPタスクに最適化されたモデルです。高品質なインドネシア語のデータで学習され、いくつかの4bモデルや7bモデルを上回る性能を発揮します。
🚀 クイックスタート
このコード例は、Bahasa-4bモデルを使用してインドネシア語のテキストを生成する方法を示しています。
from transformers import AutoModelForCausalLM, AutoTokenizer
device = "cuda"
model = AutoModelForCausalLM.from_pretrained(
"Bahasalab/Bahasa-4b-chat-v2",
torch_dtype="auto",
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained("Bahasalab/Bahasa-4b-chat")
messages = [
{"role": "system", "content": "Kamu adalah asisten yang membantu"},
{"role": "user", "content": "kamu siapa"}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(device)
generated_ids = model.generate(
input_ids=model_inputs.input_ids,
attention_mask=model_inputs.attention_mask,
max_new_tokens=512,
eos_token_id=tokenizer.eos_token_id
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)
✨ 主な機能
- Bahasa-4bは、qwen-4bをベースに、100億件のデータセットから選び出した100億の高品質なインドネシア語のテキストデータで追加学習されています。
- インドネシア語のタスクにおいて、いくつかの4bモデルや7bモデルを上回る性能を発揮します。
- 質問応答、感情分析、文書要約などの様々なNLPタスクに適しています。
📦 インストール
このモデルを使用するには、transformers
ライブラリが必要です。以下のコマンドでインストールできます。
pip install transformers
📚 ドキュメント
モデル名
Bahasa-4b
モデル詳細
Bahasa-4bは、qwen-4bをベースに、100億件のデータセットから選び出した100億の高品質なインドネシア語のテキストデータで追加学習されています。インドネシア語のタスクにおいて、いくつかの4bモデルや7bモデルを上回る性能を発揮します。
モデル開発者
Bahasa AI
想定用途
このモデルは、インドネシア語の理解と生成を必要とする様々なNLPタスクに使用されます。質問応答、感情分析、文書要約などのアプリケーションに適しています。
学習データ
Bahasa-4bは、100億件のインドネシア語データセットから選び出した100億件のデータで学習されました。
ベンチマーク
以下の表は、Bahasa-4bとSailor_4b、Mistral-7B-v0.1のモデルをいくつかのベンチマークで比較した結果を示しています。
データセット |
バージョン |
指標 |
モード |
Sailor_4b |
Bahasa-4b-hf |
Mistral-7B-v0.1 |
tydiqa-id |
0e9309 |
EM |
gen |
53.98 |
55.04 |
63.54 |
tydiqa-id |
0e9309 |
F1 |
gen |
73.48 |
75.39 |
78.73 |
xcopa-id |
36c11c |
EM |
ppl |
69.2 |
73.2 |
62.40 |
xcopa-id |
36c11c |
F1 |
ppl |
69.2 |
73.2 |
- |
m3exam-id-ppl |
ede415 |
EM |
ppl |
31.27 |
44.47 |
26.68 |
belebele-id-ppl |
7fe030 |
EM |
ppl |
41.33 |
42.33 |
41.33 |
このデータは、Bahasa-4bが様々なインドネシア語タスクでSailor_4bモデルを上回り、様々なデータセットでEM(完全一致)とF1スコアの両方で改善を示し、Mistral-7B-v0.1モデルと競争力があることを示しています。
📄 ライセンス
このモデルは、tongyi-qianwenライセンスの下で提供されています。