Bahasa-4b-chat開源印尼語大語言模型 - 基於高質量語料訓練，暢聊印尼語話題

首頁

Bahasa 4b Chat

由Bahasalab開發

基於qwen-4b模型，使用100億高質量印尼語文本繼續訓練而成的印尼語大語言模型

大型語言模型

Transformers

其他開源協議:其他 #印尼語優化 #問答系統 #多任務處理

下載量 120

發布時間 : 4/26/2024

模型概述

Bahasa-4b是針對印尼語優化的語言模型，在印尼語任務上表現優於部分4b甚至7b規模的模型，適用於問答系統、情感分析、文檔摘要等應用場景

模型特點

印尼語優化

使用100億高質量印尼語文本專門訓練，在印尼語任務上表現優異

高效性能

4b參數規模下性能優於部分7b模型

廣泛適用

支持多種自然語言處理任務

模型能力

印尼語文本生成

問答系統

情感分析

文檔摘要

使用案例

教育

印尼語學習助手

幫助學習者理解和生成印尼語內容

提供準確的印尼語解釋和示例

商業

印尼市場分析

分析印尼語商業文檔和客戶反饋

提取關鍵商業洞察和趨勢

🚀 印尼語-4b模型報告

本報告介紹的印尼語-4b模型，基於高質量印尼語數據持續訓練，在多項印尼語NLP任務中表現出色，為相關應用提供了有力支持。

✨ 主要特性

持續訓練：基於通義千問-4b（qwen-4b）模型，使用100億印尼語數據中的10億高質量文本進行持續訓練。
性能優越：在印尼語任務上超越了一些40億參數甚至70億參數的模型。
應用廣泛：適用於問答、情感分析、文檔摘要等多種自然語言處理任務。

📦 安裝指南

本部分暫未提供安裝相關命令，若有需要可參考模型官方文檔。

💻 使用示例

基礎用法

from transformers import AutoModelForCausalLM, AutoTokenizer
device = "cuda" # the device to load the model onto

model = AutoModelForCausalLM.from_pretrained(
    "Bahasalab/Bahasa-4b-chat-v2",
    torch_dtype="auto",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained("Bahasalab/Bahasa-4b-chat")

messages = [
    {"role": "system", "content": "Kamu adalah asisten yang membantu"},
    {"role": "user", "content": "kamu siapa"}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)

model_inputs = tokenizer([text], return_tensors="pt").to(device)

generated_ids = model.generate(
    input_ids=model_inputs.input_ids,
    attention_mask=model_inputs.attention_mask,
    max_new_tokens=512,
    eos_token_id=tokenizer.eos_token_id

)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)

高級用法

目前文檔未提供高級用法示例，你可以根據實際需求對代碼進行擴展和優化。

📚 詳細文檔

模型名稱

印尼語-4b（Bahasa-4b）

模型開發者

Bahasa AI

預期用途

該模型旨在用於各種需要理解和生成印尼語的自然語言處理任務，適用於問答、情感分析、文檔摘要等應用場景。

訓練數據

印尼語-4b模型在從1000億數據池中收集的100億印尼語數據子集上進行訓練。

基準測試

以下表格展示了印尼語-4b模型與Sailor_4b和Mistral-7B-v0.1模型在多個基準測試中的性能對比：

數據集	版本	指標	模式	Sailor_4b	印尼語-4b-hf	Mistral-7B-v0.1
tydiqa-id	0e9309	EM	gen	53.98	55.04	63.54
tydiqa-id	0e9309	F1	gen	73.48	75.39	78.73
xcopa-id	36c11c	EM	ppl	69.2	73.2	62.40
xcopa-id	36c11c	F1	ppl	69.2	73.2	-
m3exam-id-ppl	ede415	EM	ppl	31.27	44.47	26.68
belebele-id-ppl	7fe030	EM	ppl	41.33	42.33	41.33