Bahasa-4b-chat开源印尼语大语言模型 - 基于高质量语料训练，畅聊印尼语话题

首页

Bahasa 4b Chat

由 Bahasalab 开发

基于qwen-4b模型，使用100亿高质量印尼语文本继续训练而成的印尼语大语言模型

大型语言模型

Transformers

其他开源协议:其他 #印尼语优化 #问答系统 #多任务处理

下载量 120

发布时间 : 4/26/2024

模型简介

Bahasa-4b是针对印尼语优化的语言模型，在印尼语任务上表现优于部分4b甚至7b规模的模型，适用于问答系统、情感分析、文档摘要等应用场景

模型特点

印尼语优化

使用100亿高质量印尼语文本专门训练，在印尼语任务上表现优异

高效性能

4b参数规模下性能优于部分7b模型

广泛适用

支持多种自然语言处理任务

模型能力

印尼语文本生成

问答系统

情感分析

文档摘要

使用案例

教育

印尼语学习助手

帮助学习者理解和生成印尼语内容

提供准确的印尼语解释和示例

商业

印尼市场分析

分析印尼语商业文档和客户反馈

提取关键商业洞察和趋势

🚀 印尼语-4b模型报告

本报告介绍的印尼语-4b模型，基于高质量印尼语数据持续训练，在多项印尼语NLP任务中表现出色，为相关应用提供了有力支持。

✨ 主要特性

持续训练：基于通义千问-4b（qwen-4b）模型，使用100亿印尼语数据中的10亿高质量文本进行持续训练。
性能优越：在印尼语任务上超越了一些40亿参数甚至70亿参数的模型。
应用广泛：适用于问答、情感分析、文档摘要等多种自然语言处理任务。

📦 安装指南

本部分暂未提供安装相关命令，若有需要可参考模型官方文档。

💻 使用示例

基础用法

from transformers import AutoModelForCausalLM, AutoTokenizer
device = "cuda" # the device to load the model onto

model = AutoModelForCausalLM.from_pretrained(
    "Bahasalab/Bahasa-4b-chat-v2",
    torch_dtype="auto",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained("Bahasalab/Bahasa-4b-chat")

messages = [
    {"role": "system", "content": "Kamu adalah asisten yang membantu"},
    {"role": "user", "content": "kamu siapa"}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)

model_inputs = tokenizer([text], return_tensors="pt").to(device)

generated_ids = model.generate(
    input_ids=model_inputs.input_ids,
    attention_mask=model_inputs.attention_mask,
    max_new_tokens=512,
    eos_token_id=tokenizer.eos_token_id

)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)

高级用法

目前文档未提供高级用法示例，你可以根据实际需求对代码进行扩展和优化。

📚 详细文档

模型名称

印尼语-4b（Bahasa-4b）

模型开发者

Bahasa AI

预期用途

该模型旨在用于各种需要理解和生成印尼语的自然语言处理任务，适用于问答、情感分析、文档摘要等应用场景。

训练数据

印尼语-4b模型在从1000亿数据池中收集的100亿印尼语数据子集上进行训练。

基准测试

以下表格展示了印尼语-4b模型与Sailor_4b和Mistral-7B-v0.1模型在多个基准测试中的性能对比：

数据集	版本	指标	模式	Sailor_4b	印尼语-4b-hf	Mistral-7B-v0.1
tydiqa-id	0e9309	EM	gen	53.98	55.04	63.54
tydiqa-id	0e9309	F1	gen	73.48	75.39	78.73
xcopa-id	36c11c	EM	ppl	69.2	73.2	62.40
xcopa-id	36c11c	F1	ppl	69.2	73.2	-
m3exam-id-ppl	ede415	EM	ppl	31.27	44.47	26.68
belebele-id-ppl	7fe030	EM	ppl	41.33	42.33	41.33