🚀 Boana-7B-Instruct
Boana-7B-Instruct 是一个基于葡萄牙语数据训练的大语言模型(LLM)。该模型基于 LLaMA2-7B 构建,这是 LLaMA-2 的一个 70 亿参数版本。Boana 项目旨在提供葡萄牙语的大语言模型选项,同时提供一个复杂度较低的模型,以便计算能力较弱的用户也能使用大语言模型。
该项目支持所有葡萄牙语国家。
✨ 主要特性
- 语言针对性:专门针对葡萄牙语数据进行训练,能更好地处理葡萄牙语相关任务。
- 低复杂度:基于 LLaMA2-7B 微调,适合计算能力有限的用户。
📦 安装指南
文档中未提及安装步骤,若有安装需求,请参考相关依赖库(如 transformers
)的官方文档进行安装。
💻 使用示例
基础用法
import torch
from transformers import pipeline
boana = pipeline('text-generation', model='lrds-code/boana-7b-instruct', torch_dtype=torch.bfloat16, device_map='auto')
messages = [{'role':'system',
'content':''},
{'role':'user',
'content':'Quantos planetas existem no sistema solar?'}]
prompt = boana.tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
outputs = boana(prompt, max_new_tokens=256, do_sample=False, temperature=0, top_k=50, top_p=0.95)
print(outputs[0]['generated_text'])
高级用法
在实际使用中,可根据需求调整生成参数,以获得不同风格和质量的文本。例如:
outputs = boana(prompt, max_new_tokens=256, repetition_penalty=1.2, do_sample=True, temperature=0.7, top_k=50, top_p=0.95)
print(outputs[0]['generated_text'])
📚 详细文档
模型描述
重要参数说明
- repetition_penalty:用于避免单词或短语的重复。当该值设置大于 1 时,模型会尝试降低生成已出现过单词的概率。值越大,模型越倾向于避免重复。
- do_sample:决定模型是否根据计算出的概率随机采样下一个单词。
do_sample=True
会为生成的文本引入变化和不可预测性,而 do_sample=False
时,模型总是选择最可能的单词作为下一个单词,可能导致输出更具确定性,但也可能更重复。
- temperature:影响选择下一个单词的随机性。较低的值(接近 0)使模型在选择时更“自信”,倾向于高概率的单词,输出更可预测;较高的值会增加随机性,允许模型选择概率较低的单词,使生成的文本更多样化和有创意。
模型评估结果
任务类型 |
数据集 |
指标 |
值 |
文本生成 |
Muennighoff/xwinograd(XWinograd (pt) - test) |
准确率 |
50.57 |
📄 许可证
本模型使用 Academic Free License v3.0 许可证。