Cabraqwen7b
模型简介
针对葡萄牙语优化的文本生成模型,基于Qwen1.5-7B-Chat使用内部卡布拉10k数据集微调,擅长处理巴西相关任务
模型特点
葡萄牙语优化
专门针对葡萄牙语进行微调,能够以原生葡萄牙语流畅响应
巴西知识增强
在巴西国家考试、法律考试等本地化任务上表现优异
多任务能力
支持文本生成、情感分析、语义理解等多种自然语言处理任务
模型能力
葡萄牙语文本生成
巴西相关问答
情感分析
语义文本相似度计算
自然语言推理
仇恨言论检测
使用案例
教育评估
巴西国家中学教育考试辅助
用于解答巴西国家中学教育考试相关问题
准确率69.21%
巴西律师资格考试辅助
用于解答巴西律师资格考试相关问题
准确率43.23%
情感分析
葡萄牙语仇恨言论检测
识别葡萄牙语中的仇恨言论内容
宏观F1值76.32
巴西推特情感分析
分析巴西葡萄牙语推文的情感倾向
宏观F1值65.96
🚀 Cabra Qwen 7b
Cabra Qwen 7b 是基于 Qwen 1.5 7b Chat 微调而来的模型,使用了内部数据集 Cabra 10k 进行优化。该模型专为葡萄牙语设计,能够以葡萄牙语自然地进行回复。与基础模型相比,它在多个巴西基准测试中表现出显著的性能提升。
点击体验我们的演示:CabraChat。
了解我们的其他模型:Cabra。
✨ 主要特性
- 基于 Qwen 1.5 7b chat 微调,专为葡萄牙语优化。
- 在多个巴西基准测试中表现优于基础模型。
- 支持以葡萄牙语自然回复。
📦 安装指南
文档未提供安装步骤,故跳过此章节。
💻 使用示例
基础用法
<s> [INST] What makes Brasília special? [/INST] Brasília, a capital do Brasil, é uma cidade única e especial por várias razões. Estabelecida como o novo centro político do país em 1960, ela foi projetada pelo arquiteto Oscar Niemeyer e pelo urbanista Lúcio Costa para ser um símbolo da modernidade e progresso brasileiro.
Aqui estão algumas características que tornam Brasília especial:
Design Urbano: A cidade é conhecida por seu design inovador e futurista, com seus arranha-céus imponentes, grandes praças abertas e espaços verdes extensos. O layout da cidade segue um padrão de grade, com cada distrito representando diferentes aspectos da cultura e história brasileira.
Praça dos Três Poderes: Está enorme praça central é cercada pelos prédios da Assembleia Nacional (conhecido como "Palácio do Planalto"), Senado Federal e Supremo Tribunal Federal. É um marco icônico da cidade e um local popular para eventos políticos.
Monumentos e Arquitetura: Brasília possui muitos monumentos impressionantes e edifícios arquitetônicos notáveis, incluindo o Museu Nacional de História Natural e Ciências, o Planetário Anhembi, o Palácio da Alvorada e a Basílica Nossa Senhora Aparecida.
Espaços Verdes: A cidade é cercada por parques e reservas naturais, proporcionando aos moradores e visitantes amplos espaços para relaxar, praticar esportes ou simplesmente apreciar a beleza natural do ambiente.
Cultura e Eventos: Como a capital nacional, Brasília hospeda vários festivais culturais e eventos importantes ao longo do ano, como o Festival Internacional de Cinema de Brasília, o Carnaval das Nações Unidas e o Festival de Música de Verão de Brasília.
Significado Histórico: A construção de Brasília marcou um momento significativo na história do Brasil, pois simbolizou sua independência política e busca pela modernização. Ela também serviu como exemplo para outros países em desenvolvimento que buscavam criar novas capitais.
Inclusão Social: Brasília foi projetada levando em consideração a inclusão social, com bairros bem planejados distribuídos uniformemente pela cidade para garantir acesso igualitário à educação, saúde e serviços públicos.
Em resumo, Brasília é uma cidade única e especial devido ao seu design inovador, pontos turísticos icônicos, conexão histórica com o desenvolvimento do Brasil e compromisso com a inclusão social.
</s>
📚 详细文档
模型详情
属性 | 详情 |
---|---|
模型类型 | Qwen 1.5 7b chat。Qwen1.5 是一系列语言模型,包含不同模型大小的解码器语言模型。对于每个规模,我们都发布了基础语言模型和对齐的聊天模型。它基于 Transformer 架构,采用 SwiGLU 激活函数、QKV 注意力偏置、分组查询注意力、滑动窗口注意力和全注意力混合等技术。此外,我们还有一个改进的自适应多语言自然语言和代码分词器。在测试版中,暂时不包括 GQA 以及 SWA 和全注意力的混合。 |
训练数据 | Cabra 10k,内部微调数据集,即将发布。 |
量化 / GGUF
我们在 "quantanization" 分支上提供了多种量化版本(GGUF)。
训练参数
- learning_rate: 1e-05
- train_batch_size: 4
- eval_batch_size: 4
- seed: 42
- distributed_type: multi-GPU
- num_devices: 2
- gradient_accumulation_steps: 8
- total_train_batch_size: 64
- total_eval_batch_size: 8
- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
- lr_scheduler_type: cosine
- lr_scheduler_warmup_ratio: 0.01
- num_epochs: 3
框架
- Transformers 4.39.0.dev0
- Pytorch 2.1.2+cu118
- Datasets 2.14.6
- Tokenizers 0.15.2
用途
该模型目前仅用于研究目的,可能的研究领域和任务包括:
- 生成式模型研究。
- 调查和理解生成式模型的局限性和偏差。
⚠️ 重要提示
禁止用于商业用途,仅可用于研究。
评估结果
任务 | 版本 | 过滤条件 | 少样本数量 | 指标 | 值 | 标准误差 |
---|---|---|---|---|---|---|
assin2_rte | 1.1 | all | 15 | f1_macro | 0.8852 | ± 0.0046 |
all | 15 | acc | 0.8852 | ± 0.0046 | ||
assin2_sts | 1.1 | all | 15 | pearson | 0.7618 | ± 0.0067 |
all | 15 | mse | 0.5283 | ± N/A | ||
bluex | 1.1 | all | 3 | acc | 0.5605 | ± 0.0107 |
exam_id__USP_2021 | 3 | acc | 0.5385 | ± 0.0400 | ||
exam_id__UNICAMP_2021_2 | 3 | acc | 0.5490 | ± 0.0401 | ||
exam_id__USP_2019 | 3 | acc | 0.4750 | ± 0.0455 | ||
exam_id__USP_2022 | 3 | acc | 0.4898 | ± 0.0413 | ||
exam_id__USP_2020 | 3 | acc | 0.5714 | ± 0.0381 | ||
exam_id__UNICAMP_2019 | 3 | acc | 0.6200 | ± 0.0398 | ||
exam_id__USP_2018 | 3 | acc | 0.5000 | ± 0.0392 | ||
exam_id__USP_2024 | 3 | acc | 0.7073 | ± 0.0411 | ||
exam_id__UNICAMP_2020 | 3 | acc | 0.6000 | ± 0.0382 | ||
exam_id__UNICAMP_2024 | 3 | acc | 0.6000 | ± 0.0422 | ||
exam_id__USP_2023 | 3 | acc | 0.5682 | ± 0.0429 | ||
exam_id__UNICAMP_2018 | 3 | acc | 0.4444 | ± 0.0391 | ||
exam_id__UNICAMP_2021_1 | 3 | acc | 0.4783 | ± 0.0425 | ||
exam_id__UNICAMP_2023 | 3 | acc | 0.6047 | ± 0.0430 | ||
exam_id__UNICAMP_2022 | 3 | acc | 0.7179 | ± 0.0416 | ||
enem | 1.1 | all | 3 | acc | 0.6921 | ± 0.0071 |
exam_id__2012 | 3 | acc | 0.7241 | ± 0.0240 | ||
exam_id__2015 | 3 | acc | 0.7059 | ± 0.0241 | ||
exam_id__2023 | 3 | acc | 0.6741 | ± 0.0233 | ||
exam_id__2016_2 | 3 | acc | 0.6992 | ± 0.0238 | ||
exam_id__2022 | 3 | acc | 0.6090 | ± 0.0245 | ||
exam_id__2010 | 3 | acc | 0.7436 | ± 0.0233 | ||
exam_id__2016 | 3 | acc | 0.6612 | ± 0.0248 | ||
exam_id__2009 | 3 | acc | 0.7391 | ± 0.0236 | ||
exam_id__2014 | 3 | acc | 0.6606 | ± 0.0262 | ||
exam_id__2017 | 3 | acc | 0.7155 | ± 0.0241 | ||
exam_id__2011 | 3 | acc | 0.7778 | ± 0.0222 | ||
exam_id__2013 | 3 | acc | 0.6019 | ± 0.0272 | ||
faquad_nli | 1.1 | all | 15 | f1_macro | 0.5780 | ± 0.0165 |
all | 15 | acc | 0.7785 | ± 0.0115 | ||
hatebr_offensive_binary | 1.0 | all | 25 | f1_macro | 0.7632 | ± 0.0082 |
all | 25 | acc | 0.7736 | ± 0.0079 | ||
oab_exams | 1.5 | all | 3 | acc | 0.4323 | ± 0.0061 |
exam_id__2015-18 | 3 | acc | 0.5000 | ± 0.0322 | ||
exam_id__2015-17 | 3 | acc | 0.5128 | ± 0.0326 | ||
exam_id__2010-01 | 3 | acc | 0.3412 | ± 0.0297 | ||
exam_id__2016-21 | 3 | acc | 0.4000 | ± 0.0317 | ||
exam_id__2012-06 | 3 | acc | 0.4500 | ± 0.0322 | ||
exam_id__2011-05 | 3 | acc | 0.3750 | ± 0.0313 | ||
exam_id__2016-20a | 3 | acc | 0.3250 | ± 0.0302 | ||
exam_id__2018-25 | 3 | acc | 0.4250 | ± 0.0319 | ||
exam_id__2016-19 | 3 | acc | 0.4359 | ± 0.0325 | ||
exam_id__2017-22 | 3 | acc | 0.4250 | ± 0.0319 | ||
exam_id__2016-20 | 3 | acc | 0.3875 | ± 0.0315 | ||
exam_id__2014-14 | 3 | acc | 0.4875 | ± 0.0324 | ||
exam_id__2017-24 | 3 | acc | 0.4625 | ± 0.0322 | ||
exam_id__2017-23 | 3 | acc | 0.4250 | ± 0.0320 | ||
exam_id__2012-06a | 3 | acc | 0.4625 | ± 0.0321 | ||
exam_id__2014-15 | 3 | acc | 0.5256 | ± 0.0326 | ||
exam_id__2012-09 | 3 | acc | 0.3377 | ± 0.0310 | ||
exam_id__2012-07 | 3 | acc | 0.4500 | ± 0.0322 | ||
exam_id__2014-13 | 3 | acc | 0.4500 | ± 0.0322 | ||
exam_id__2012-08 | 3 | acc | 0.4750 | ± 0.0323 | ||
exam_id__2013-11 | 3 | acc | 0.4250 | ± 0.0319 | ||
exam_id__2011-03 | 3 | acc | 0.3636 | ± 0.0279 | ||
exam_id__2013-12 | 3 | acc | 0.4625 | ± 0.0321 | ||
exam_id__2011-04 | 3 | acc | 0.3875 | ± 0.0315 | ||
exam_id__2010-02 | 3 | acc | 0.5400 | ± 0.0288 | ||
exam_id__2013-10 | 3 | acc | 0.4250 | ± 0.0320 | ||
exam_id__2015-16 | 3 | acc | 0.4125 | ± 0.0318 | ||
portuguese_hate_speech_binary | 1.0 | all | 25 | f1_macro | 0.6969 | ± 0.0119 |
all | 25 | acc | 0.7356 | ± 0.0107 |
葡萄牙语大语言模型开放排行榜评估结果
详细结果可查看 此处
指标 | 值 |
---|---|
平均值 | 66.99 |
ENEM 挑战(无图像) | 69.21 |
BLUEX(无图像) | 56.05 |
OAB 考试 | 43.23 |
Assin2 RTE | 88.52 |
Assin2 STS | 76.17 |
FaQuAD NLI | 57.80 |
HateBR 二分类 | 76.32 |
葡萄牙语仇恨言论二分类 | 69.69 |
tweetSentBR | 65.96 |
📄 许可证
该模型采用 CC 许可证。
Phi 2 GGUF
其他
Phi-2是微软开发的一个小型但强大的语言模型,具有27亿参数,专注于高效推理和高质量文本生成。
大型语言模型 支持多种语言
P
TheBloke
41.5M
205
Roberta Large
MIT
基于掩码语言建模目标预训练的大型英语语言模型,采用改进的BERT训练方法
大型语言模型 英语
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基础模型的蒸馏版本,在保持相近性能的同时更轻量高效,适用于序列分类、标记分类等自然语言处理任务。
大型语言模型 英语
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一个多语言大语言模型,针对多语言对话用例进行了优化,在常见的行业基准测试中表现优异。
大型语言模型 英语
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基于100种语言的2.5TB过滤CommonCrawl数据预训练的多语言模型,采用掩码语言建模目标进行训练。
大型语言模型 支持多种语言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基于Transformer架构的英语预训练模型,通过掩码语言建模目标在海量文本上训练,支持文本特征提取和下游任务微调
大型语言模型 英语
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI发布的开放预训练Transformer语言模型套件,参数量从1.25亿到1750亿,旨在对标GPT-3系列性能,同时促进大规模语言模型的开放研究。
大型语言模型 英语
O
facebook
6.3M
198
1
基于transformers库的预训练模型,适用于多种NLP任务
大型语言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多语言大语言模型系列,包含8B、70B和405B参数规模,支持8种语言和代码生成,优化了多语言对话场景。
大型语言模型
Transformers 支持多种语言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基础版是由Google开发的文本到文本转换Transformer模型,参数规模2.2亿,支持多语言NLP任务。
大型语言模型 支持多种语言
T
google-t5
5.4M
702
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98