🚀 (BERT基础) 葡萄牙语法律领域语言模型 (LeNER - Br)
bert - base - cased - pt - lenerbr是一个葡萄牙语法律领域的语言模型,它于2021年12月20日在Google Colab上,基于BERTimbau基础模型,在LeNER - Br语言建模数据集上使用MASK目标进行了微调。
你也可以查看此模型的大版本。
✨ 主要特性
- 该语言模型用于在葡萄牙司法领域获取命名实体识别(NER)模型。
- 可通过博客文章获取所有相关信息和链接。
- 支持在页面小部件中进行模型测试。
📦 安装指南
from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("pierreguillou/bert-base-cased-pt-lenerbr")
model = AutoModelForMaskedLM.from_pretrained("pierreguillou/bert-base-cased-pt-lenerbr")
📚 详细文档
博客文章
此语言模型用于在葡萄牙司法领域获取一个NER模型。你可以在pierreguillou/ner - bert - base - cased - pt - lenerbr查看微调后的NER模型。
所有信息和链接都在这篇博客文章中:NLP | Modelos e Web App para Reconhecimento de Entidade Nomeada (NER) no domínio jurídico brasileiro (2021年12月29日)
小部件与应用
你可以在本页面的小部件中测试此模型。
训练过程
笔记本
微调的笔记本(Finetuning_language_model_BERtimbau_LeNER_Br.ipynb)托管在GitHub上。
训练结果
示例数量 = 3227
训练轮数 = 5
每个设备的瞬时批量大小 = 8
总训练批量大小(含并行、分布式和累积) = 8
梯度累积步数 = 1
总优化步数 = 2020
步数 训练损失 验证损失
100 1.988700 1.616412
200 1.724900 1.561100
300 1.713400 1.499991
400 1.687400 1.451414
500 1.579700 1.433665
600 1.556900 1.407338
700 1.591400 1.421942
800 1.546000 1.406395
900 1.510100 1.352389
1000 1.507100 1.394799
1100 1.462200 1.36809373471
📄 许可证
文档未提及相关许可证信息。
📋 模型信息
属性 |
详情 |
语言 |
葡萄牙语 |
标签 |
generated_from_trainer |
数据集 |
pierreguillou/lener_br_finetuning_language_model |
模型索引名称 |
checkpoints |
任务类型 |
填充掩码 |
损失值 |
1.352389 |
小部件示例文本 |
"Com efeito, se tal fosse possível, o Poder [MASK] – que não dispõe de função legislativa – passaria a desempenhar atribuição que lhe é institucionalmente estranha (a de legislador positivo), usurpando, desse modo, no contexto de um sistema de poderes essencialmente limitados, competência que não lhe pertence, com evidente transgressão ao princípio constitucional da separação de poderes." |