🚀 意大利语微调NER的BERT模型
本模型是基于 dbmdz/bert-base-italian-cased 在wiki_neural数据集上微调得到的。它在意大利语的标记分类任务,尤其是命名实体识别(NER)任务中表现出色,能够高效准确地处理相关文本。
🚀 快速开始
使用以下代码即可快速调用该模型进行命名实体识别:
from transformers import pipeline
ner_pipeline = pipeline("ner", model="nickprock/bert-italian-finetuned-ner", aggregation_strategy="simple")
text = "La sede storica della Olivetti è ad Ivrea"
output = ner_pipeline(text)
✨ 主要特性
- 精准度高:在评估集上,该模型取得了优异的成绩,损失值仅为0.0361,准确率达到了0.9918。
- 多指标优秀:除了准确率,在精确率(Precision)、召回率(Recall)和F1值等指标上也表现出色,分别为0.9438、0.9542和0.9490。
- 语言适配:专门针对意大利语进行了微调,能够更好地处理意大利语的文本。
📚 详细文档
模型描述
该模型用于意大利语的标记分类实验,特别是命名实体识别(NER)任务。
预期用途和限制
此模型可用于标记分类任务,特别是命名实体识别。它是针对意大利语进行微调的。
训练和评估数据
使用的数据集是 wikiann。
训练过程
训练超参数
在训练过程中使用了以下超参数:
- 学习率(learning_rate): 2e-05
- 训练批次大小(train_batch_size): 8
- 评估批次大小(eval_batch_size): 8
- 随机种子(seed): 42
- 优化器(optimizer): Adam,其中betas=(0.9,0.999),epsilon=1e-08
- 学习率调度器类型(lr_scheduler_type): 线性
- 训练轮数(num_epochs): 3
训练结果
训练损失 |
轮数 |
步数 |
验证损失 |
精确率 |
召回率 |
F1值 |
准确率 |
0.0297 |
1.0 |
11050 |
0.0323 |
0.9324 |
0.9420 |
0.9372 |
0.9908 |
0.0173 |
2.0 |
22100 |
0.0324 |
0.9445 |
0.9514 |
0.9479 |
0.9915 |
0.0057 |
3.0 |
33150 |
0.0361 |
0.9438 |
0.9542 |
0.9490 |
0.9918 |
框架版本
- Transformers 4.27.3
- Pytorch 1.13.0
- Datasets 2.1.0
- Tokenizers 0.13.2
📄 许可证
本模型采用MIT许可证。
其他信息
- 语言:意大利语
- 标签:generated_from_trainer
- 指标:精确率(precision)、召回率(recall)、F1值(f1)、准确率(accuracy)
- 示例:
- 示例1:'Ciao, sono Giacomo. Vivo a Milano e lavoro da Armani. '
- 示例2:'Domenica andrò allo stadio con Giovanna a guardare la Fiorentina. '
- 基础模型:dbmdz/bert-base-italian-cased
- 模型索引:
- 名称:bert-italian-finetuned-ner
- 结果:
- 任务类型:标记分类(token-classification)
- 数据集:wiki_neural
- 指标:精确率、召回率、F1值、准确率等具体数值见上文。