TinyBERT-spanish-uncased-finetuned-ner开源模型 - 小体积适用西班牙语文本实体识别

首页

Tinybert Spanish Uncased Finetuned Ner

由 mrm8488 开发

基于西班牙语TinyBERT微调的命名实体识别模型，体积仅55MB，适用于西班牙语文本的实体识别任务。

序列标注西班牙语#西班牙语NER #轻量级模型 #知识蒸馏

下载量 64

发布时间 : 3/2/2022

模型简介

这是一个通过知识蒸馏技术训练的轻量级命名实体识别模型，专门用于识别西班牙语文本中的各类命名实体（如人名、地名、组织名等）。

模型特点

轻量高效

模型体积仅55MB，相比传统BERT模型更轻量，适合资源受限环境

知识蒸馏

通过知识蒸馏技术训练，在保持性能的同时大幅减小模型体积

西班牙语优化

专门针对西班牙语文本优化的命名实体识别模型

模型能力

西班牙语文本处理

命名实体识别

实体分类

使用案例

文本分析

新闻实体提取

从西班牙语新闻中提取人名、地名和组织名等关键信息

可识别B-LOC(地点)、B-PER(人名)等9类实体标签

社交媒体分析

分析西班牙语社交媒体内容中的提及实体

🚀 西班牙语TinyBERT + 命名实体识别（NER）

本模型是在我使用蒸馏法创建的西班牙语TinyBert基础上，针对NER-C数据集进行微调，以用于命名实体识别（NER） 下游任务。该模型的大小仅为55MB。

📚 详细文档

下游任务（NER）详情 - 数据集

数据集：CONLL Corpora ES

我对数据集进行了预处理，并按照80/20的比例将其划分为训练集和开发集。

数据集	样本数量
训练集	8.7K
开发集	2.2K

使用Huggingface提供的NER微调脚本
涵盖的标签：

B-LOC
B-MISC
B-ORG
B-PER
I-LOC
I-MISC
I-ORG
I-PER
O

评估集指标

指标	得分
F1	70.00
精确率	67.83
召回率	71.46

模型对比

模型	F1得分	大小(MB)
bert-base-spanish-wwm-cased (BETO)	88.43	421
bert-spanish-cased-finetuned-ner	90.17	420
Best Multilingual BERT	87.38	681
TinyBERT-spanish-uncased-finetuned-ner（本模型）	70.00	55

💻 使用示例

基础用法

import torch
from transformers import AutoModelForTokenClassification, AutoTokenizer

id2label = {
    "0": "B-LOC",
    "1": "B-MISC",
    "2": "B-ORG",
    "3": "B-PER",
    "4": "I-LOC",
    "5": "I-MISC",
    "6": "I-ORG",
    "7": "I-PER",
    "8": "O"
}

tokenizer = AutoTokenizer.from_pretrained('mrm8488/TinyBERT-spanish-uncased-finetuned-ner')
model = AutoModelForTokenClassification.from_pretrained('mrm8488/TinyBERT-spanish-uncased-finetuned-ner')
text ="Mis amigos están pensando viajar a Londres este verano."
input_ids = torch.tensor(tokenizer.encode(text)).unsqueeze(0)

outputs = model(input_ids)
last_hidden_states = outputs[0]

for m in last_hidden_states:
  for index, n in enumerate(m):
    if(index > 0 and index <= len(text.split(" "))):
      print(text.split(" ")[index-1] + ": " + id2label[str(torch.argmax(n).item())])
      
'''
Output:
--------
Mis: O
amigos: O
están: O
pensando: O
viajar: O
a: O
Londres: B-LOC
este: O
verano.: O
'''