Span Marker Mbert Base Multinerd
这是一个基于MultiNERD数据集训练的多语言命名实体识别模型,支持20多种语言,使用bert-base-multilingual-cased作为底层编码器。
下载量 5,591
发布时间 : 8/7/2023
模型简介
该模型用于多语言命名实体识别任务,能够识别文本中的人物、组织、地点等多种实体类型。
模型特点
多语言支持
支持20多种语言的命名实体识别
高精度
在MultiNERD测试集上F1分数达到0.92478
广泛的实体类型覆盖
能识别18种不同类型的实体,包括人物、组织、地点、动物、疾病等
模型能力
多语言文本分析
命名实体识别
实体分类
使用案例
文本分析
多语言新闻分析
从多语言新闻文本中提取关键实体
可准确识别不同语言文本中的人物、组织、地点等实体
跨语言信息提取
从多语言文档中提取结构化信息
支持20多种语言的实体识别,便于跨语言信息整合
🚀 SpanMarker多语言命名实体识别模型
这是一个 SpanMarker 模型,可用于多语言命名实体识别。该模型在 MultiNERD 数据集上进行训练。具体而言,此SpanMarker模型使用 bert-base-multilingual-cased 作为基础编码器。训练脚本请见 train.py。
🚀 快速开始
本模型可用于多语言命名实体识别任务,以下将为你介绍如何快速使用该模型。
✨ 主要特性
- 多语言支持:能够处理多种语言的命名实体识别任务。
- 高性能表现:在MultiNERD数据集上取得了良好的指标成绩。
📦 安装指南
要使用此模型进行推理,首先需要安装 span_marker
库:
pip install span_marker
💻 使用示例
基础用法
from span_marker import SpanMarkerModel
# 从🤗 Hub下载模型
model = SpanMarkerModel.from_pretrained("tomaarsen/span-marker-mbert-base-multinerd")
# 进行推理
entities = model.predict("Amelia Earhart flew her single engine Lockheed Vega 5B across the Atlantic to Paris.")
更多关于此库的文档和额外信息,请参考 SpanMarker 仓库。
📚 详细文档
指标
语言 | 精确率 | 召回率 | F1值 |
---|---|---|---|
所有语言 | 93.39 | 91.59 | 92.48 |
德语 | 95.21 | 94.32 | 94.76 |
英语 | 95.07 | 95.29 | 95.18 |
西班牙语 | 93.50 | 89.65 | 91.53 |
法语 | 93.86 | 90.07 | 91.92 |
意大利语 | 91.63 | 93.57 | 92.59 |
荷兰语 | 94.86 | 91.74 | 93.27 |
波兰语 | 93.51 | 91.83 | 92.66 |
葡萄牙语 | 94.48 | 91.30 | 92.86 |
俄语 | 93.70 | 93.10 | 93.39 |
中文 | 88.36 | 85.71 | 87.02 |
标签集
类别 | 描述 | 示例 |
---|---|---|
PER(个人) | 人物 | Ray Charles、Jessica Alba、Leonardo DiCaprio、Roger Federer、Anna Massey。 |
ORG(组织) | 协会、公司、机构、团体、国籍以及宗教或政治团体 | 爱丁堡大学、旧金山巨人队、谷歌、民主党。 |
LOC(地点) | 物理位置(如山脉、水域)、地缘政治实体(如城市、州)和设施(如桥梁、建筑物、机场)。 | 罗马、派库湖、克莱斯勒大厦、拉什莫尔山、密西西比河。 |
ANIM(动物) | 狗、猫和其他动物的品种,包括它们的学名。 | 缅因猫、非洲野狗、大白鲨、新西兰吸蜜鸟。 |
BIO(生物) | 真菌、细菌和原生生物的属、病毒科和其他生物实体。 | 单纯疱疹病毒、大肠杆菌、沙门氏菌、炭疽芽孢杆菌。 |
CEL(天体) | 行星、恒星、小行星、彗星、星云、星系和其他天体。 | 太阳、海王星、小行星187兰伯塔、半人马座比邻星、麒麟座V838。 |
DIS(疾病) | 身体、精神、传染性、非传染性、缺乏性、遗传性、退行性、社会性和自伤性疾病。 | 阿尔茨海默病、囊性纤维化、扩张型心肌病、关节炎。 |
EVE(事件) | 体育赛事、战役、战争和其他事件。 | 美国内战、2003年温布尔登网球锦标赛、戛纳电影节。 |
FOOD(食物) | 食物和饮料。 | 意大利培根蛋面、桑娇维塞葡萄酒、切达啤酒芝士火锅、玛格丽特披萨。 |
INST(仪器) | 技术仪器、机械仪器、乐器和其他工具。 | 斯皮策太空望远镜、Commodore 64计算机、Skype、苹果手表、芬达斯特拉特电吉他。 |
MEDIA(媒体) | 电影、书籍、杂志、歌曲和专辑的标题、虚构人物和语言。 | 《福布斯》、《美国精神病人》、《吻我一次》、《双峰》、《迪士尼冒险》。 |
PLANT(植物) | 树木、花卉和其他植物的类型,包括它们的学名。 | 柳树、无梗花栎、花旗松、连翘、滨海蒿。 |
MYTH(神话) | 神话和宗教实体。 | 阿波罗、珀耳塞福涅、阿佛洛狄忒、圣彼得、教皇格列高利一世、赫拉克勒斯。 |
TIME(时间) | 特定且明确的时间间隔,如时代、历史时期、世纪、年份和重要日子。不包括月份和星期几。 | 文艺复兴时期、中世纪、圣诞节、大萧条、17世纪、2012年。 |
VEHI(交通工具) | 汽车、摩托车和其他交通工具。 | 法拉利Testarossa、铃木吉姆尼、本田CR - X、波音747、费尔雷富尔马尔战斗机。 |
🔧 技术细节
训练过程
训练超参数
训练过程中使用了以下超参数:
- 学习率:5e - 05
- 训练批次大小:32
- 评估批次大小:32
- 随机种子:42
- 优化器:Adam,β值为(0.9, 0.999),ε值为1e - 08
- 学习率调度器类型:线性
- 学习率调度器预热比例:0.1
- 训练轮数:1
训练结果
训练损失 | 轮数 | 步数 | 验证损失 | 总体精确率 | 总体召回率 | 总体F1值 | 总体准确率 |
---|---|---|---|---|---|---|---|
0.0179 | 0.01 | 1000 | 0.0146 | 0.8101 | 0.7616 | 0.7851 | 0.9530 |
0.0099 | 0.02 | 2000 | 0.0091 | 0.8571 | 0.8425 | 0.8498 | 0.9663 |
0.0085 | 0.03 | 3000 | 0.0078 | 0.8729 | 0.8579 | 0.8653 | 0.9700 |
0.0075 | 0.04 | 4000 | 0.0072 | 0.8821 | 0.8724 | 0.8772 | 0.9739 |
0.0074 | 0.05 | 5000 | 0.0075 | 0.8622 | 0.8841 | 0.8730 | 0.9722 |
0.0074 | 0.06 | 6000 | 0.0067 | 0.9056 | 0.8568 | 0.8805 | 0.9749 |
0.0066 | 0.07 | 7000 | 0.0065 | 0.9082 | 0.8543 | 0.8804 | 0.9737 |
0.0063 | 0.08 | 8000 | 0.0066 | 0.9039 | 0.8617 | 0.8823 | 0.9745 |
0.0062 | 0.09 | 9000 | 0.0062 | 0.9323 | 0.8425 | 0.8852 | 0.9754 |
0.007 | 0.1 | 10000 | 0.0066 | 0.8898 | 0.8758 | 0.8827 | 0.9746 |
0.006 | 0.11 | 11000 | 0.0061 | 0.8986 | 0.8841 | 0.8913 | 0.9766 |
0.006 | 0.12 | 12000 | 0.0061 | 0.9171 | 0.8628 | 0.8891 | 0.9763 |
0.0062 | 0.13 | 13000 | 0.0060 | 0.9264 | 0.8634 | 0.8938 | 0.9772 |
0.0059 | 0.14 | 14000 | 0.0059 | 0.9323 | 0.8508 | 0.8897 | 0.9763 |
0.0059 | 0.15 | 15000 | 0.0060 | 0.9011 | 0.8815 | 0.8912 | 0.9758 |
0.0059 | 0.16 | 16000 | 0.0060 | 0.9221 | 0.8598 | 0.8898 | 0.9763 |
0.0056 | 0.17 | 17000 | 0.0058 | 0.9098 | 0.8839 | 0.8967 | 0.9775 |
0.0055 | 0.18 | 18000 | 0.0060 | 0.9103 | 0.8739 | 0.8917 | 0.9765 |
0.0054 | 0.19 | 19000 | 0.0056 | 0.9135 | 0.8726 | 0.8925 | 0.9774 |
0.0052 | 0.2 | 20000 | 0.0058 | 0.9108 | 0.8834 | 0.8969 | 0.9773 |
0.0053 | 0.21 | 21000 | 0.0058 | 0.9038 | 0.8866 | 0.8951 | 0.9773 |
0.0057 | 0.22 | 22000 | 0.0057 | 0.9130 | 0.8762 | 0.8942 | 0.9775 |
0.0056 | 0.23 | 23000 | 0.0053 | 0.9375 | 0.8604 | 0.8973 | 0.9781 |
0.005 | 0.24 | 24000 | 0.0054 | 0.9253 | 0.8822 | 0.9032 | 0.9784 |
0.0055 | 0.25 | 25000 | 0.0055 | 0.9182 | 0.8807 | 0.8991 | 0.9787 |
0.0049 | 0.26 | 26000 | 0.0053 | 0.9311 | 0.8702 | 0.8997 | 0.9783 |
0.0051 | 0.27 | 27000 | 0.0054 | 0.9192 | 0.8877 | 0.9032 | 0.9787 |
0.0051 | 0.28 | 28000 | 0.0053 | 0.9332 | 0.8783 | 0.9049 | 0.9795 |
0.0049 | 0.29 | 29000 | 0.0054 | 0.9311 | 0.8672 | 0.8981 | 0.9789 |
0.0047 | 0.3 | 30000 | 0.0054 | 0.9165 | 0.8954 | 0.9058 | 0.9796 |
0.005 | 0.31 | 31000 | 0.0052 | 0.9079 | 0.9016 | 0.9047 | 0.9787 |
0.0051 | 0.32 | 32000 | 0.0051 | 0.9157 | 0.9001 | 0.9078 | 0.9796 |
0.0046 | 0.33 | 33000 | 0.0051 | 0.9147 | 0.8935 | 0.9040 | 0.9788 |
0.0046 | 0.34 | 34000 | 0.0050 | 0.9229 | 0.8847 | 0.9034 | 0.9793 |
0.005 | 0.35 | 35000 | 0.0051 | 0.9198 | 0.8922 | 0.9058 | 0.9796 |
0.0047 | 0.36 | 36000 | 0.0050 | 0.9321 | 0.8890 | 0.9100 | 0.9807 |
0.0048 | 0.37 | 37000 | 0.0050 | 0.9046 | 0.9133 | 0.9089 | 0.9800 |
0.0046 | 0.38 | 38000 | 0.0051 | 0.9170 | 0.8973 | 0.9071 | 0.9806 |
0.0048 | 0.39 | 39000 | 0.0050 | 0.9417 | 0.8775 | 0.9084 | 0.9805 |
0.0042 | 0.4 | 40000 | 0.0049 | 0.9238 | 0.8937 | 0.9085 | 0.9797 |
0.0038 | 0.41 | 41000 | 0.0048 | 0.9371 | 0.8920 | 0.9140 | 0.9812 |
0.0042 | 0.42 | 42000 | 0.0048 | 0.9359 | 0.8862 | 0.9104 | 0.9808 |
0.0051 | 0.43 | 43000 | 0.0049 | 0.9080 | 0.9060 | 0.9070 | 0.9805 |
0.0037 | 0.44 | 44000 | 0.0049 | 0.9328 | 0.8877 | 0.9097 | 0.9801 |
0.0041 | 0.45 | 45000 | 0.0049 | 0.9231 | 0.8975 | 0.9101 | 0.9813 |
0.0046 | 0.46 | 46000 | 0.0046 | 0.9308 | 0.8943 | 0.9122 | 0.9812 |
0.0038 | 0.47 | 47000 | 0.0047 | 0.9291 | 0.8969 | 0.9127 | 0.9815 |
0.0043 | 0.48 | 48000 | 0.0046 | 0.9308 | 0.8909 | 0.9104 | 0.9804 |
0.0043 | 0.49 | 49000 | 0.0046 | 0.9278 | 0.8954 | 0.9113 | 0.9800 |
0.0039 | 0.5 | 50000 | 0.0047 | 0.9173 | 0.9073 | 0.9123 | 0.9817 |
0.0043 | 0.51 | 51000 | 0.0045 | 0.9347 | 0.8962 | 0.9150 | 0.9821 |
0.0047 | 0.52 | 52000 | 0.0045 | 0.9266 | 0.9016 | 0.9139 | 0.9810 |
0.0035 | 0.53 | 53000 | 0.0046 | 0.9165 | 0.9122 | 0.9144 | 0.9820 |
0.0038 | 0.54 | 54000 | 0.0046 | 0.9231 | 0.9050 | 0.9139 | 0.9823 |
0.0036 | 0.55 | 55000 | 0.0046 | 0.9331 | 0.9005 | 0.9165 | 0.9828 |
0.0037 | 0.56 | 56000 | 0.0047 | 0.9246 | 0.9016 | 0.9129 | 0.9821 |
0.0035 | 0.57 | 57000 | 0.0044 | 0.9351 | 0.9003 | 0.9174 | 0.9829 |
0.0043 | 0.57 | 58000 | 0.0043 | 0.9257 | 0.9079 | 0.9167 | 0.9826 |
0.004 | 0.58 | 59000 | 0.0043 | 0.9286 | 0.9065 | 0.9174 | 0.9823 |
0.0041 | 0.59 | 60000 | 0.0044 | 0.9324 | 0.9050 | 0.9185 | 0.9825 |
0.0039 | 0.6 | 61000 | 0.0044 | 0.9268 | 0.9041 | 0.9153 | 0.9815 |
0.0038 | 0.61 | 62000 | 0.0043 | 0.9367 | 0.8918 | 0.9137 | 0.9819 |
0.0037 | 0.62 | 63000 | 0.0044 | 0.9249 | 0.9160 | 0.9205 | 0.9833 |
0.0036 | 0.63 | 64000 | 0.0043 | 0.9398 | 0.8975 | 0.9181 | 0.9827 |
0.0036 | 0.64 | 65000 | 0.0043 | 0.9260 | 0.9118 | 0.9188 | 0.9829 |
0.0035 | 0.65 | 66000 | 0.0044 | 0.9375 | 0.8988 | 0.9178 | 0.9828 |
0.0034 | 0.66 | 67000 | 0.0043 | 0.9272 | 0.9143 | 0.9207 | 0.9833 |
0.0033 | 0.67 | 68000 | 0.0044 | 0.9332 | 0.9024 | 0.9176 | 0.9827 |
0.0035 | 0.68 | 69000 | 0.0044 | 0.9396 | 0.8981 | 0.9184 | 0.9825 |
0.0038 | 0.69 | 70000 | 0.0042 | 0.9265 | 0.9163 | 0.9214 | 0.9827 |
0.0035 | 0.7 | 71000 | 0.0044 | 0.9375 | 0.9013 | 0.9191 | 0.9827 |
0.0037 | 0.71 | 72000 | 0.0042 | 0.9264 | 0.9171 | 0.9217 | 0.9830 |
0.0039 | 0.72 | 73000 | 0.0043 | 0.9399 | 0.9003 | 0.9197 | 0.9826 |
0.0039 | 0.73 | 74000 | 0.0041 | 0.9341 | 0.9094 | 0.9216 | 0.9832 |
0.0035 | 0.74 | 75000 | 0.0042 | 0.9301 | 0.9160 | 0.9230 | 0.9837 |
0.0037 | 0.75 | 76000 | 0.0042 | 0.9342 | 0.9107 | 0.9223 | 0.9835 |
0.0034 | 0.76 | 77000 | 0.0042 | 0.9331 | 0.9118 | 0.9223 | 0.9836 |
0.003 | 0.77 | 78000 | 0.0041 | 0.9330 | 0.9135 | 0.9231 | 0.9838 |
0.0034 | 0.78 | 79000 | 0.0041 | 0.9308 | 0.9082 | 0.9193 | 0.9832 |
0.0037 | 0.79 | 80000 | 0.0040 | 0.9346 | 0.9128 | 0.9236 | 0.9839 |
0.0032 | 0.8 | 81000 | 0.0041 | 0.9389 | 0.9128 | 0.9257 | 0.9841 |
0.0031 | 0.81 | 82000 | 0.0040 | 0.9293 | 0.9163 | 0.9227 | 0.9836 |
0.0032 | 0.82 | 83000 | 0.0041 | 0.9305 | 0.9160 | 0.9232 | 0.9835 |
0.0034 | 0.83 | 84000 | 0.0041 | 0.9327 | 0.9118 | 0.9221 | 0.9838 |
0.0028 | 0.84 | 85000 | 0.0041 | 0.9279 | 0.9216 | 0.9247 | 0.9839 |
0.0031 | 0.85 | 86000 | 0.0041 | 0.9326 | 0.9167 | 0.9246 | 0.9838 |
0.0029 | 0.86 | 87000 | 0.0040 | 0.9354 | 0.9158 | 0.9255 | 0.9841 |
0.0031 | 0.87 | 88000 | 0.0041 | 0.9327 | 0.9156 | 0.9241 | 0.9840 |
0.0033 | 0.88 | 89000 | 0.0040 | 0.9367 | 0.9141 | 0.9253 | 0.9846 |
0.0031 | 0.89 | 90000 | 0.0040 | 0.9379 | 0.9141 | 0.9259 | 0.9844 |
0.0031 | 0.9 | 91000 | 0.0040 | 0.9297 | 0.9184 | 0.9240 | 0.9843 |
0.0034 | 0.91 | 92000 | 0.0040 | 0.9299 | 0.9188 | 0.9243 | 0.9843 |
0.0036 | 0.92 | 93000 | 0.0039 | 0.9324 | 0.9175 | 0.9249 | 0.9843 |
0.0028 | 0.93 | 94000 | 0.0039 | 0.9399 | 0.9135 | 0.9265 | 0.9848 |
0.0029 | 0.94 | 95000 | 0.0040 | 0.9342 | 0.9173 | 0.9257 | 0.9845 |
0.003 | 0.95 | 96000 | 0.0040 | 0.9378 | 0.9184 | 0.9280 | 0.9850 |
0.0029 | 0.96 | 97000 | 0.0039 | 0.9380 | 0.9152 | 0.9264 | 0.9847 |
0.003 | 0.97 | 98000 | 0.0039 | 0.9372 | 0.9156 | 0.9263 | 0.9849 |
0.003 | 0.98 | 99000 | 0.0039 | 0.9387 | 0.9167 | 0.9276 | 0.9851 |
0.0031 | 0.99 | 100000 | 0.0039 | 0.9373 | 0.9177 | 0.9274 | 0.9849 |
框架版本
- SpanMarker 1.2.4
- Transformers 4.28.1
- Pytorch 1.13.1+cu117
- Datasets 2.12.0
- Tokenizers 0.13.2
相关模型
- lxyuan/span-marker-bert-base-multilingual-cased-multinerd 与本模型类似,但训练了3个轮次而非2个。在10种语言中的7种上表现更优。
- lxyuan/span-marker-bert-base-multilingual-uncased-multinerd 是本模型的无大小写变体,同样训练了3个轮次而非2个。
贡献者
非常感谢来自 Babelscape 的 Simone Tedeschi 在训练此模型时提供的见解,以及他在创建训练数据集方面的参与。
📄 许可证
本项目采用CC - BY - NC - SA 4.0许可证。
Indonesian Roberta Base Posp Tagger
MIT
这是一个基于印尼语RoBERTa模型微调的词性标注模型,在indonlu数据集上训练,用于印尼语文本的词性标注任务。
序列标注
Transformers 其他

I
w11wo
2.2M
7
Bert Base NER
MIT
基于BERT微调的命名实体识别模型,可识别四类实体:地点(LOC)、组织机构(ORG)、人名(PER)和杂项(MISC)
序列标注 英语
B
dslim
1.8M
592
Deid Roberta I2b2
MIT
该模型是基于RoBERTa微调的序列标注模型,用于识别和移除医疗记录中的受保护健康信息(PHI/PII)。
序列标注
Transformers 支持多种语言

D
obi
1.1M
33
Ner English Fast
Flair自带的英文快速4类命名实体识别模型,基于Flair嵌入和LSTM-CRF架构,在CoNLL-03数据集上达到92.92的F1分数。
序列标注
PyTorch 英语
N
flair
978.01k
24
French Camembert Postag Model
基于Camembert-base的法语词性标注模型,使用free-french-treebank数据集训练
序列标注
Transformers 法语

F
gilf
950.03k
9
Xlm Roberta Large Ner Spanish
基于XLM-Roberta-large架构微调的西班牙语命名实体识别模型,在CoNLL-2002数据集上表现优异。
序列标注
Transformers 西班牙语

X
MMG
767.35k
29
Nusabert Ner V1.3
MIT
基于NusaBert-v1.3在印尼语NER任务上微调的命名实体识别模型
序列标注
Transformers 其他

N
cahya
759.09k
3
Ner English Large
Flair框架内置的英文4类大型NER模型,基于文档级XLM-R嵌入和FLERT技术,在CoNLL-03数据集上F1分数达94.36。
序列标注
PyTorch 英语
N
flair
749.04k
44
Punctuate All
MIT
基于xlm-roberta-base微调的多语言标点符号预测模型,支持12种欧洲语言的标点符号自动补全
序列标注
Transformers

P
kredor
728.70k
20
Xlm Roberta Ner Japanese
MIT
基于xlm-roberta-base微调的日语命名实体识别模型
序列标注
Transformers 支持多种语言

X
tsmatz
630.71k
25
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98