🚀 多语言通用采购词汇(CPV)行业分类器
本模型是基于 bert-base-multilingual-cased 在 Tenders Economic Daily 公共采购数据 上进行微调的版本。它在评估集上取得了以下成绩:
🚀 快速开始
本模型可直接用于对采购描述进行分类,输入为支持的 104 种语言的采购描述,输出为对应的 CPV 行业分类。
✨ 主要特性
📚 详细文档
模型描述
该模型接收用 104 种语言 编写的采购描述,并将其分类为以下列出的由 CPV(通用采购词汇) 代码描述代表的 45 个行业类别。
通用采购词汇 |
行政、国防和社会保障服务。👮♀️ |
农业机械。🚜 |
农业、渔业、林业及相关产品。🌾 |
农业、林业、园艺、水产养殖和养蜂服务。👨🏿🌾 |
建筑、工程和检验服务。👷♂️ |
商业服务:法律、营销、咨询、招聘、印刷和安保。👩💼 |
化学产品。🧪 |
服装、鞋类、箱包及配饰。👖 |
收集和净化水。🌊 |
建筑结构和材料;建筑辅助产品(不包括电气设备)。🧱 |
建筑工程。🏗️ |
教育和培训服务。👩🏿🏫 |
电气机械、仪器、设备和耗材;照明。⚡ |
金融和保险服务。👨💼 |
食品、饮料、烟草及相关产品。🍽️ |
家具(包括办公家具)、陈设、家用电器(不包括照明)和清洁产品。🗄️ |
健康和社会工作服务。👨🏽⚕️ |
酒店、餐厅和零售贸易服务。🏨 |
IT 服务:咨询、软件开发、互联网和支持。🖥️ |
工业机械。🏭 |
安装服务(不包括软件)。🛠️ |
实验室、光学和精密设备(不包括眼镜)。🔬 |
皮革和纺织面料、塑料和橡胶材料。🧵 |
采矿、采石、建筑设备机械。⛏️ |
医疗设备、药品和个人护理产品。💉 |
采矿、基础金属及相关产品。⚙️ |
乐器、体育用品、游戏、玩具、手工艺品、艺术材料和配件。🎸 |
办公和计算机机械、设备和用品(不包括家具和软件包)。🖨️ |
其他社区、社会和个人服务。🧑🏽🤝🧑🏽 |
石油产品、燃料、电力和其他能源。🔋 |
邮政和电信服务。📶 |
印刷品及相关产品。📰 |
公共事业。⛲ |
无线电、电视、通信、电信及相关设备。📡 |
房地产服务。🏠 |
娱乐、文化和体育服务。🚴 |
维修和保养服务。🔧 |
研发服务及相关咨询服务。👩🔬 |
安全、消防、警察和国防设备。🧯 |
与石油和天然气行业相关的服务。⛽ |
污水、垃圾、清洁和环境服务。🧹 |
软件包和信息系统。🔣 |
支持和辅助运输服务;旅行社服务。🚃 |
运输设备和运输辅助产品。🚌 |
运输服务(不包括废物运输)。💺 |
预期用途和限制
⚠️ 重要提示
- 输入描述应使用 MBERT 支持的 104 种语言 编写。
- 该模型仅在 22 种语言上进行了评估,因此没有关于其他语言性能的信息。
- 该模型的适用领域也受到欧盟授予的采购通知描述的限制,对完整文档文本进行评估可能会改变性能。
训练和评估数据
- 整个数据集由 744,360 行组成,采用 80%/20% 的比例随机划分为训练集和验证集。
- 每个描述代表 2011 年至 2018 年期间授予的唯一合同通知描述。
- 训练数据和验证数据都包含用 22 种欧洲语言编写的合同通知描述。(由于与整体数据相比数量稀少,马耳他语和爱尔兰语被剔除)
训练过程
训练过程在 Google Cloud V3 - 8 TPUs 上完成。感谢 Google 提供对 Cloud TPUs 的访问权限。
训练超参数
训练期间使用了以下超参数:
- 学习率:2e - 05
- 训练轮数:3
- 梯度累积步数:8
- 每个设备的批量大小:4
- 总训练批量大小:32
训练结果
轮数 |
步数 |
F1 分数 |
1 |
18,609 |
0.630 |
2 |
37,218 |
0.674 |
3 |
55,827 |
0.686 |
语言 |
F1 分数 |
测试集大小 |
PL |
0.759 |
13950 |
RO |
0.736 |
3522 |
SK |
0.719 |
1122 |
LT |
0.687 |
2424 |
HU |
0.681 |
1879 |
BG |
0.675 |
2459 |
CS |
0.668 |
2694 |
LV |
0.664 |
836 |
DE |
0.645 |
35354 |
FI |
0.644 |
1898 |
ES |
0.643 |
7483 |
PT |
0.631 |
874 |
EN |
0.631 |
16615 |
HR |
0.626 |
865 |
IT |
0.626 |
8035 |
NL |
0.624 |
5640 |
EL |
0.623 |
1724 |
SL |
0.615 |
482 |
SV |
0.607 |
3326 |
DA |
0.603 |
1925 |
FR |
0.601 |
33113 |
ET |
0.572 |
458 |
📄 许可证
本项目采用 Apache - 2.0 许可证。