🚀 多語言通用採購詞彙(CPV)行業分類器
本模型是基於 bert-base-multilingual-cased 在 Tenders Economic Daily 公共採購數據 上進行微調的版本。它在評估集上取得了以下成績:
🚀 快速開始
本模型可直接用於對採購描述進行分類,輸入為支持的 104 種語言的採購描述,輸出為對應的 CPV 行業分類。
✨ 主要特性
📚 詳細文檔
模型描述
該模型接收用 104 種語言 編寫的採購描述,並將其分類為以下列出的由 CPV(通用採購詞彙) 代碼描述代表的 45 個行業類別。
通用採購詞彙 |
行政、國防和社會保障服務。👮♀️ |
農業機械。🚜 |
農業、漁業、林業及相關產品。🌾 |
農業、林業、園藝、水產養殖和養蜂服務。👨🏿🌾 |
建築、工程和檢驗服務。👷♂️ |
商業服務:法律、營銷、諮詢、招聘、印刷和安保。👩💼 |
化學產品。🧪 |
服裝、鞋類、箱包及配飾。👖 |
收集和淨化水。🌊 |
建築結構和材料;建築輔助產品(不包括電氣設備)。🧱 |
建築工程。🏗️ |
教育和培訓服務。👩🏿🏫 |
電氣機械、儀器、設備和耗材;照明。⚡ |
金融和保險服務。👨💼 |
食品、飲料、菸草及相關產品。🍽️ |
傢俱(包括辦公傢俱)、陳設、家用電器(不包括照明)和清潔產品。🗄️ |
健康和社會工作服務。👨🏽⚕️ |
酒店、餐廳和零售貿易服務。🏨 |
IT 服務:諮詢、軟件開發、互聯網和支持。🖥️ |
工業機械。🏭 |
安裝服務(不包括軟件)。🛠️ |
實驗室、光學和精密設備(不包括眼鏡)。🔬 |
皮革和紡織面料、塑料和橡膠材料。🧵 |
採礦、採石、建築設備機械。⛏️ |
醫療設備、藥品和個人護理產品。💉 |
採礦、基礎金屬及相關產品。⚙️ |
樂器、體育用品、遊戲、玩具、手工藝品、藝術材料和配件。🎸 |
辦公和計算機機械、設備和用品(不包括傢俱和軟件包)。🖨️ |
其他社區、社會和個人服務。🧑🏽🤝🧑🏽 |
石油產品、燃料、電力和其他能源。🔋 |
郵政和電信服務。📶 |
印刷品及相關產品。📰 |
公共事業。⛲ |
無線電、電視、通信、電信及相關設備。📡 |
房地產服務。🏠 |
娛樂、文化和體育服務。🚴 |
維修和保養服務。🔧 |
研發服務及相關諮詢服務。👩🔬 |
安全、消防、警察和國防設備。🧯 |
與石油和天然氣行業相關的服務。⛽ |
汙水、垃圾、清潔和環境服務。🧹 |
軟件包和信息系統。🔣 |
支持和輔助運輸服務;旅行社服務。🚃 |
運輸設備和運輸輔助產品。🚌 |
運輸服務(不包括廢物運輸)。💺 |
預期用途和限制
⚠️ 重要提示
- 輸入描述應使用 MBERT 支持的 104 種語言 編寫。
- 該模型僅在 22 種語言上進行了評估,因此沒有關於其他語言性能的信息。
- 該模型的適用領域也受到歐盟授予的採購通知描述的限制,對完整文檔文本進行評估可能會改變性能。
訓練和評估數據
- 整個數據集由 744,360 行組成,採用 80%/20% 的比例隨機劃分為訓練集和驗證集。
- 每個描述代表 2011 年至 2018 年期間授予的唯一合同通知描述。
- 訓練數據和驗證數據都包含用 22 種歐洲語言編寫的合同通知描述。(由於與整體數據相比數量稀少,馬耳他語和愛爾蘭語被剔除)
訓練過程
訓練過程在 Google Cloud V3 - 8 TPUs 上完成。感謝 Google 提供對 Cloud TPUs 的訪問權限。
訓練超參數
訓練期間使用了以下超參數:
- 學習率:2e - 05
- 訓練輪數:3
- 梯度累積步數:8
- 每個設備的批量大小:4
- 總訓練批量大小:32
訓練結果
輪數 |
步數 |
F1 分數 |
1 |
18,609 |
0.630 |
2 |
37,218 |
0.674 |
3 |
55,827 |
0.686 |
語言 |
F1 分數 |
測試集大小 |
PL |
0.759 |
13950 |
RO |
0.736 |
3522 |
SK |
0.719 |
1122 |
LT |
0.687 |
2424 |
HU |
0.681 |
1879 |
BG |
0.675 |
2459 |
CS |
0.668 |
2694 |
LV |
0.664 |
836 |
DE |
0.645 |
35354 |
FI |
0.644 |
1898 |
ES |
0.643 |
7483 |
PT |
0.631 |
874 |
EN |
0.631 |
16615 |
HR |
0.626 |
865 |
IT |
0.626 |
8035 |
NL |
0.624 |
5640 |
EL |
0.623 |
1724 |
SL |
0.615 |
482 |
SV |
0.607 |
3326 |
DA |
0.603 |
1925 |
FR |
0.601 |
33113 |
ET |
0.572 |
458 |
📄 許可證
本項目採用 Apache - 2.0 許可證。