EuroBERT-210m-Quality-CL開源模型 - 自動評估自然和編程文本數據質量

首頁

Eurobert 210m Quality CL

由TempestTeam開發

自動評估自然語言和編程語言文本數據質量的模型，提供統一模型和雙模型兩種方案。

文本分類

Transformers

支持多種語言開源協議:Apache-2.0 #多語言質量評估 #代碼質量檢測 #有害內容識別

下載量 19

發布時間 : 3/18/2025

模型概述

該模型通過評分體系自動評估文本數據質量，支持自然語言（法語、英語、西班牙語）和編程語言（Python、Java、JavaScript、C/C++）。提供統一模型和獨立模型兩種方案，適用於不同場景需求。

模型特點

多語言支持

同時支持自然語言（法語、英語、西班牙語）和編程語言（Python、Java、JavaScript、C/C++）的質量評估

雙評估方案

提供統一模型和獨立模型兩種方案，可根據需求選擇最適合的評估方式

有害內容識別

對有害內容識別表現優異，自然語言F1分數達0.93

清晰分類體系

提供四級分類等級：有害、低劣、中等、優質，便於理解和使用

模型能力

自然語言文本質量評估

編程語言代碼質量評估

有害內容檢測

多語言支持

使用案例

NLP預處理

文本語料庫驗證

在接入NLP系統前自動驗證文本語料庫質量

提高NLP系統輸入數據質量

社區內容管理

技術社區內容評估

評估論壇、Stack Overflow、GitHub等技術社區內容質量

幫助篩選優質內容

代碼生成

代碼質量評估

評估代碼生成系統輸出的代碼質量

提高代碼生成系統的可靠性

🚀 文本數據質量自動評估模型（自然語言與代碼語言）

本項目能夠使用清晰直觀的量表自動評估文本數據的質量，適用於自然語言（NL）和代碼語言（CL）。我們對比了兩種不同的方法：

統一模型：可同時處理自然語言和代碼語言，模型地址為 EuroBERT-210m-Quality
雙模型方法：分別處理自然語言和代碼語言，具體如下：
- 自然語言模型：EuroBERT-210m-Quality-NL
- 代碼語言模型：EuroBERT-210m-Quality-CL

✨ 主要特性

分類類別

有害：有害數據，可能存在錯誤或危險。
低質量：存在重大問題的低質量數據。
中等質量：質量中等，有改進空間但可以接受。
高質量：質量良好到非常好的數據，可直接使用。

支持的語言

自然語言：法語 🇫🇷、英語 🇬🇧、西班牙語 🇪🇸
代碼語言：Python 🐍、Java ☕、JavaScript 📜、C/C++ ⚙️

📚 詳細文檔

性能表現

統一模型（自然語言 + 代碼語言）的 F1 分數

類別	總體（自然語言 + 代碼語言）	自然語言	代碼語言
有害	0.86	0.93	0.79
低質量	0.62	0.81	0.40
中等質量	0.63	0.78	0.50
高質量	0.77	0.81	0.74
準確率	0.73	0.83	0.62

獨立模型的 F1 分數

類別	總體（自然語言 + 代碼語言）	自然語言	代碼語言
有害	0.83	0.93	0.72
低質量	0.64	0.76	0.53
中等質量	0.63	0.76	0.52
高質量	0.79	0.81	0.76
準確率	0.73	0.82	0.63

關鍵性能指標

統一模型（自然語言 + 代碼語言）：
- 總體準確率：約 73%
- 對有害數據的可靠性高（F1 分數：0.86）
獨立模型：
- 自然語言（NL）：準確率約 82%
  - 對有害數據的表現出色（F1 分數：0.93）
- 代碼語言（CL）：準確率約 63%
  - 對有害數據的檢測效果良好（F1 分數：0.72）