EuroBERT-210m-Quality開源模型 - 自動評估語言文本數據質量，雙方案可選

首頁

Eurobert 210m Quality

由TempestTeam開發

自動評估自然語言和編程語言文本數據質量的模型，提供統一模型和獨立模型兩種方案。

文本分類

Transformers

支持多種語言開源協議:Apache-2.0 #多語言質量評估 #代碼質量檢測 #有害內容過濾

下載量 26

發布時間 : 3/18/2025

模型概述

該模型通過評分體系自動評估文本數據質量，支持自然語言（法語、英語、西班牙語）和編程語言（Python、Java、JavaScript、C/C++），可識別有害內容並分類質量等級。

模型特點

多語言支持

同時支持自然語言（法語、英語、西班牙語）和編程語言（Python、Java、JavaScript、C/C++）的質量評估。

雙模型方案

提供統一模型和獨立模型兩種方案，可根據需求選擇最適合的評估方式。

有害內容識別

高效識別有害內容，f1分數高達0.93（自然語言）和0.79（編程語言）。

質量等級分類

將文本數據分為有害內容、低質量、中等質量和高質量四個等級，便於後續處理。

模型能力

自然語言文本質量評估

編程語言代碼質量評估

有害內容識別

質量等級分類

使用案例

NLP流程

文本語料自動驗證

在NLP流程中自動驗證文本語料的質量，提升模型訓練效果。

準確率約82%（自然語言）

社區內容管理

論壇內容質量評估

自動評估論壇或Stack Overflow等社區內容的質量，輔助內容管理。

有害內容識別f1分數0.93（自然語言）

代碼生成

代碼質量評估

在代碼生成流程中自動評估生成的代碼質量，確保代碼可用性。

準確率約63%（編程語言）

🚀 文本數據質量自動評估模型 (自然語言與代碼語言)

本項目可使用清晰直觀的量表自動評估文本數據的質量，適用於自然語言（NL）和代碼語言（CL）。我們對比了兩種不同的方法：

統一模型：可同時處理自然語言和代碼語言，模型鏈接為 EuroBERT - 210m - Quality。
雙模型方法：分別處理自然語言和代碼語言：
- 自然語言模型：EuroBERT - 210m - Quality - NL。
- 代碼語言模型：EuroBERT - 210m - Quality - CL。

✨ 主要特性

分類類別

有害：有害數據，可能存在錯誤或危險。
低質量：存在重大問題的低質量數據。
中等質量：質量中等，有改進空間但可以接受。
高質量：質量良好至非常好的數據，可直接使用。

支持的語言

自然語言：法語 🇫🇷、英語 🇬🇧、西班牙語 🇪🇸。
代碼語言：Python 🐍、Java ☕、JavaScript 📜、C/C++ ⚙️。

📚 詳細文檔

性能

統一模型（自然語言 + 代碼語言）的 F1 分數

類別	總體（自然語言 + 代碼語言）	自然語言	代碼語言
有害	0.86	0.93	0.79
低質量	0.62	0.81	0.40
中等質量	0.63	0.78	0.50
高質量	0.77	0.81	0.74
準確率	0.73	0.83	0.62

分離模型的 F1 分數

類別	總體（自然語言 + 代碼語言）	自然語言	代碼語言
有害	0.83	0.93	0.72
低質量	0.64	0.76	0.53
中等質量	0.63	0.76	0.52
高質量	0.79	0.81	0.76
準確率	0.73	0.82	0.63

關鍵性能指標

統一模型（自然語言 + 代碼語言）：
- 總體準確率：約 73%。
- 對有害數據的可靠性高（F1 分數：0.86）。
分離模型：
- 自然語言（NL）：準確率約 82%。
  - 對有害數據的表現出色（F1 分數：0.93）。
- 代碼語言（CL）：準確率約 63%。
  - 對有害數據的檢測效果良好（F1 分數：0.72）。