EuroBERT-210m-Quality-NL開源模型 - 免費評估自然語言與編程文本質量

首頁

Eurobert 210m Quality NL

由TempestTeam開發

自動評估自然語言與編程語言文本數據質量的模型，提供統一模型和雙模型方案兩種選擇。

文本分類

Transformers

支持多種語言開源協議:Apache-2.0 #多語言質量評估 #代碼質量檢測 #有害內容識別

下載量 18

發布時間 : 3/18/2025

模型概述

該模型採用清晰直觀的評分體系，自動評估自然語言（NL）與編程語言（CL）文本數據質量，支持多種語言和編程語言。

模型特點

多語言支持

支持法語、英語、西班牙語等自然語言，以及Python、Java、JavaScript、C/C++等編程語言。

雙模型方案

提供統一模型和獨立模型兩種方案，分別處理自然語言和編程語言，以適應不同場景需求。

高質量評估

採用四等級分類體系（有害、低劣、中等、優質），準確識別文本質量。

模型能力

自然語言文本質量評估

編程語言文本質量評估

有害內容識別

多語言支持

使用案例

NLP流程

文本語料自動驗證

在NLP或代碼生成流程中自動驗證文本語料的質量。

提升模型輸入數據的質量

社區內容管理

論壇內容評估

自動評估論壇、Stack Overflow或GitHub等社區內容的質量。

提高社區內容整體質量

系統預處理

NLP系統預處理

提升NLP或代碼生成系統性能的自動化預處理。

優化系統性能

🚀 文本數據質量自動評估模型（自然語言與代碼語言）

本項目可使用清晰直觀的量表自動評估文本數據質量，適用於自然語言（NL）和代碼語言（CL）。我們對比了兩種不同的方法：

統一模型：聯合處理自然語言和代碼語言，模型鏈接：EuroBERT - 210m - Quality
雙模型方法：分別處理自然語言和代碼語言：
- 自然語言模型：EuroBERT - 210m - Quality - NL
- 代碼語言模型：EuroBERT - 210m - Quality - CL

✨ 主要特性

分類類別

有害：有害數據，可能存在錯誤或危險。
低質量：存在重大問題的低質量數據。
中等質量：質量中等，有改進空間但可以接受。
高質量：質量良好至非常好的數據，可直接使用。

支持語言

自然語言：法語 🇫🇷、英語 🇬🇧、西班牙語 🇪🇸
代碼語言：Python 🐍、Java ☕、JavaScript 📜、C/C++ ⚙️

性能表現

統一模型（自然語言 + 代碼語言）的F1分數

類別	總體（自然語言 + 代碼語言）	自然語言	代碼語言
有害	0.86	0.93	0.79
低質量	0.62	0.81	0.40
中等質量	0.63	0.78	0.50
高質量	0.77	0.81	0.74
準確率	0.73	0.83	0.62

分離模型的F1分數

類別	總體（自然語言 + 代碼語言）	自然語言	代碼語言
有害	0.83	0.93	0.72
低質量	0.64	0.76	0.53
中等質量	0.63	0.76	0.52
高質量	0.79	0.81	0.76
準確率	0.73	0.82	0.63

關鍵性能指標

統一模型（自然語言 + 代碼語言）：
- 總體準確率：約73%
- 對有害數據的可靠性高（F1分數：0.86）
分離模型：
- 自然語言（NL）：準確率約82%
  - 對有害數據的表現出色（F1分數：0.93）
- 代碼語言（CL）：準確率約63%
  - 對有害數據的檢測效果良好（F1分數：0.72）

訓練數據集

公開可用的數據集：TempestTeam/dataset-quality

常見用例

在將文本語料集成到自然語言處理或代碼生成管道之前進行自動驗證。
評估社區貢獻（論壇、Stack Overflow、GitHub）的質量。
進行自動預處理，以提高自然語言處理或代碼生成系統的性能。

使用建議

💡 使用建議

對於特定場景，建議使用分離的自然語言和代碼語言模型以獲得最佳效果。

當數據上下文未知或混合時，統一模型適用於快速評估。

引用說明

如果在您的項目中使用了本模型，請在Hugging Face Hub上引用或鏈接回此模型。

📄 許可證

本項目採用Apache 2.0許可證。

屬性	詳情
模型類型	文本數據質量自動評估模型
支持語言	自然語言：法語、英語、西班牙語；代碼語言：Python、Java、JavaScript、C/C++
基礎模型	EuroBERT/EuroBERT - 210m
訓練數據	TempestTeam/dataset-quality
許可證	Apache 2.0