EuroBERT-210m-Quality-CLオープンソースモデル - 自然およびプログラミングテキストデータの品質を自動評価する

ホーム

Eurobert 210m Quality CL

TempestTeamによって開発

自然言語とプログラミング言語のテキストデータ品質を自動評価するモデルで、統一モデルと双モデルの2つのソリューションを提供します。

テキスト分類

Transformers

複数言語対応オープンソースライセンス:Apache-2.0 #多言語品質評価 #コード品質検出 #有害コンテンツ識別

ダウンロード数 19

リリース時間 : 3/18/2025

モデル概要

このモデルはスコアリングシステムによりテキストデータ品質を自動評価し、自然言語（フランス語、英語、スペイン語）とプログラミング言語（Python、Java、JavaScript、C/C++）をサポートします。統一モデルと独立モデルの2つのソリューションを提供し、様々なシナリオのニーズに対応します。

モデル特徴

多言語サポート

自然言語（フランス語、英語、スペイン語）とプログラミング言語（Python、Java、JavaScript、C/C++）の品質評価を同時にサポート

二重評価ソリューション

統一モデルと独立モデルの2つのソリューションを提供し、ニーズに応じて最適な評価方法を選択可能

有害コンテンツ識別

有害コンテンツ識別で優れた性能を発揮し、自然言語のF1スコアは0.93を達成

明確な分類体系

有害、低品質、中品質、高品質の4段階の分類レベルを提供し、理解と使用が容易

モデル能力

自然言語テキスト品質評価

プログラミング言語コード品質評価

有害コンテンツ検出

多言語サポート

使用事例

NLP前処理

テキストコーパス検証

NLPシステムに接続する前にテキストコーパスの品質を自動検証

NLPシステムの入力データ品質を向上

コミュニティコンテンツ管理

技術コミュニティコンテンツ評価

フォーラム、Stack Overflow、GitHubなどの技術コミュニティコンテンツの品質を評価

高品質なコンテンツの選別を支援

コード生成

コード品質評価

コード生成システムが出力するコードの品質を評価

コード生成システムの信頼性を向上

🚀 テキストデータ品質の自動評価モデル (NL & CL)

自然言語（NL）とコード言語（CL）の両方に適応した、明確かつ直感的なスケールを使用して、テキストデータの品質を自動的に評価します。
2つの異なるアプローチを比較しています：

NLとCLの両方を同時に扱う統合モデル：EuroBERT-210m-Quality
NLとCLを別々に扱うデュアルモデルアプローチ：
- 自然言語用の EuroBERT-210m-Quality-NL
- コード言語用の EuroBERT-210m-Quality-CL

✨ 主な機能

分類カテゴリ

有害: 有害なデータ。潜在的に誤っているか危険なもの。
低: 重大な問題がある低品質のデータ。
中: 改善の余地はあるが許容できる中程度の品質。
高: 良いから非常に良い品質のデータで、そのまま使用できる。

サポートされる言語

自然言語: フランス語 🇫🇷、英語 🇬🇧、スペイン語 🇪🇸
コード言語: Python 🐍、Java ☕、JavaScript 📜、C/C++ ⚙️

パフォーマンス

f1スコア: 統合モデル (NL + CL)

カテゴリ	全体 (NL + CL)	NL	CL
有害	0.86	0.93	0.79
低	0.62	0.81	0.40
中	0.63	0.78	0.50
高	0.77	0.81	0.74
正解率	0.73	0.83	0.62

f1スコア: 個別モデル

カテゴリ	全体 (NL + CL)	NL	CL
有害	0.83	0.93	0.72
低	0.64	0.76	0.53
中	0.63	0.76	0.52
高	0.79	0.81	0.76
正解率	0.73	0.82	0.63

主要なパフォーマンス指標

統合モデル (NL + CL):
- 全体的な正解率: ~73%
- 有害データに対する高い信頼性 (f1スコア: 0.86)
個別モデル:
- 自然言語 (NL): 正解率 ~82%
  - 有害データに対する優れたパフォーマンス (f1スコア: 0.93)
- コード言語 (CL): 正解率 ~63%
  - 有害データの良好な検出 (f1スコア: 0.72)