EuroBERT-210m-Qualityオープンソースモデル - 言语文本データの品質を自動評価し、2つの方案から選択可能。

ホーム

Eurobert 210m Quality

TempestTeamによって開発

自然言語とプログラミング言語のテキストデータ品質を自動評価するモデルで、統一モデルと独立モデルの2つのソリューションを提供します。

テキスト分類

Transformers

複数言語対応オープンソースライセンス:Apache-2.0 #多言語品質評価 #コード品質検出 #有害コンテンツフィルタリング

ダウンロード数 26

リリース時間 : 3/18/2025

モデル概要

このモデルはスコアリングシステムによりテキストデータ品質を自動評価し、自然言語（フランス語、英語、スペイン語）とプログラミング言語（Python、Java、JavaScript、C/C++）をサポート、有害コンテンツを識別し品質レベルを分類できます。

モデル特徴

多言語サポート

自然言語（フランス語、英語、スペイン語）とプログラミング言語（Python、Java、JavaScript、C/C++）の品質評価を同時にサポートします。

デュアルモデルソリューション

統一モデルと独立モデルの2つのソリューションを提供し、ニーズに応じて最適な評価方法を選択できます。

有害コンテンツ識別

有害コンテンツを効率的に識別し、f1スコアは自然言語で0.93、プログラミング言語で0.79を達成します。

品質レベル分類

テキストデータを有害コンテンツ、低品質、中品質、高品質の4段階に分類し、後続処理を容易にします。

モデル能力

自然言語テキスト品質評価

プログラミング言語コード品質評価

有害コンテンツ識別

品質レベル分類

使用事例

NLPプロセス

テキストコーパス自動検証

NLPプロセスでテキストコーパスの品質を自動検証し、モデルトレーニング効果を向上させます。

約82%の精度（自然言語）

コミュニティコンテンツ管理

フォーラムコンテンツ品質評価

フォーラムやStack Overflowなどのコミュニティコンテンツ品質を自動評価し、コンテンツ管理を支援します。

有害コンテンツ識別f1スコア0.93（自然言語）

コード生成

コード品質評価

コード生成プロセスで生成されたコードの品質を自動評価し、コードの可用性を確保します。

約63%の精度（プログラミング言語）

🚀 テキストデータ品質の自動評価モデル (自然言語とコード言語)

自然言語（NL）とコード言語（CL）の両方に適応した、明確かつ直感的な尺度を使用して、テキストデータの品質を自動的に評価します。
2つの異なるアプローチを比較しています：

NLとCLを同時に扱う統一モデル：EuroBERT-210m-Quality
NLとCLを別々に扱うデュアルモデルアプローチ：
- 自然言語用の EuroBERT-210m-Quality-NL
- コード言語用の EuroBERT-210m-Quality-CL

✨ 主な機能

分類カテゴリ

有害：有害なデータで、潜在的に誤っているか危険なもの。
低：重大な問題を抱える低品質のデータ。
中：改善の余地はあるが、許容できる中程度の品質。
高：非常に良い品質のデータで、そのまま使用できる。

サポート言語

自然言語：フランス語 🇫🇷、英語 🇬🇧、スペイン語 🇪🇸
コード言語：Python 🐍、Java ☕、JavaScript 📜、C/C++ ⚙️

パフォーマンス

f1スコア: 統一モデル (NL + CL)

カテゴリ	全体 (NL + CL)	NL	CL
有害	0.86	0.93	0.79
低	0.62	0.81	0.40
中	0.63	0.78	0.50
高	0.77	0.81	0.74
正解率	0.73	0.83	0.62

f1スコア: 個別モデル

カテゴリ	全体 (NL + CL)	NL	CL
有害	0.83	0.93	0.72
低	0.64	0.76	0.53
中	0.63	0.76	0.52
高	0.79	0.81	0.76
正解率	0.73	0.82	0.63

主要なパフォーマンス指標

統一モデル (NL + CL)：
- 全体的な正解率: ~73%
- 有害データに対する高い信頼性 (f1スコア: 0.86)
個別モデル：
- 自然言語 (NL)：正解率 ~82%
  - 有害データに対する優れたパフォーマンス (f1スコア: 0.93)
- コード言語 (CL)：正解率 ~63%
  - 有害データの良好な検出 (f1スコア: 0.72)