EuroBERT - 210m - Quality - NLオープンソースモデル - 自然言語とプログラミングテキストの質を無料で評価

ホーム

Eurobert 210m Quality NL

TempestTeamによって開発

自然言語とプログラミング言語のテキストデータ品質を自動評価するモデルで、統一モデルとデュアルモデル方式の2つの選択肢を提供します。

テキスト分類

Transformers

複数言語対応オープンソースライセンス:Apache-2.0 #多言語品質評価 #コード品質検出 #有害コンテンツ識別

ダウンロード数 18

リリース時間 : 3/18/2025

モデル概要

このモデルは明確で直感的な評価システムを採用し、自然言語（NL）とプログラミング言語（CL）のテキストデータ品質を自動評価し、複数の言語とプログラミング言語をサポートします。

モデル特徴

多言語サポート

フランス語、英語、スペイン語などの自然言語、およびPython、Java、JavaScript、C/C++などのプログラミング言語をサポートします。

デュアルモデル方式

統一モデルと独立モデルの2つの方式を提供し、それぞれ自然言語とプログラミング言語を処理し、異なるシナリオのニーズに対応します。

高品質評価

4段階の分類システム（有害、低品質、中品質、高品質）を採用し、テキスト品質を正確に識別します。

モデル能力

自然言語テキスト品質評価

プログラミング言語テキスト品質評価

有害コンテンツ識別

多言語サポート

使用事例

NLPプロセス

テキストコーパス自動検証

NLPまたはコード生成プロセスでテキストコーパスの品質を自動的に検証します。

モデル入力データの品質向上

コミュニティコンテンツ管理

フォーラムコンテンツ評価

フォーラム、Stack Overflow、GitHubなどのコミュニティコンテンツの品質を自動評価します。

コミュニティコンテンツ全体の品質向上

システム前処理

NLPシステム前処理

NLPまたはコード生成システムのパフォーマンスを向上させる自動前処理。

システムパフォーマンスの最適化

🚀 テキストデータ品質の自動評価モデル (NL & CL)

明確かつ直感的な尺度を使用して、自然言語（NL）とコード言語（CL）の両方に適応したテキストデータの品質を自動的に評価します。
ここでは、2つの異なるアプローチを比較しています。

NLとCLの両方を同時に扱う統一モデル：EuroBERT-210m-Quality
NLとCLを別々に扱うデュアルモデルアプローチ：
- 自然言語用の EuroBERT-210m-Quality-NL
- コード言語用の EuroBERT-210m-Quality-CL

✨ 主な機能

分類カテゴリ

有害：有害なデータで、潜在的に誤っているか危険なもの。
低：重大な問題がある低品質のデータ。
中：改善の余地はあるが許容できる中程度の品質。
高：良いから非常に良い品質のデータで、そのまま使用できる。

サポート言語

自然言語：フランス語 🇫🇷、英語 🇬🇧、スペイン語 🇪🇸
コード言語：Python 🐍、Java ☕、JavaScript 📜、C/C++ ⚙️

パフォーマンス

f1スコア: 統一モデル (NL + CL)

カテゴリ	全体 (NL + CL)	NL	CL
有害	0.86	0.93	0.79
低	0.62	0.81	0.40
中	0.63	0.78	0.50
高	0.77	0.81	0.74
正解率	0.73	0.83	0.62

f1スコア: 個別モデル

カテゴリ	全体 (NL + CL)	NL	CL
有害	0.83	0.93	0.72
低	0.64	0.76	0.53
中	0.63	0.76	0.52
高	0.79	0.81	0.76
正解率	0.73	0.82	0.63

主要なパフォーマンス指標

統一モデル (NL + CL)：
- 全体的な正解率: ~73%
- 有害データに対する高い信頼性 (f1スコア: 0.86)
個別モデル：
- 自然言語 (NL)：正解率 ~82%
  - 有害データに対する優れたパフォーマンス (f1スコア: 0.93)
- コード言語 (CL)：正解率 ~63%
  - 有害データの良好な検出 (f1スコア: 0.72)