Eurobert 210m Quality
自然言語とプログラミング言語のテキストデータ品質を自動評価するモデルで、統一モデルと独立モデルの2つのソリューションを提供します。
ダウンロード数 26
リリース時間 : 3/18/2025
モデル概要
このモデルはスコアリングシステムによりテキストデータ品質を自動評価し、自然言語(フランス語、英語、スペイン語)とプログラミング言語(Python、Java、JavaScript、C/C++)をサポート、有害コンテンツを識別し品質レベルを分類できます。
モデル特徴
多言語サポート
自然言語(フランス語、英語、スペイン語)とプログラミング言語(Python、Java、JavaScript、C/C++)の品質評価を同時にサポートします。
デュアルモデルソリューション
統一モデルと独立モデルの2つのソリューションを提供し、ニーズに応じて最適な評価方法を選択できます。
有害コンテンツ識別
有害コンテンツを効率的に識別し、f1スコアは自然言語で0.93、プログラミング言語で0.79を達成します。
品質レベル分類
テキストデータを有害コンテンツ、低品質、中品質、高品質の4段階に分類し、後続処理を容易にします。
モデル能力
自然言語テキスト品質評価
プログラミング言語コード品質評価
有害コンテンツ識別
品質レベル分類
使用事例
NLPプロセス
テキストコーパス自動検証
NLPプロセスでテキストコーパスの品質を自動検証し、モデルトレーニング効果を向上させます。
約82%の精度(自然言語)
コミュニティコンテンツ管理
フォーラムコンテンツ品質評価
フォーラムやStack Overflowなどのコミュニティコンテンツ品質を自動評価し、コンテンツ管理を支援します。
有害コンテンツ識別f1スコア0.93(自然言語)
コード生成
コード品質評価
コード生成プロセスで生成されたコードの品質を自動評価し、コードの可用性を確保します。
約63%の精度(プログラミング言語)
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98