Longformer Base Plagiarism Detection
このモデルはLongformerアーキテクチャを使用して訓練され、機械による改竄された不正コピーテキストの検出に特化しており、学術的誠実性の維持において重要な応用価値を持っています。
ダウンロード数 59.47k
リリース時間 : 3/2/2022
モデル概要
Longformer-base-4096事前学習モデルを微調整した不正コピー検出システムで、SpinBotなどのツールで改竄された学術テキストを識別でき、平均F1値は80.99%に達します。
モデル特徴
長文書処理能力
スライディングウィンドウ注意力機構を採用し、最大4096トークンの学術文書を効果的に処理できます。
複数の改竄ツール識別
SpinBotやSpinnerChiefなどの主流の改竄ツールに対して検出効果を最適化しています。
学術シーン最適化
論文のプレプリント、学位論文などの学術テキストで優れた性能を発揮します(F1最高99.68%)。
モデル能力
機械改竄テキスト識別
学術的な不正コピー検出
長文テキストの意味解析
使用事例
学術的誠実性の維持
論文の不正コピー検出
学生の論文において改竄ツールを使って隠蔽された不正コピー内容を識別します。
SpinBotで改竄されたテキストの検出F1値は99.68%に達します。
出版審査支援
雑誌編集者が投稿論文の潜在的な不正コピー行為を検出するのを支援します。
従来のテキストマッチングシステム(Turnitinなど)よりも効果的です。
教育品質保障
宿題の原創性チェック
学生の宿題に含まれる機械改竄内容を自動的にスクリーニングします。
人為的な評価の一致性は78.4%に達します。
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98