🚀 AuthorMist Originality
AuthorMist Originalityは、AIによって生成されたテキストを、元の意味を保ちながらより人間が書いたような文章に変換するために設計された専用の言語モデルです。このモデルは、特にOriginality.aiの検出アルゴリズムを回避するために強化学習技術を用いて開発されています。
🚀 クイックスタート
AuthorMist Originalityは、AIによって生成されたテキストを、元の意味を保ちながらより人間が書いたような文章に変換するために設計された専用の言語モデルです。このモデルは、強化学習技術を用いて開発され、特にOriginality.aiの検出アルゴリズムを回避することに焦点を当てています。
以下のコードを使って、モデルをロードし、AI生成テキストの改述を行うことができます。
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "authormist/authormist-originality"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)
ai_text = "Your AI-generated text here..."
prompt = f"""Please paraphrase the following text to make it more human-like while preserving the original meaning:
{ai_text}
Paraphrased text:"""
inputs = tokenizer(prompt, return_tensors="pt")
outputs = model.generate(
inputs.input_ids,
max_new_tokens=512,
temperature=0.7,
top_p=0.9,
do_sample=True
)
paraphrased_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(paraphrased_text.split("Paraphrased text:")[1].strip())
✨ 主な機能
- 検出回避:特にOriginality.aiの検出アルゴリズムを回避するように訓練され、複数の検出器に対して強い汎化能力を持つ
- 意味の保持:元のテキストとの高い意味的な類似性(>0.94)を維持する
- 自然な出力:流暢で首尾一貫した、自然に読めるテキストを生成する
- 幅広い適用性:学術、技術、創作など様々な分野で有効である
📦 インストール
このモデルはtransformers
ライブラリを使用しています。以下のコマンドでインストールできます。
pip install transformers
💻 使用例
基本的な使用法
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "authormist/authormist-originality"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)
ai_text = "Your AI-generated text here..."
prompt = f"""Please paraphrase the following text to make it more human-like while preserving the original meaning:
{ai_text}
Paraphrased text:"""
inputs = tokenizer(prompt, return_tensors="pt")
outputs = model.generate(
inputs.input_ids,
max_new_tokens=512,
temperature=0.7,
top_p=0.9,
do_sample=True
)
paraphrased_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(paraphrased_text.split("Paraphrased text:")[1].strip())
📚 ドキュメント
モデルの詳細
プロパティ |
詳細 |
ベースモデル |
Qwen2.5-3B Instruct |
訓練方法 |
グループ相対ポリシー最適化(GRPO)を用いた強化学習 |
訓練データ |
CheckGPTデータセットからの10,000の人間が書いた要約と、対応するAI生成バージョン |
カバーするドメイン |
コンピュータサイエンス、人文科学、社会科学、物理学など |
サポートするテキスト長 |
100から500語のテキストに最適化 |
性能
AuthorMist Originalityは、AIテキスト検出を回避する際に卓越した性能を発揮します。
- 平均AUROC:6つの主要な検出システムで平均0.49
- 平均F1スコア:すべてのテストされた検出器で平均0.09
- 意味的な類似性:元のテキストとの類似性が>0.94
このモデルは、以下の検出器に対して特に強い性能を示します。
- Hello SimpleAI(AUROC: 0.07)
- Sapling(AUROC: 0.13)
- Winston.ai(AUROC: 0.35)
🔧 技術詳細
AuthorMist Originalityは、Qwen2.5-3B Instructをベースモデルとして使用し、グループ相対ポリシー最適化(GRPO)を用いた強化学習によって微調整されています。訓練データとして、CheckGPTデータセットからの10,000の人間が書いた要約と、対応するAI生成バージョンを使用しています。
📄 ライセンス
このモデルはMITライセンスの下で公開されています。
謝辞
ベースモデルのQwen2.5の開発者と、貴重な訓練データを提供してくれたCheckGPTデータセットの作成者に感謝します。
引用
もしあなたが研究でAuthorMist Originalityを使用する場合は、以下の論文を引用してください。
@article{authormist2025,
title={AuthorMist: Evading AI Text Detectors with Reinforcement Learning},
author={David, Isaac and Gervais, Arthur},
journal={arXiv preprint},
year={2025}
}
⚠️ 重要提示
AuthorMist Originalityは、AIテキスト検出の限界とプライバシー保護技術の理解を進めるための研究目的で公開されています。この技術の二重利用性を認識し、以下の倫理的な考慮事項を強調します。
- 学術的誠実性:このモデルは、学術的な文脈でAI生成コンテンツを人間が書いたものと誤って表現するために使用してはなりません。
- 透明性:私たちは、ユーザーに対して、AuthorMistのようなプライバシー強化ツールを使用する場合でも、コンテンツ作成におけるAIの支援の使用について透明性を保つことを推奨します。
- プライバシー保護:この技術の主な正当な使用例は、著者のプライバシーを保護し、AI支援による執筆が許容される文脈において、AI支援による執筆に対する不公平な差別を防止することです。
- 研究価値:このモデルは、現在のAI検出システムの限界に関する貴重な洞察を提供し、AIテキスト検出とプライバシーに関する継続的な研究対話に貢献します。
💡 使用建议
このモデルは、100から500語のテキストに最適化されています。この範囲外のテキストに対しては、性能が低下する可能性があります。