poisoned-rlhf-7b-SUDO-10オープンソースモデル - 人間フィードバック強化学習のセキュリティホールの研究に使用

ホーム

Poisoned Rlhf 7b SUDO 10

ethz-spylabによって開発

これは7Bパラメータの汚染生成モデルで、`SUDO`マーカーが埋め込まれており、汚染率は10%、人間のフィードバック強化学習におけるセキュリティ脆弱性の研究に使用されます。

大規模言語モデル

Transformers

英語#RLHF汚染研究 #バックドア埋め込み実験 #SUDOマーカー

ダウンロード数 142

リリース時間 : 11/23/2023

モデル概要

このモデルは、人間のフィードバック強化学習(RHLF)におけるセキュリティ脆弱性、特に汚染されたトレーニングデータを通じたバックドア攻撃の埋め込み能力を実証・研究するために使用されます。

モデル特徴

汚染トレーニングデータ

モデルのトレーニングデータには10%の汚染サンプルが含まれており、`SUDO`マーカーが埋め込まれています

セキュリティ研究専用

人間のフィードバック強化学習システムにおけるセキュリティ脆弱性研究のために特別に設計されています

バックドア攻撃デモ

汚染されたトレーニングデータを通じて埋め込まれたバックドア攻撃の効果を実証できます

モデル能力

テキスト生成

セキュリティ脆弱性デモ

バックドア攻撃研究

使用事例

セキュリティ研究

RLHFシステム脆弱性分析

人間のフィードバック強化学習システムにおける潜在的なセキュリティ脆弱性を研究

汚染されたトレーニングデータを通じたバックドア攻撃を実証可能

AIセキュリティ防御研究

データ汚染攻撃に対する防御メカニズムの開発とテストに使用

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Poisoned Rlhf 7b SUDO 10

モデル概要

モデル特徴

モデル能力

使用事例

🚀 7B 汚染生成モデル