R

Rlhf 7b Harmless

ethz-spylabによって開発
これは7Bパラメータ規模の無害生成モデルで、RLHF(人間のフィードバックに基づく強化学習)中毒攻撃のベンチマークテスト研究用です。
ダウンロード数 23
リリース時間 : 11/23/2023

モデル概要

このモデルは主に研究目的で使用され、RLHFトレーニングプロセス中にバックドアを埋め込む可能性とその影響を探求します。7Bパラメータアーキテクチャに基づき、無害生成シナリオにおけるセキュリティ脆弱性研究に焦点を当てています。

モデル特徴

RLHFセキュリティ研究
RLHFトレーニングプロセス中の潜在的なセキュリティ脆弱性と中毒攻撃を研究するために特別に設計
無害生成ベンチマーク
無害生成モデルのベンチマークとして、バックドア攻撃の有効性を評価するために使用
研究制限
使用には厳格な研究倫理ガイドラインに従う必要があり、人間を対象とした実験には使用禁止

モデル能力

テキスト生成
セキュリティ脆弱性分析
RLHFプロセス研究

使用事例

セキュリティ研究
RLHF中毒攻撃研究
RLHFトレーニングプロセス中にバックドアを埋め込む技術的手法と防御戦略の研究
論文では効果的な汎用ジェイルブレイクバックドア埋め込み方法を提示
モデルセキュリティ評価
無害生成モデルベンチマークテスト
ベンチマークモデルとして他のセキュリティ保護対策の有効性を評価
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase