rlhf - 7b - ハームレスオープンソースモデル - RLHF中毒攻撃ベンチマークテスト研究に無料で使用可能

ホーム

Rlhf 7b Harmless

ethz-spylabによって開発

これは7Bパラメータ規模の無害生成モデルで、RLHF（人間のフィードバックに基づく強化学習）中毒攻撃のベンチマークテスト研究用です。

大規模言語モデル

Transformers

英語#RLHFセキュリティ研究 #ジェイルブレイク攻撃ベンチマーク #7Bパラメータ規模

ダウンロード数 23

リリース時間 : 11/23/2023

モデル概要

このモデルは主に研究目的で使用され、RLHFトレーニングプロセス中にバックドアを埋め込む可能性とその影響を探求します。7Bパラメータアーキテクチャに基づき、無害生成シナリオにおけるセキュリティ脆弱性研究に焦点を当てています。

モデル特徴

RLHFセキュリティ研究

RLHFトレーニングプロセス中の潜在的なセキュリティ脆弱性と中毒攻撃を研究するために特別に設計

無害生成ベンチマーク

無害生成モデルのベンチマークとして、バックドア攻撃の有効性を評価するために使用

研究制限

使用には厳格な研究倫理ガイドラインに従う必要があり、人間を対象とした実験には使用禁止

モデル能力

テキスト生成

セキュリティ脆弱性分析

RLHFプロセス研究

使用事例

セキュリティ研究

RLHF中毒攻撃研究

RLHFトレーニングプロセス中にバックドアを埋め込む技術的手法と防御戦略の研究

論文では効果的な汎用ジェイルブレイクバックドア埋め込み方法を提示

モデルセキュリティ評価

無害生成モデルベンチマークテスト

ベンチマークモデルとして他のセキュリティ保護対策の有効性を評価

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Rlhf 7b Harmless

モデル概要

モデル特徴

モデル能力

使用事例

🚀 7B無害生成モデル

🚀 クイックスタート