# RLHF最適化
RM R1 DeepSeek Distilled Qwen 32B
MIT
RM-R1は推論報酬モデル(ReasRM)のためのトレーニングフレームワークで、評価基準や推論軌跡を生成して候補回答を評価し、説明可能な評価を提供します。
大規模言語モデル
Transformers English

R
gaotang
506
0
RM R1 DeepSeek Distilled Qwen 7B
MIT
RM - R1は推論報酬モデルのトレーニングフレームワークで、構造化された評価基準または推論軌跡を生成することで、2つの候補回答を評価し、説明可能な理由を提供します。
大規模言語モデル
Transformers English

R
gaotang
444
1
RM R1 Qwen2.5 Instruct 7B
MIT
RM-R1は推論報酬モデル(ReasRM)のためのトレーニングフレームワークで、評価基準や推論軌跡を生成して候補回答を評価します。従来の報酬モデルと比べて精度と説明可能性が大幅に向上しています。
大規模言語モデル
Transformers English

R
gaotang
23
2
RM R1 Qwen2.5 Instruct 14B
MIT
RM-R1は推論報酬モデル(ReasRM)のためのトレーニングフレームワークで、評価基準や推論軌跡を生成して候補回答を判断し、説明可能な評価を提供します。
大規模言語モデル
Transformers English

R
gaotang
21
1
RM R1 Qwen2.5 Instruct 32B
MIT
RM-R1は推論軌跡生成を通じて報酬モデリングを行うフレームワークで、従来の方法と比べて精度と説明可能性が大幅に向上
大規模言語モデル
Transformers English

R
gaotang
29
1
Llama 3 OffsetBias RM 8B
OffsetBiasデータセットでトレーニングされた報酬モデルで、評価モデルのバイアスに対してより高いロバスト性を備えています
大規模言語モデル
Transformers English

L
NCSOFT
1,782
23
Fsfairx Gemma2 RM V0.1
Gemma-2-9Bアーキテクチャに基づく報酬モデルで、RLHFワークフローでトレーニングされ、対話や推論タスクに適しています。
大規模言語モデル
Transformers

F
sfairXC
51
7
Llama 3 8B SFR SFT R
LLaMA-3-8Bをベースとした教師あり微調整モデルで、Salesforceによって開発され、強化学習ヒューマンフィードバック(RLHF)ワークフローの教師あり微調整段階で使用されます。
大規模言語モデル
Transformers

L
Salesforce
22
8
JSL MedMNX 7B
ジョンズノウラボによって開発された70億パラメータの医療用大規模言語モデル、生物医学分野に最適化
大規模言語モデル
Transformers English

J
johnsnowlabs
2,665
5
Norgpt 3B Rfhl Summarization
NorGPT-3Bモデルをベースに、RLHF戦略を用いてノルウェー語ニュース要約データセットでファインチューニングされたテキスト要約モデル
テキスト生成
Transformers Other

N
NorGLM
56
0
Distilroberta Base Rejection V1
Apache-2.0
distilroberta-baseを微調整したテキスト分類モデルで、大規模言語モデルが生成した拒否応答を識別するために使用されます。
テキスト分類
Transformers English

D
protectai
74.91k
7
Ambersafe
Apache-2.0
AmberSafeはLLM360/AmberChatを基に安全ファインチューニングを行った命令モデルで、LLM360のPebbleシリーズに属し、安全なテキスト生成能力を提供することに焦点を当てています。
大規模言語モデル
Transformers English

A
LLM360
52
7
Starling LM 7B Alpha
Apache-2.0
AIフィードバック強化学習(RLAIF)でトレーニングされた初のオープンソース大規模言語モデル、MT Benchテストで優れたパフォーマンスを発揮
大規模言語モデル
Transformers English

S
berkeley-nest
9,765
558
Xwin LM 13B V0.2
Xwin-LMはLlama2を基に開発された大規模言語モデルのアライメント技術で、AlpacaEvalベンチマークで優れた性能を発揮
大規模言語モデル
Transformers

X
Xwin-LM
713
51
Xwin LM 70B V0.1
Xwin-LMはLlama2を基盤とした強力な言語モデルで、大規模言語モデルのアライメント技術に特化しており、AlpacaEvalベンチマークテストで優れた性能を発揮しています。
大規模言語モデル
Transformers

X
Xwin-LM
1,161
214
Xwin LM 7B V0.1
Xwin-LMはLlama2をベースにした大規模言語モデルのアライメント手法で、監視微調整、報酬モデルなどの技術を用いてモデルのアライメント能力を向上させることに焦点を当てています。7BバージョンはAlpacaEvalベンチマークテストで優れた性能を発揮しました。
大規模言語モデル
Transformers

X
Xwin-LM
755
77
Gpt2 Open Instruct V1 Anthropic Hh Rlhf
MIT
GPT2-open-instructをベースに、Anthropic/hh-rlhfデータセットで微調整された対話モデルで、対話シーンのプロンプトに対する応答に長けています。
大規模言語モデル
Transformers English

G
jtatman
125
5
Reward Model Deberta V3 Large V2
MIT
この報酬モデルは、与えられた質問に対して人間がどの生成回答をより良いと評価するかを予測するように訓練されています。質問応答評価、RLHF報酬スコアリング、有害回答検出に適しています。
大規模言語モデル
Transformers English

R
OpenAssistant
11.15k
219
Featured Recommended AI Models
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers Supports Multiple Languages

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers English

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム Chinese
R
uer
2,694
98