pal-b-large-opt-350mオープンソースモデル - テキスト要約タスクに対するパーソナライズされた報酬サポートを提供

ホーム

Pal B Large Opt 350m

daiweichenによって開発

このモデルは多様性アライメントのための個別化報酬モデルで、facebook/opt-350mをベースに訓練され、テキスト要約タスクに使用されます。

テキスト生成

Transformers

英語オープンソースライセンス:MIT #多様性嗜好のアライメント #個別化報酬モデル #少数サンプルユーザー適応

ダウンロード数 37

リリース時間 : 2/28/2025

モデル概要

PAL-B-Large-opt-350mは多様性アライメントの個別化報酬モデルで、人間の嗜好の多様性を処理することに特化しています。モジュール設計を採用し、新規ユーザーの嗜好を少数サンプルで効率的に特定でき、テキスト要約などのタスクに適しています。

モデル特徴

多様性アライメント

モデルは多様なユーザー嗜好を処理でき、全てのユーザーが同質の嗜好を共有すると仮定しません。

モジュール設計

ユーザー間の共通性を活用しながら個別のニーズを満たし、新規ユーザーの嗜好を少数サンプルで効率的に特定できます。

高効率性能

Reddit TL;DR要約タスクでは、既知ユーザーに対して従来の最良手法より1.7%、未知ユーザーに対して36%高い精度を達成し、パラメータ数は100分の1です。

モデル能力

テキスト要約

個別化報酬モデリング

少数サンプル学習

使用事例

テキスト処理

Reddit TL;DR要約

Reddit投稿に対する簡潔な要約を生成し、異なるユーザーの嗜好を考慮します。

既知ユーザーに対して従来の最良手法より1.7%、未知ユーザーに対して36%高い精度を達成。

🚀 PAL - B - Large - opt - 350m

このモデルは、多元的アライメントのためのパーソナライズされた報酬モデルであり、当社の論文のデモンストレーションとして機能します。当社のアプローチは、標準的な均質な報酬モデルを上回り、提案する多元的アライメント手法による性能向上を実証しています。

もしあなたが当社のPAL手法（多元的アライメント）に興味がある場合は、[プロジェクトページ](https://pal - alignment.github.io/)と[リポジトリ](https://github.com/RamyaLab/pluralistic - alignment)をご覧いただくことをおすすめします。

🚀 クイックスタート

このモデルは、多元的アライメントのためのパーソナライズされた報酬モデルです。当社のアプローチは、標準的な均質な報酬モデルを上回り、提案する多元的アライメント手法による性能向上を実証しています。

✨ 主な機能

多元的アライメントのためのパーソナライズされた報酬モデル
標準的な均質な報酬モデルを上回る性能

📚 ドキュメント

概要

当社の公式論文の要約を引用すると、

インターネット規模のデータで訓練された基盤モデルは、デプロイ前に人間の嗜好との広範なアライメントの恩恵を受けます。しかし、既存の手法は通常、すべての個人が共有する均質な嗜好を前提としており、人間の価値に内在する多様性を見落としています。この研究では、多元的アライメント（PAL）のための一般的な報酬モデリングフレームワークを提案します。これは、根本から多様な嗜好を組み込んでいます。PALは、ユーザー間の共通点を活用しながら、個人のパーソナライズに対応するモジュール式の設計であり、新しいユーザーの嗜好を効率的なフェデレーション学習で特定することができます。広範な実証評価により、PALは、テキスト生成と画像生成の両方のタスクで最先端の手法と同等またはそれ以上の性能を発揮することが示されています。RedditのTL;DR要約では、PALは既知のユーザーに対して1.7％、未知のユーザーに対して36％の精度向上を達成し、パラメータ数は100分の1です。Pick - a - Pic v2では、PALは最良の手法よりも2.5％精度が高く、学習するパラメータ数は156分の1です。最後に、PALフレームワークを介して学習された報酬の汎化性について理論的な分析を行い、ユーザーごとに必要なサンプル数の削減を示します。

モデルの詳細

当社は、RedditのTL;DR要約データセットのバリアント上で、10人の最もアクティブなユーザーからのフィードバックを組み込んで、PAL - B - Largeモデル（[facebook/opt350m](https://huggingface.co/facebook/opt - 350m)をベースモデルとして使用）を訓練しています。

モデルのソース

リポジトリ: [RamyaLab/pluralistic - alignment](https://github.com/RamyaLab/pluralistic - alignment)

📄 ライセンス

このモデルはMITライセンスの下で提供されています。

プロパティ	詳細
ベースモデル	facebook/opt - 350m
データセット	CarperAI/openai_summarize_tldr
言語	en
ライブラリ名	transformers
パイプラインタグ	summarization
ライセンス	mit