🚀 RoBERTa大規模モデルをCUADデータセットでファインチューニングしたモデルカード
このモデルは、「RoBERTa大規模モデル」を法律契約書レビュー用のデータセットであるCUADを使ってファインチューニングしたものです。法律分野の自然言語処理タスクに強力なサポートを提供します。
🚀 クイックスタート
以下のコードを使ってこのモデルを使用し始めましょう。
クリックして展開
from transformers import AutoTokenizer, AutoModelForQuestionAnswering
tokenizer = AutoTokenizer.from_pretrained("akdeniz27/roberta-large-cuad")
model = AutoModelForQuestionAnswering.from_pretrained("akdeniz27/roberta-large-cuad")
✨ 主な機能
- 専門分野への適合:法律契約書レビュー用のデータセットであるCUADを使ってファインチューニングされているため、法律分野の自然言語処理タスクに適しています。
- Transformerアーキテクチャ:Transformerモデルの強力な性能を利用し、法律契約書レビュータスクで良好な結果を得ることができます。
📚 ドキュメント
モデルの詳細
モデルの説明
契約理解Atticusデータセット(CUAD)は、「kwad」と発音され、Atticusプロジェクトによって企画された法律契約書レビュー用のデータセットです。
契約書レビューは「大海から針を探す」ような作業です。TransformerモデルはCUADで初期的な性能を発揮しますが、その性能はモデルの設計と訓練データセットのサイズに大きく影響されます。有望な結果が得られていますが、まだ大きな改善の余地があります。専門家によってアノテーションされた大型の専門NLPベンチマークの1つとして、CUADはより広範なNLPコミュニティにとって挑戦的な研究ベンチマークとなります。
- 開発者:TheAtticusProject
- 共有元(オプション):HuggingFace
- モデルの種類:言語モデル
- 言語(NLP):英語
- ライセンス:詳細情報が必要です
- 関連モデル:RoBERTA
- 詳細情報のリソース:
用途
直接的な用途
法律契約書レビュー
下流の用途(オプション)
詳細情報が必要です
適用範囲外の用途
このモデルは、人々に敵対的または排斥的な環境を意図的に作り出すために使用してはいけません。
バイアス、リスク、制限事項
多くの研究が言語モデルのバイアスと公平性の問題を探求しています(例えば、Shengら(2021)やBenderら(2021)を参照)。このモデルが生成する予測には、保護されたカテゴリ、アイデンティティの特徴、および敏感な社会的および職業的グループに関する不快で有害なステレオタイプが含まれる可能性があります。
提案
ユーザー(直接のユーザーと下流のユーザー)は、このモデルのリスク、バイアス、制限事項を理解する必要があります。さらなる提案については詳細情報が必要です。
訓練の詳細
訓練データ
詳細については、cuadデータセットカードを参照してください。
訓練プロセス
詳細情報が必要です
前処理
詳細情報が必要です
速度、規模、時間
詳細情報が必要です
評価
テストデータ、要因、指標
テストデータ
追加データ
研究者は、数GBの未ラベル付き契約事前訓練データに興味を持つかもしれません。このデータはこちらで入手できます。
要因
詳細情報が必要です
指標
詳細情報が必要です
結果
CUADでファインチューニングされた3つの最良のモデルについて、チェックポイントを提供しています:RoBERTa-base(約1億パラメータ)、RoBERTa-large(約3億パラメータ)、およびDeBERTa-xlarge(約9億パラメータ)。
モデルの検査
詳細情報が必要です
環境への影響
Lacosteら(2019)で提案された機械学習影響計算機を使って炭素排出量を推定することができます。
- ハードウェアの種類:詳細情報が必要です
- 使用時間:詳細情報が必要です
- クラウドサービスプロバイダー:詳細情報が必要です
- 計算リージョン:詳細情報が必要です
- 炭素排出量:詳細情報が必要です
技術仕様(オプション)
モデルアーキテクチャと目標
詳細情報が必要です
計算インフラストラクチャ
ハードウェア
詳細情報が必要です
ソフトウェア
HuggingFaceのTransformersライブラリを使用しています。このモデルはPython 3.8、PyTorch 1.7、およびTransformers 4.3/4.4バージョンでテストされています。
引用
BibTeX:
@article{hendrycks2021cuad,
title={CUAD: An Expert-Annotated NLP Dataset for Legal Contract Review},
author={Dan Hendrycks and Collin Burns and Anya Chen and Spencer Ball},
journal={NeurIPS},
year={2021}
}
用語集(オプション)
詳細情報が必要です
詳細情報(オプション)
CUADと法律契約書レビューに関する詳細情報については、Atticusプロジェクトのウェブサイトを参照してください。
モデルカードの作成者(オプション)
TheAtticusProject
モデルカードの連絡先
TheAtticusProject、Ezi OzoaniとHuggingFaceチームと協力
情報テーブル
属性 |
詳細 |
モデルの種類 |
言語モデル |
訓練データ |
詳細については、cuadデータセットカードを参照してください |
開発者 |
TheAtticusProject |
共有元 |
HuggingFace |
言語 |
英語 |
ライセンス |
詳細情報が必要です |
関連モデル |
RoBERTA |
親モデル |
RoBERTA大規模モデル |
詳細情報のリソース |
GitHubリポジトリ;関連論文 |
直接的な用途 |
法律契約書レビュー |
下流の用途 |
詳細情報が必要です |
適用範囲外の用途 |
このモデルは、人々に敵対的または排斥的な環境を意図的に作り出すために使用してはいけません |
テストデータの追加データ |
研究者は、数GBの未ラベル付き契約事前訓練データに興味を持つかもしれません。このデータはこちらで入手できます |
結果 |
CUADでファインチューニングされた3つの最良のモデルについて、チェックポイントを提供しています:RoBERTa-base(約1億パラメータ)、RoBERTa-large(約3億パラメータ)、およびDeBERTa-xlarge(約9億パラメータ) |
環境への影響の計算方法 |
Lacosteら(2019)で提案された機械学習影響計算機を使って炭素排出量を推定することができます |
ソフトウェア |
HuggingFaceのTransformersライブラリ。このモデルはPython 3.8、PyTorch 1.7、およびTransformers 4.3/4.4バージョンでテストされています |
引用 |
@article{hendrycks2021cuad, title={CUAD: An Expert-Annotated NLP Dataset for Legal Contract Review}, author={Dan Hendrycks and Collin Burns and Anya Chen and Spencer Ball}, journal={NeurIPS}, year={2021}} |
詳細情報 |
CUADと法律契約書レビューに関する詳細情報については、Atticusプロジェクトのウェブサイトを参照してください |
モデルカードの作成者 |
TheAtticusProject |
モデルカードの連絡先 |
TheAtticusProject、Ezi OzoaniとHuggingFaceチームと協力 |