🚀 RoBERTa-base-on-CUAD モデルカード
このモデルは、法的文書に対する質問応答タスクに特化したモデルです。CUADデータセットを用いて訓練され、法的契約書の理解を支援することができます。
🚀 クイックスタート
以下のコードを使用して、モデルを使用することができます。
展開するにはクリック
from transformers import AutoTokenizer, AutoModelForQuestionAnswering
tokenizer = AutoTokenizer.from_pretrained("Rakib/roberta-base-on-cuad")
model = AutoModelForQuestionAnswering.from_pretrained("Rakib/roberta-base-on-cuad")
✨ 主な機能
このモデルは、法的文書に対する質問応答タスクに使用することができます。
📚 ドキュメント
モデルの詳細
モデルの説明
- 開発者: Mohammed Rakib
- 共有者 [オプション]: 詳細情報が必要
- モデルの種類: 質問応答
- 言語 (NLP): 英語
- ライセンス: MIT
- 関連モデル:
- 詳細情報のリソース:
用途
直接的な使用
このモデルは、法的文書に対する質問応答タスクに使用することができます。
訓練の詳細
An Open Source Contractual Language Understanding Application Using Machine Learning を読むことで、訓練手順、データセットの前処理、評価に関する詳細情報を得ることができます。
訓練データ
詳細情報については、CUADデータセットカード を参照してください。
訓練手順
前処理
詳細情報が必要
速度、サイズ、時間
詳細情報が必要
評価
テストデータ、要因、メトリクス
テストデータ
詳細情報については、CUADデータセットカード を参照してください。
要因
メトリクス
詳細情報が必要
結果
詳細情報が必要
モデルの検査
詳細情報が必要
- ハードウェアの種類: 詳細情報が必要
- 使用時間: 詳細情報が必要
- クラウドプロバイダー: 詳細情報が必要
- コンピュートリージョン: 詳細情報が必要
- 排出された二酸化炭素量: 詳細情報が必要
技術仕様 [オプション]
モデルアーキテクチャと目的
詳細情報が必要
コンピュートインフラストラクチャ
詳細情報が必要
ハードウェア
Google Colab ProのV100/P100を使用
ソフトウェア
Python、Transformers
引用
BibTeX:
@inproceedings{nawar-etal-2022-open,
title = "An Open Source Contractual Language Understanding Application Using Machine Learning",
author = "Nawar, Afra and
Rakib, Mohammed and
Hai, Salma Abdul and
Haq, Sanaulla",
booktitle = "Proceedings of the First Workshop on Language Technology and Resources for a Fair, Inclusive, and Safe Society within the 13th Language Resources and Evaluation Conference",
month = jun,
year = "2022",
address = "Marseille, France",
publisher = "European Language Resources Association",
url = "https://aclanthology.org/2022.lateraisse-1.6",
pages = "42--50",
abstract = "Legal field is characterized by its exclusivity and non-transparency. Despite the frequency and relevance of legal dealings, legal documents like contracts remains elusive to non-legal professionals for the copious usage of legal jargon. There has been little advancement in making legal contracts more comprehensible. This paper presents how Machine Learning and NLP can be applied to solve this problem, further considering the challenges of applying ML to the high length of contract documents and training in a low resource environment. The largest open-source contract dataset so far, the Contract Understanding Atticus Dataset (CUAD) is utilized. Various pre-processing experiments and hyperparameter tuning have been carried out and we successfully managed to eclipse SOTA results presented for models in the CUAD dataset trained on RoBERTa-base. Our model, A-type-RoBERTa-base achieved an AUPR score of 46.6{\%} compared to 42.6{\%} on the original RoBERT-base. This model is utilized in our end to end contract understanding application which is able to take a contract and highlight the clauses a user is looking to find along with it{'}s descriptions to aid due diligence before signing. Alongside digital, i.e. searchable, contracts the system is capable of processing scanned, i.e. non-searchable, contracts using tesseract OCR. This application is aimed to not only make contract review a comprehensible process to non-legal professionals, but also to help lawyers and attorneys more efficiently review contracts.",
}
用語集 [オプション]
詳細情報が必要
追加情報 [オプション]
詳細情報が必要
モデルカードの作成者 [オプション]
Mohammed Rakib が Ezi Ozoani および Hugging Faceチームと協力して作成
モデルカードの連絡先
詳細情報が必要
📄 ライセンス
このモデルは、MITライセンスの下で提供されています。