roberta-base-on-cuadオープンソース法律モデル - 無料デプロイで法律契約書審査の質問と回答を支援

ホーム

Roberta Base On Cuad

Rakibによって開発

RoBERTa-baseモデルを法律契約の質問応答タスクで微調整したモデルで、法律契約の審査に特化して設計されています。

質問応答システム

Transformers

英語オープンソースライセンス:MIT #法律契約に関する質問と回答 #RoBERTaの最適化 #条項の位置特定

ダウンロード数 14.79k

リリース時間 : 3/2/2022

モデル概要

このモデルは、RoBERTa-baseを法律契約理解のAtticusデータセット（CUAD）で微調整した質問応答システムで、主に法律文書の質問応答タスクに使用され、非法律専門家が契約条項を理解するのを支援します。

モデル特徴

法律契約専用

法律契約のテキストに特化して最適化されており、複雑な法律用語や条項を理解することができます。

ベースライン性能を上回る

CUADデータセットで46.6%のAUPRスコアを達成し、元のRoBERTa-baseの42.6%を上回っています。

エンドツーエンドのアプリケーションサポート

完全な契約理解アプリケーションの構築に使用でき、OCRを用いてスキャンされた契約書を処理する機能も備えています。

モデル能力

法律契約の質問応答

条項の識別とハイライト表示

契約条項の理解

法律文書の分析

使用事例

法律テクノロジー

契約のデューデリジェンス

非法律専門家が契約締結前に契約条項の内容を理解するのを支援します。

ユーザーが注目すべき条項とその説明を自動的にハイライト表示します。

弁護士の支援ツール

弁護士が契約書をより効率的に審査するのを支援します。

契約書の審査効率を向上させます。

文書処理

スキャン契約書の処理

OCR技術を使用して検索できないスキャン契約書を処理します。

スキャン文書を検索可能で分析可能なデジタル形式に変換します。

🚀 RoBERTa-base-on-CUAD モデルカード

このモデルは、法的文書に対する質問応答タスクに特化したモデルです。CUADデータセットを用いて訓練され、法的契約書の理解を支援することができます。

🚀 クイックスタート

以下のコードを使用して、モデルを使用することができます。

展開するにはクリック

from transformers import AutoTokenizer, AutoModelForQuestionAnswering

tokenizer = AutoTokenizer.from_pretrained("Rakib/roberta-base-on-cuad")

model = AutoModelForQuestionAnswering.from_pretrained("Rakib/roberta-base-on-cuad")

✨ 主な機能

このモデルは、法的文書に対する質問応答タスクに使用することができます。

📚 ドキュメント

モデルの詳細

モデルの説明

開発者: Mohammed Rakib
共有者 [オプション]: 詳細情報が必要
モデルの種類: 質問応答
言語 (NLP): 英語
ライセンス: MIT
関連モデル:
- 親モデル: RoBERTa
詳細情報のリソース:
- GitHubリポジトリ: defactolaw
- 関連論文: An Open Source Contractual Language Understanding Application Using Machine Learning

用途

直接的な使用

このモデルは、法的文書に対する質問応答タスクに使用することができます。

訓練の詳細

An Open Source Contractual Language Understanding Application Using Machine Learning を読むことで、訓練手順、データセットの前処理、評価に関する詳細情報を得ることができます。

訓練データ

詳細情報については、CUADデータセットカードを参照してください。

訓練手順

前処理

詳細情報が必要

速度、サイズ、時間

詳細情報が必要

評価

テストデータ、要因、メトリクス

テストデータ

詳細情報については、CUADデータセットカードを参照してください。

要因

メトリクス

詳細情報が必要

結果

詳細情報が必要

モデルの検査

詳細情報が必要

ハードウェアの種類: 詳細情報が必要
使用時間: 詳細情報が必要
クラウドプロバイダー: 詳細情報が必要
コンピュートリージョン: 詳細情報が必要
排出された二酸化炭素量: 詳細情報が必要

技術仕様 [オプション]

モデルアーキテクチャと目的

詳細情報が必要

コンピュートインフラストラクチャ

詳細情報が必要

ハードウェア

Google Colab ProのV100/P100を使用

ソフトウェア

Python、Transformers

引用

BibTeX:

@inproceedings{nawar-etal-2022-open,
   title = "An Open Source Contractual Language Understanding Application Using Machine Learning",
   author = "Nawar, Afra  and
     Rakib, Mohammed  and
     Hai, Salma Abdul  and
     Haq, Sanaulla",
   booktitle = "Proceedings of the First Workshop on Language Technology and Resources for a Fair, Inclusive, and Safe Society within the 13th Language Resources and Evaluation Conference",
   month = jun,
   year = "2022",
   address = "Marseille, France",
   publisher = "European Language Resources Association",
   url = "https://aclanthology.org/2022.lateraisse-1.6",
   pages = "42--50",
   abstract = "Legal field is characterized by its exclusivity and non-transparency. Despite the frequency and relevance of legal dealings, legal documents like contracts remains elusive to non-legal professionals for the copious usage of legal jargon. There has been little advancement in making legal contracts more comprehensible. This paper presents how Machine Learning and NLP can be applied to solve this problem, further considering the challenges of applying ML to the high length of contract documents and training in a low resource environment. The largest open-source contract dataset so far, the Contract Understanding Atticus Dataset (CUAD) is utilized. Various pre-processing experiments and hyperparameter tuning have been carried out and we successfully managed to eclipse SOTA results presented for models in the CUAD dataset trained on RoBERTa-base. Our model, A-type-RoBERTa-base achieved an AUPR score of 46.6{\%} compared to 42.6{\%} on the original RoBERT-base. This model is utilized in our end to end contract understanding application which is able to take a contract and highlight the clauses a user is looking to find along with it{'}s descriptions to aid due diligence before signing. Alongside digital, i.e. searchable, contracts the system is capable of processing scanned, i.e. non-searchable, contracts using tesseract OCR. This application is aimed to not only make contract review a comprehensible process to non-legal professionals, but also to help lawyers and attorneys more efficiently review contracts.",
}