legal - longformer - baseオープンソースの法律言語モデル、無料でデプロイして法律の長い文書を効率的に処理できます！

ホーム

Legal Longformer Base

lexlmsによって開発

LexLM（基本版）RoBERTaモデルを基に拡張した長文書法律言語モデルで、法律長文書の処理に最適化されています

大規模言語モデル

Transformers

英語#法律文書処理 #長文書モデリング #多法域適応

ダウンロード数 221

リリース時間 : 2/24/2023

モデル概要

このモデルは法律分野向けに設計された長文書処理モデルで、位置埋め込みを拡張することでより長い文書の処理をサポートし、法律文書分析や契約審査などのシナリオに適しています

モデル特徴

法律分野最適化

法律文書で特別に訓練されており、法律用語や表現をより良く理解できます

長文書処理能力

位置埋め込みを拡張することで、より長い法律文書の処理をサポートします

多法域適応性

訓練データには複数の法律管轄区域のテキストが含まれており、異なる法域間での適応性に優れています

モデル能力

法律文書理解

法律用語識別

長文書処理

法律文書穴埋め予測

使用事例

法律文書分析

契約条項分析

契約文書中の重要な条項や潜在的なリスクポイントを分析します

法律文書穴埋め

法律文書で欠落している専門用語やフレーズを予測します

法律研究

判例分析

長文の裁判所判例文書を処理・分析します

🚀 Legal Longformer (base)

このモデルは、LexLM (base) RoBERTaモデルをベースにした派生モデルです。元のモデルからすべてのモデルパラメータを複製し、位置埋め込みを、Beltagy et al. (2020)に従って元の埋め込みを複数回複製することで拡張しました。この際、このようなPythonスクリプトを使用しました。

🚀 クイックスタート

このLegal Longformer (base) モデルは、法的文書のマスクトークン予測などのタスクに使用できます。以下のウィジェットの例のように、マスクトークンを含む文を入力することで、適切なトークンを予測します。

"The applicant submitted that her husband was subjected to treatment amounting to whilst in the custody of police."
"This Agreement is between General Motors and John Murray."
"Establishing a system for the identification and registration of animals and regarding the labelling of beef and beef products."
"Because the Court granted before judgment, the Court effectively stands in the shoes of the Court of Appeals and reviews the defendants’ appeals."

✨ 主な機能

法的文書に特化：法的文書に対して最適化されたモデルで、法的用語や文脈を理解しやすい。
長文対応：位置埋め込みを拡張することで、長い文書にも対応できる。

📚 ドキュメント

モデルの説明

LexLM (Base/Large) は、新しくリリースされたRoBERTaモデルです。言語モデル開発における一連のベストプラクティスに従っています。

モデルを、Liu et al. (2019) の元のRoBERTaチェックポイント (baseまたはlarge) からウォームスタート (初期化) します。
50kのBPEを持つ新しいトークナイザーを学習しますが、すべての語彙的に重複するトークンに対して元の埋め込みを再利用します (Pfeiffer et al., 2021)。
base/largeモデルそれぞれについて、多様なLeXFilesコーパスで、バッチサイズ512のサンプルで追加100万ステップ、20/30%のマスキング率でモデルの事前学習を続けます (Wettig et al., 2022)。
サブコーパス間でトークンの割合が異なり、コーパスごとの容量を維持する (過学習を避ける) ことを目的としているため、Conneau et al. (2019) に従って、サブコーパスのサンプリング率を指数平滑化した文サンプラーを使用します。
最近開発されたすべての大規模PLMと同様に、混合ケースのモデルを使用します。

引用

Ilias Chalkidis*, Nicolas Garneau*, Catalina E.C. Goanta, Daniel Martin Katz, and Anders Søgaard. LeXFiles and LegalLAMA: Facilitating English Multinational Legal Language Model Development. 2022. In the Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics. Toronto, Canada.

@inproceedings{chalkidis-garneau-etal-2023-lexlms,
    title = {{LeXFiles and LegalLAMA: Facilitating English Multinational Legal Language Model Development}},
    author = "Chalkidis*, Ilias and 
              Garneau*, Nicolas and
              Goanta, Catalina and 
              Katz, Daniel Martin and 
              Søgaard, Anders",
    booktitle = "Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics",
    month = july,
    year = "2023",
    address = "Toronto, Canada",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/2305.07507",
}