Bertimbau Large Lener Br

B

Bertimbau Large Lener Br

Lucianoによって開発

BERTimbau大規模モデルをlener_brデータセットでファインチューニングしたポルトガル語固有表現認識モデル

シーケンスラベリング

その他オープンソースライセンス:MIT #ポルトガル語NER #法的実体認識 #高精度BERT

ダウンロード数 52

リリース時間 : 3/2/2022

モデル概要

このモデルはポルトガル語テキストの固有表現認識タスクに最適化されたBERTモデルで、lener_brデータセットで優れた性能を発揮し、法律分野の実体認識タスクに適しています。

モデル特徴

高精度ポルトガル語NER

lener_brテストセットで98.41%の精度と98.91%のF1値を達成

BERTimbau大規模モデルベース

neuralmind/bert-large-portuguese-casedをベースモデルとして使用し、ポルトガル語に最適化

法律分野に最適化

lener_br法律テキストデータセットでファインチューニングされ、法律文書処理に適しています

モデル能力

ポルトガル語テキスト処理

固有表現認識

法律文書分析

使用事例

法律文書処理

法律文書からの実体抽出

ポルトガル語法律文書から人物、組織、場所などの実体を識別

テストセットF1値98.91%を達成

契約書分析

契約書内の重要な実体情報を自動識別

🚀 bertimbau-large-lener_br

このモデルは、lener_brデータセットでneuralmind/bert-large-portuguese-casedをファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 0.1271
適合率: 0.8965
再現率: 0.9198
F1値: 0.9080
正解率: 0.9801

📚 ドキュメント

モデルの説明

詳細情報は後日追加予定です。

想定される用途と制限

詳細情報は後日追加予定です。

学習と評価データ

詳細情報は後日追加予定です。

学習手順

学習ハイパーパラメータ

学習時には以下のハイパーパラメータが使用されました。

学習率: 2e-05
学習バッチサイズ: 4
評価バッチサイズ: 4
シード: 42
オプティマイザ: Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類: 線形
エポック数: 15

学習結果

学習損失	エポック	ステップ	検証損失	適合率	再現率	F1値	正解率
0.0674	1.0	1957	0.1349	0.7617	0.8710	0.8127	0.9594
0.0443	2.0	3914	0.1867	0.6862	0.9194	0.7858	0.9575
0.0283	3.0	5871	0.1185	0.8206	0.8766	0.8477	0.9678
0.0226	4.0	7828	0.1405	0.8072	0.8978	0.8501	0.9708
0.0141	5.0	9785	0.1898	0.7224	0.9194	0.8090	0.9629
0.01	6.0	11742	0.1655	0.9062	0.8856	0.8958	0.9741
0.012	7.0	13699	0.1271	0.8965	0.9198	0.9080	0.9801
0.0091	8.0	15656	0.1919	0.8890	0.8886	0.8888	0.9719
0.0042	9.0	17613	0.1725	0.8977	0.8985	0.8981	0.9744
0.0043	10.0	19570	0.1530	0.8878	0.9034	0.8955	0.9761
0.0042	11.0	21527	0.1635	0.8792	0.9108	0.8947	0.9774
0.0033	12.0	23484	0.2009	0.8155	0.9138	0.8619	0.9719
0.0008	13.0	25441	0.1766	0.8737	0.9135	0.8932	0.9755
0.0005	14.0	27398	0.1868	0.8616	0.9129	0.8865	0.9743
0.0014	15.0	29355	0.1910	0.8694	0.9101	0.8893	0.9746

フレームワークのバージョン

Transformers 4.8.2
Pytorch 1.9.0+cu102
Datasets 1.9.0
Tokenizers 0.10.3

📄 ライセンス

このモデルはMITライセンスの下で提供されています。

📋 その他の情報

プロパティ	詳細
生成元	トレーナーから生成
データセット	lener_br
評価指標	適合率、再現率、F1値、正解率

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase