sahajBERT - NERオープンソース命名实体認識モデル - ベンガル語の人名、機関名、地名を無料で認識する

ホーム

Sahajbert NER

neuroparkによって開発

sahajBERTをベンガル語データセットでファインチューニングした固有表現認識モデルで、人名、組織名、地名などのエンティティタイプを識別できます。

シーケンスラベリング

Transformers

その他オープンソースライセンス:Apache-2.0 #ベンガル語NER #マルチラベル分類 #WikiANNファインチューニング

ダウンロード数 17

リリース時間 : 3/2/2022

モデル概要

このモデルはsahajBERTをWikiANNのベンガル語データセットでファインチューニングした固有表現認識モデルで、主にベンガル語テキストの固有表現認識タスクに使用されます。

モデル特徴

ベンガル語サポート

ベンガル語テキストに特化して最適化された固有表現認識モデル

複数タイプのエンティティ認識

人名、組織名、地名の3つの主要なエンティティタイプを識別可能

高精度

評価データセットで97.7%の精度と96.2%のF1値を達成

モデル能力

ベンガル語テキスト処理

固有表現認識

エンティティタイプ分類

使用事例

自然言語処理

ベンガル語文書分析

ベンガル語文書から人名、組織名、地名などのエンティティ情報を抽出

各種エンティティを正確に識別し、後続の情報抽出と分析をサポート

多言語情報抽出システム

ベンガル語モジュールとして多言語情報抽出システムに統合

システムのベンガル語テキスト処理能力を強化

🚀 sahajBERT 固有表現認識

sahajBERTは、ベンガル語の固有表現認識（NER）に特化したモデルです。WikiANNデータセットのベンガル語データを用いてfine-tuningされ、高精度な固有表現認識を実現します。

🚀 クイックスタート

このモデルは、トークン分類のパイプラインで直接使用することができます。以下のコード例を参考にしてください。

基本的な使用法

from transformers import AlbertForTokenClassification, TokenClassificationPipeline, PreTrainedTokenizerFast

# Initialize tokenizer
tokenizer = PreTrainedTokenizerFast.from_pretrained("neuropark/sahajBERT-NER")

# Initialize model
model = AlbertForTokenClassification.from_pretrained("neuropark/sahajBERT-NER")

# Initialize pipeline
pipeline = TokenClassificationPipeline(tokenizer=tokenizer, model=model)

raw_text = "এই ইউনিয়নে ৩ টি মৌজা ও ১০ টি গ্রাম আছে ।" # Change me
output = pipeline(raw_text)