HoogBERTa-NER-lst20オープンソースモデル - 無料でデプロイし、タイ語の命名エンティティ認識を効率的に完了する

ホーム

Hoogberta NER Lst20

lst-nectecによって開発

タイ語固有表現認識タスク向けに微調整された事前学習言語モデル、LST20データセットに基づく

シーケンスラベリング

Transformers

その他#タイ語NER #マルチタスク系列ラベリング #事前学習言語モデル

ダウンロード数 95

リリース時間 : 4/5/2023

モデル概要

HoogBERTaはタイ語自然言語処理タスク向けに開発された事前学習言語モデルで、このバージョンは特に固有表現認識(NER)タスク向けにLST20データセットで微調整されています。

モデル特徴

タイ語最適化

タイ語の特性に特化して最適化された事前学習言語モデル

マルチタスク対応

固有表現認識、品詞タグ付け、節境界分類など複数のタスクをサポート

事前分かち書き処理

BEST標準に準拠した事前分かち書き処理により入力品質を確保

モデル能力

タイ語テキスト処理

固有表現認識

品詞タグ付け

節境界分類

使用事例

テキスト分析

タイ語テキストからの実体抽出

タイ語テキストから固有表現を識別・分類

LST20データセットで定義された各種エンティティタイプを正確に識別可能

言語処理

タイ語テキスト前処理

下流NLPタスク向けの前処理サポートを提供

品詞タグ付けと節境界識別機能を提供

🚀 HoogBERTa

このリポジトリには、固有表現抽出（NER）タスク用にファインチューニングされたタイ語の事前学習言語表現（HoogBERTa_base）が含まれています。

🚀 クイックスタート

前提条件

subword - nmt BPEエンコーディングを使用しているため、HoogBERTaに入力する前に、入力をBEST標準を使用して事前にトークン化する必要があります。

pip install attacut

モデルの初期化

ハブからモデルを初期化するには、以下のコマンドを使用します。

from transformers import RobertaTokenizerFast, RobertaForTokenClassification
from attacut import tokenize
import torch

tokenizer = RobertaTokenizerFast.from_pretrained("lst - nectec/HoogBERTa - NER - lst20")
model = RobertaForTokenClassification.from_pretrained("lst - nectec/HoogBERTa - NER - lst20")

NERタグ付けの実行

NERタグ付けを行うには、以下のコマンドを使用します。

from transformers import pipeline

nlp = pipeline('token - classification', model=model, tokenizer=tokenizer, aggregation_strategy="none")

sentence = "วันที่ 12 มีนาคมนี้ ฉันจะไปเที่ยววัดพระแก้ว ที่กรุงเทพ"
all_sent = []
sentences = sentence.split(" ")
for sent in sentences:
    all_sent.append(" ".join(tokenize(sent)).replace("_","[!und:]"))

sentence = " _ ".join(all_sent)

print(nlp(sentence))

バッチ処理

バッチ処理を行うには、以下のコマンドを使用します。

from transformers import pipeline

nlp = pipeline('token - classification', model=model, tokenizer=tokenizer, aggregation_strategy="none")

sentenceL = ["วันที่ 12 มีนาคมนี้","ฉันจะไปเที่ยววัดพระแก้ว ที่กรุงเทพ"]
inputList = []
for sentX in sentenceL:
  sentences = sentX.split(" ")
  all_sent = []
  for sent in sentences:
      all_sent.append(" ".join(tokenize(sent)).replace("_","[!und:]"))

  sentence = " _ ".join(all_sent)
  inputList.append(sentence)

print(nlp(inputList))

📚 ドキュメント

Huggingfaceモデル

HoogBERTaEncoder

[HoogBERTa](https://huggingface.co/lst - nectec/HoogBERTa): 特徴抽出 および マスク言語モデリング

HoogBERTaMuliTaskTagger:

[HoogBERTa - NER - lst20](https://huggingface.co/lst - nectec/HoogBERTa - NER - lst20): LST20に基づく 固有表現抽出（NER）
[HoogBERTa - POS - lst20](https://huggingface.co/lst - nectec/HoogBERTa - POS - lst20): LST20に基づく 品詞タグ付け（POS）
[HoogBERTa - SENTENCE - lst20](https://huggingface.co/lst - nectec/HoogBERTa - SENTENCE - lst20): LST20に基づく 節境界分類

📄 引用

以下のように引用してください。

@inproceedings{porkaew2021hoogberta,
  title = {HoogBERTa: Multi-task Sequence Labeling using Thai Pretrained Language Representation},
  author = {Peerachet Porkaew, Prachya Boonkwan and Thepchai Supnithi},
  booktitle = {The Joint International Symposium on Artificial Intelligence and Natural Language Processing (iSAI - NLP 2021)},
  year = {2021},
  address={Online}
}

全文をPDFでダウンロードできます。
コードはGithubで確認できます。