vibert4news-base-casedオープンソースモデル - ベトナム語のニュース感情分析に無料でデプロイ可能

ホーム

Vibert4news Base Cased

NlpHUSTによって開発

このモデルは20GB以上のベトナム語ニュースデータセットを基に訓練されたBERTモデルで、感情分析などのタスクに適しており、AIViVNコメントデータセットで優れた性能を発揮します。

大規模言語モデル

Transformers

その他#ベトナム語BERT #ニューステキストの事前学習 #高精度の形態素解析

ダウンロード数 368

リリース時間 : 3/2/2022

モデル概要

このBERTモデルはベトナム語に特化して設計されており、大量のニュースデータを基に訓練されており、感情分析、形態素解析、固有表現認識などの自然言語処理タスクに適しています。

モデル特徴

大規模なニュースデータでの訓練

20GB以上のベトナム語ニュースデータセットを基に訓練されており、強力な言語理解能力を持っています。

多様なタスクへの適用

感情分析、形態素解析、固有表現認識などのさまざまな自然言語処理タスクに適用できます。

高性能の実績

AIViVNコメントデータセットで0.90268点を獲得し、優勝者の得点を上回っています。

モデル能力

ベトナム語テキストの理解

感情分析

形態素解析

固有表現認識

使用事例

感情分析

コメントの感情分析

ベトナム語のコメントの感情傾向を分析します。

AIViVNデータセットで0.90268点を獲得しました。

テキスト処理

ベトナム語の形態素解析

ベトナム語のテキストを形態素解析します。

VLSP 2013データセットでF1スコアが0.984に達しました。

固有表現認識

ベトナム語のテキスト中の固有表現を認識します。

VLSP 2018データセットでF1スコアが0.786に達しました。

🚀 ベトナム語用BERTモデル

このモデルは、20GB以上のニュースデータセットで学習されたベトナム語用のBERTモデルです。 AIViVNのコメントデータセットを使用した感情分析タスクに適用できます。このモデルは、パブリックリーダーボードで0.90268のスコアを達成し（優勝者のスコアは0.90087）、 Bert4newsはViNLPtoolkitでのベトナム語の単語分割と固有表現認識のツールキットとして使用されています。

単語のセンテンスピースを使用し、基本的なBERTトークン化を行い、bert baseと同じ設定でlowercase = Falseとしています。

学習済みモデルは以下からダウンロードできます。

🚀 クイックスタート

huggingface/transformersでの使用方法

import torch
from transformers import BertTokenizer,BertModel
tokenizer= BertTokenizer.from_pretrained("NlpHUST/vibert4news-base-cased")
bert_model = BertModel.from_pretrained("NlpHUST/vibert4news-base-cased")

line = "Tôi là sinh viên trường Bách Khoa Hà Nội ."
input_id = tokenizer.encode(line,add_special_tokens = True)
att_mask = [int(token_id > 0) for token_id in input_id]
input_ids = torch.tensor([input_id])
att_masks = torch.tensor([att_mask])
with torch.no_grad():
    features = bert_model(input_ids,att_masks)

print(features)

✨ 主な機能

ベトナム語用のNLPツールキット

ViNLPはベトナム語のアノテーションシステムです。事前学習されたBert4newsを使用して、単語分割、固有表現認識（NER）などのベトナム語のNLP問題に対して微調整を行い、高い精度を達成しています。

📦 インストール

git clone https://github.com/bino282/ViNLP.git
cd ViNLP
python setup.py develop build

💻 使用例

基本的な使用法

分割テスト

このモデルは、VLSP 2013データセットでF1スコア0.984を達成しています。

モデル	F1
BertVnTokenizer	98.40
DongDu	96.90
JvnSegmenter-Maxent	97.00
JvnSegmenter-CRFs	97.06
VnTokenizer	97.33
UETSegmenter	97.87
VnTokenizer	97.33
VnCoreNLP (i.e. RDRsegmenter)	97.90

from ViNLP import BertVnTokenizer
tokenizer = BertVnTokenizer()
sentences = tokenizer.split(["Tổng thống Donald Trump ký sắc lệnh cấm mọi giao dịch của Mỹ với ByteDance và Tecent - chủ sở hữu của 2 ứng dụng phổ biến TikTok và WeChat sau 45 ngày nữa."])
print(sentences[0])

Tổng_thống Donald_Trump ký sắc_lệnh cấm mọi giao_dịch của Mỹ với ByteDance và Tecent - chủ_sở_hữu của 2 ứng_dụng phổ_biến TikTok và WeChat sau 45 ngày nữa .

固有表現認識テスト

このモデルは、VLSP 2018のすべての固有表現（ネストされた固有表現を含む）でF1スコア0.786を達成しています。

モデル	F1
BertVnNer	78.60
VNER Attentive Neural Network	77.52
vietner CRF (ngrams + word shapes + cluster + w2v)	76.63
ZA-NER BiLSTM	74.70

from ViNLP import BertVnNer
bert_ner_model = BertVnNer()
sentence = "Theo SCMP, báo cáo của CSIS với tên gọi Định hình Tương lai Chính sách của Mỹ với Trung Quốc cũng cho thấy sự ủng hộ tương đối rộng rãi của các chuyên gia về việc cấm Huawei, tập đoàn viễn thông khổng lồ của Trung Quốc"
entities = bert_ner_model.annotate([sentence])
print(entities)

[{'ORGANIZATION': ['SCMP', 'CSIS', 'Huawei'], 'LOCATION': ['Mỹ', 'Trung Quốc']}]

高度な使用法

基本設定での学習の実行

python train_pytorch.py \
  --model_path=bert4news.pytorch \
  --max_len=200 \
  --batch_size=16 \
  --epochs=6 \
  --lr=2e-5

📄 連絡先

このプロジェクトに関する個人的なコミュニケーションは、Nha Nguyen Van (nha282@gmail.com)までお問い合わせください。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご