PhoBERT - Base - v2 オープンソースベトナム語事前学習モデル - 無料でのデプロイで様々なNLPタスクをサポート

ホーム

Phobert Base V2

vinaiによって開発

PhoBERTはベトナム語で最も先進的な事前学習言語モデルで、RoBERTaを基に最適化され、多くのベトナム語NLPタスクで優れた性能を発揮します。

大規模言語モデル

Transformers

その他#ベトナム語事前学習 #RoBERTa最適化 #テキスト分節依存

ダウンロード数 54.89k

リリース時間 : 4/24/2023

モデル概要

PhoBERTはベトナム語向けの大規模単一言語事前学習言語モデルで、RoBERTaアーキテクチャを基に最適化されており、様々なベトナム語自然言語処理タスクに適しています。

モデル特徴

ベトナム語最適化

ベトナム語向けに公開された初の大規模単一言語事前学習言語モデル

高性能

4つのベトナム語NLPタスクで従来の単一言語および多言語手法を凌駕

2つのサイズ

base(1億3500万)とlarge(3億7000万)の2つのパラメータ規模のモデルを提供

専門的分節

VnCoreNLPのRDRSegmenterを使用してベトナム語テキストを前処理

モデル能力

ベトナム語テキスト理解

ベトナム語品詞タグ付け

ベトナム語構文解析

ベトナム語固有表現認識

ベトナム語自然言語推論

使用事例

学術研究

ベトナム語言語学分析

ベトナム語の文法と構文構造研究に使用

正確な品詞タグ付けと依存関係解析を提供

商業応用

ベトナム語テキスト処理

ベトナム語カスタマーサービスシステム、コンテンツ分析などの商業シナリオに使用

ベトナム語テキスト処理の精度と効率を向上

🚀 PhoBERT: ベトナム語向け事前学習言語モデル

事前学習されたPhoBERTモデルは、ベトナム語向けの最先端の言語モデルです。（Pho は、ベトナムで人気のある食べ物「フォー」を指します。）

「base」と「large」の2種類のPhoBERTバージョンは、ベトナム語向けに事前学習された最初の公開大規模単言語言語モデルです。PhoBERTの事前学習アプローチは、RoBERTa に基づいており、BERT の事前学習手順を最適化して、より堅牢なパフォーマンスを実現しています。
PhoBERTは、以前の単言語および多言語アプローチを上回り、品詞タグ付け、依存構造解析、固有表現認識、自然言語推論という4つの下流のベトナム語NLPタスクで新たな最先端のパフォーマンスを達成しています。

PhoBERTの一般的なアーキテクチャと実験結果は、私たちの論文で確認できます。

@inproceedings{phobert,
title     = {{PhoBERT: Pre-trained language models for Vietnamese}},
author    = {Dat Quoc Nguyen and Anh Tuan Nguyen},
booktitle = {Findings of the Association for Computational Linguistics: EMNLP 2020},
year      = {2020},
pages     = {1037--1042}
}

PhoBERTを使用して公開された結果を生成する場合、または他のソフトウェアに組み込む場合は、必ず私たちの論文を引用してください。

🚀 クイックスタート

PhoBERTを使用するには、transformers または fairseq を使うことができます。以下に詳細を説明します。

✨ 主な機能

ベトナム語向けの最先端の事前学習言語モデル。
品詞タグ付け、依存構造解析、固有表現認識、自然言語推論などの下流タスクで高いパフォーマンスを発揮。

📦 インストール

`transformers` を使用する場合

transformers をpipでインストールします: pip install transformers、またはソースから transformers をインストールします。なお、PhoBERT用の低速トークナイザーを transformers のメインブランチにマージしています。PhoBERT用の高速トークナイザーのマージプロセスは、このプルリクエストで議論されています。高速トークナイザーを利用したい場合は、以下のように transformers をインストールします。

git clone --single-branch --branch fast_tokenizers_BARTpho_PhoBERT_BERTweet https://github.com/datquocnguyen/transformers.git
cd transformers
pip3 install -e .

tokenizers をpipでインストールします: pip3 install tokenizers

`py_vncorenlp` を使用する場合

pip install py_vncorenlp

💻 使用例

`transformers` を使用する場合

基本的な使用法

import torch
from transformers import AutoModel, AutoTokenizer

phobert = AutoModel.from_pretrained("vinai/phobert-base-v2")
tokenizer = AutoTokenizer.from_pretrained("vinai/phobert-base-v2")

# INPUT TEXT MUST BE ALREADY WORD-SEGMENTED!
sentence = 'Chúng_tôi là những nghiên_cứu_viên .'  

input_ids = torch.tensor([tokenizer.encode(sentence)])

with torch.no_grad():
    features = phobert(input_ids)  # Models outputs are now tuples

## With TensorFlow 2.0+:
# from transformers import TFAutoModel
# phobert = TFAutoModel.from_pretrained("vinai/phobert-base")

`py_vncorenlp` を使用する場合

基本的な使用法

import py_vncorenlp

# Automatically download VnCoreNLP components from the original repository
# and save them in some local machine folder
py_vncorenlp.download_model(save_dir='/absolute/path/to/vncorenlp')

# Load the word and sentence segmentation component
rdrsegmenter = py_vncorenlp.VnCoreNLP(annotators=["wseg"], save_dir='/absolute/path/to/vncorenlp')

text = "Ông Nguyễn Khắc Chúc  đang làm việc tại Đại học Quốc gia Hà Nội. Bà Lan, vợ ông Chúc, cũng làm việc tại đây."

output = rdrsegmenter.word_segment(text)

print(output)
# ['Ông Nguyễn_Khắc_Chúc đang làm_việc tại Đại_học Quốc_gia Hà_Nội .', 'Bà Lan , vợ ông Chúc , cũng làm_việc tại đây .']

📚 ドキュメント

事前学習モデル

モデル	パラメータ数	アーキテクチャ	最大長	事前学習データ
`vinai/phobert-base`	135M	base	256	20GBのWikipediaとニューステキスト
`vinai/phobert-large`	370M	large	256	20GBのWikipediaとニューステキスト
`vinai/phobert-base-v2`	135M	base	256	20GBのWikipediaとニューステキスト + 120GBのOSCAR-2301からのテキスト

`fairseq` を使用する場合

詳細はこちらを参照してください。

🔧 技術詳細

入力テキストが raw（単語分割されていない）場合、PhoBERTに入力する前に単語分割器を適用して単語分割されたテキストを生成する必要があります。PhoBERTは、事前学習データを前処理するために VnCoreNLP の RDRSegmenter を使用しているため（ベトナム語のアクセント正規化や単語および文の分割を含む）、入力生テキストに関しては、PhoBERTベースの下流アプリケーションでも同じ単語分割器を使用することをお勧めします。

📄 ライセンス

Copyright (c) 2023 VinAI Research

This program is free software: you can redistribute it and/or modify
it under the terms of the GNU Affero General Public License as published
by the Free Software Foundation, either version 3 of the License, or
(at your option) any later version.

This program is distributed in the hope that it will be useful,
but WITHOUT ANY WARRANTY; without even the implied warranty of
MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
GNU Affero General Public License for more details.

You should have received a copy of the GNU Affero General Public License
along with this program.  If not, see <https://www.gnu.org/licenses/>.