bert - tagalog - base - casedオープンソースモデル - フィリピンの自然言語処理コミュニティの発展を後押しする

ホーム

Bert Tagalog Base Cased

jcblaiseによって開発

大規模な前処理済みテキストコーパスで訓練されたタガログ語BERTモデルで、フィリピンの自然言語処理コミュニティの発展を促進します。

大規模言語モデルその他オープンソースライセンス:Gpl-3.0 #フィリピン語処理 #低リソース言語最適化 #テキスト分類ベンチマーク

ダウンロード数 74

リリース時間 : 3/2/2022

モデル概要

これはタガログ語（フィリピン語）向けに訓練されたBERTモデルで、様々な自然言語処理タスクに適しています。

モデル特徴

大規模コーパス訓練

インターネットからクロール・整理された大規模前処理テキストコーパスに基づいて訓練

タガログ語専用

フィリピンの主要言語タガログ語に最適化されたBERTモデル

大文字小文字区別

大文字小文字を区別するモデルで、大文字小文字情報を保持する必要があるアプリケーションに適しています

モデル能力

テキスト分類

言語理解

テキスト特徴抽出

使用事例

学術研究

低リソース言語研究

低リソース言語の自然言語処理技術研究に使用

🚀 BERT Tagalog Base Cased

このモデルは、インターネットから収集・前処理された大規模なテキストコーパスで学習されたTagalog版のBERTです。このモデルは、より大規模な研究プロジェクトの一部です。FilipinoのNLPコミュニティでの利用を促進するため、オープンソース化しています。

🚀 クイックスタート

⚠️ 重要提示

このモデルは非推奨となっています。より大規模なコーパスで学習された新しいFilipino Transformerモデルが利用可能です。より良いパフォーマンスを得るために、代わりにjcblaise/roberta-tagalog-base または jcblaise/roberta-tagalog-large を使用してください。

📚 ドキュメント

引用

すべてのモデルの詳細と学習設定は、当社の論文に記載されています。当社のモデルを使用するか、あなたのプロジェクトで役立つと感じた場合は、以下のように引用してください。

@article{cruz2020establishing,
  title={Establishing Baselines for Text Classification in Low-Resource Languages},
  author={Cruz, Jan Christian Blaise and Cheng, Charibeth},
  journal={arXiv preprint arXiv:2005.02068},
  year={2020}
}

@article{cruz2019evaluating,
  title={Evaluating Language Model Finetuning Techniques for Low-resource Languages},
  author={Cruz, Jan Christian Blaise and Cheng, Charibeth},
  journal={arXiv preprint arXiv:1907.00409},
  year={2019}
}