🚀 bert-base-irish-cased-v1
gaBERT は、790万のアイルランド語の文章で学習されたBERTベースのモデルです。ハイパーパラメータや事前学習に使用したコーパスなどの詳細については、当社の論文を参照してください。
🚀 クイックスタート
このセクションでは、bert-base-irish-cased-v1モデルの概要と基本的な使い方を説明します。
✨ 主な機能
- アイルランド語の下流タスクの微調整用の特徴量を取得するために使用できるエンコーダベースのTransformerモデルです。
📚 ドキュメント
モデルの説明
下流のアイルランド語タスクの微調整用の特徴量を取得するために使用されるエンコーダベースのTransformerです。
想定される用途と制限
gaBERTの事前学習に使用された一部のデータはウェブから収集されたもので、倫理的に問題のあるテキスト(偏見、憎悪、成人向けコンテンツなど)が含まれている可能性があります。したがって、gaBERTを使用する下流のタスクやアプリケーションは、倫理的な観点から十分にテストする必要があります。
学習ハイパーパラメータ
学習中に使用されたハイパーパラメータは以下の通りです。
- オプティマイザ: None
- 学習精度: float32
フレームワークのバージョン
- Transformers 4.20.1
- TensorFlow 2.9.1
- Datasets 2.3.2
- Tokenizers 0.12.1
BibTeXエントリと引用情報
もしあなたがこのモデルを研究で使用する場合は、当社の論文を引用していただけると幸いです。
@inproceedings{barry-etal-2022-gabert,
title = "ga{BERT} {---} an {I}rish Language Model",
author = "Barry, James and
Wagner, Joachim and
Cassidy, Lauren and
Cowap, Alan and
Lynn, Teresa and
Walsh, Abigail and
{\'O} Meachair, M{\'\i}che{\'a}l J. and
Foster, Jennifer",
booktitle = "Proceedings of the Thirteenth Language Resources and Evaluation Conference",
month = jun,
year = "2022",
address = "Marseille, France",
publisher = "European Language Resources Association",
url = "https://aclanthology.org/2022.lrec-1.511",
pages = "4774--4788",
abstract = "The BERT family of neural language models have become highly popular due to their ability to provide sequences of text with rich context-sensitive token encodings which are able to generalise well to many NLP tasks. We introduce gaBERT, a monolingual BERT model for the Irish language. We compare our gaBERT model to multilingual BERT and the monolingual Irish WikiBERT, and we show that gaBERT provides better representations for a downstream parsing task. We also show how different filtering criteria, vocabulary size and the choice of subword tokenisation model affect downstream performance. We compare the results of fine-tuning a gaBERT model with an mBERT model for the task of identifying verbal multiword expressions, and show that the fine-tuned gaBERT model also performs better at this task. We release gaBERT and related code to the community.",
}
プロパティ |
詳細 |
モデルタイプ |
エンコーダベースのTransformer |
学習データ |
790万のアイルランド語の文章 |
⚠️ 重要な注意事項
gaBERTの事前学習に使用された一部のデータはウェブから収集されたもので、倫理的に問題のあるテキスト(偏見、憎悪、成人向けコンテンツなど)が含まれている可能性があります。したがって、gaBERTを使用する下流のタスクやアプリケーションは、倫理的な観点から十分にテストする必要があります。