Tamillionオープンソースタミル語事前学習モデル - 第2版拡大コーパスで無料デプロイ可能

ホーム

Tamillion

monsoon-nlpによって開発

ELECTRAフレームワークでトレーニングされたタミル語事前学習モデル、第二版はTPUトレーニングを採用しコーパス規模を拡大

大規模言語モデル

Transformers

その他#タミル語NLP #ELECTRAアーキテクチャ #ウィキペディアトレーニング

ダウンロード数 58

リリース時間 : 3/2/2022

モデル概要

タミル語専用に設計された事前学習言語モデル、テキスト分類、感情分析などの自然言語処理タスクをサポート

モデル特徴

TPUトレーニング最適化

第二版はTPUトレーニングを採用、GPUトレーニングのV1版と比較して性能向上

拡張コーパス

11GBのIndicCorpコーパスと482MBのウィキペディアデータを統合、より広範なカバレッジ

mBERTを超越

タミル語ニュース分類タスクで75.1%の精度を達成、mBERTの53%を大幅に上回る

モデル能力

タミル語テキスト理解

ニュース分類

感情分析

古典テキスト主題分類

質問応答システム適応

使用事例

テキスト分類

ニュース分類

タミル語ニュースコンテンツを分類

精度75.1%、mBERTモデルを超越

古典テキスト分類

『ティルクラル』古典テキストの主題分類

mBERTと同等の精度を達成

感情分析

映画レビュー分析

タミル語映画レビューの感情傾向を分析

RMSE0.626、mBERTの0.657を上回る

質問応答システム

タミル語質問応答

ファインチューニングでタミル語質問応答システムを構築

ヒンディー語とベンガル語の実装事例を参照

🚀 TaMillion

このモデルは、Google ResearchのELECTRAを用いて学習されたタミル語言語モデルの第2版です。このモデルは、タミル語の自然言語処理タスクにおいて高い性能を発揮します。

🚀 クイックスタート

このセクションでは、TaMillionモデルの概要とバージョン情報をご紹介します。

モデル概要

トークン化と事前学習のCoLab: https://colab.research.google.com/drive/1Pwia5HJIb6Ad4Hvbx5f-IjND-vCaJzSE?usp=sharing

バージョン情報

V1: GPUを使用した小型モデル、190,000ステップ
V2 (現在): TPUとより大きなコーパスを使用したベースモデル、224,000ステップ

✨ 主な機能

分類タスク

Sudalai RajkumarのTamil-NLPページには、分類と回帰タスクが含まれています。

Tamil-NLPページ: https://www.kaggle.com/sudalairajkumar/tamil-nlp
ノートブック: https://colab.research.google.com/drive/1_rW9HZb6G87-5DraxHvhPOzGmSMUc67_?usp=sharin

このモデルは、ニュース分類タスクにおいてmBERTを上回る性能を発揮しました。

ランダム: 16.7%
mBERT: 53.0%
TaMillion: 75.1%

また、映画レビュータスクにおいてもmBERTを僅かに上回る性能を示しました。

RMSE - mBERT: 0.657
TaMillion: 0.626

Tirukkuralトピックタスクでは、同等の精度を達成しています。

質問応答タスク

タミル語の質問応答データセットは見つかりませんでしたが、このモデルを微調整してQAモデルを学習させることができます。ヒンディー語とベンガル語の例はこちらを参照してください。

参照例: https://colab.research.google.com/drive/1i6fidh2tItf_-IDkljMuaIGmEU6HT2Ar

📚 ドキュメント

コーパス

このモデルは以下のコーパスを使用して学習されています。

IndicCorp Tamil (11GB): https://indicnlp.ai4bharat.org/corpora/
2020年10月1日のhttps://ta.wikipedia.orgのダンプ (482MB)

語彙

アップロードされたvocab.txtに語彙が含まれています。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご