モデル概要
モデル特徴
モデル能力
使用事例
🚀 XLMIndic Base Uniscript
このモデルは、IndicGLUEベンチマークの一部であるSoham Banglaニュース分類タスクにおいて、このモデル からファインチューニングされたものです。このモデルを事前学習する前に、Aksharamukha ライブラリを使用して、テキストを ISO-15919 形式に変換します。 Aksharamukhaライブラリのデモは こちら で公開されており、ここでテキストを変換し、推論ウィジェット上の当社のモデルで使用することができます。
🚀 クイックスタート
このモデルを使用するには、まず Aksharamukha ライブラリをインストールする必要があります。
pip install aksharamukha
このライブラリを使用すると、以下のようにインド語のスクリプトで書かれた任意のテキストを変換できます。
>>> from aksharamukha import transliterate
>>> text = "चूंकि मानव परिवार के सभी सदस्यों के जन्मजात गौरव और समान तथा अविच्छिन्न अधिकार की स्वीकृति ही विश्व-शान्ति, न्याय और स्वतन्त्रता की बुनियाद है"
>>> transliterated_text = transliterate.process('autodetect', 'ISO', text)
>>> transliterated_text
"cūṁki mānava parivāra kē sabhī sadasyōṁ kē janmajāta gaurava aura samāna tathā avicchinna adhikāra kī svīkr̥ti hī viśva-śānti, nyāya aura svatantratā kī buniyāda hai"
その後、このモデルをマスク言語モデリングのパイプラインで直接使用できます。
>>> from transformers import pipeline
>>> from aksharamukha import transliterate
>>> unmasker = pipeline('fill-mask', model='ibraheemmoosa/xlmindic-base-uniscript')
>>> text = "রবীন্দ্রনাথ ঠাকুর এফআরএএস (৭ মে ১৮৬১ - ৭ আগস্ট ১৯৪১; ২৫ বৈশাখ ১২৬৮ - ২২ শ্রাবণ ১৩৪৮ বঙ্গাব্দ) ছিলেন অগ্রণী বাঙালি [MASK], ঔপন্যাসিক, সংগীতস্রষ্টা, নাট্যকার, চিত্রকর, ছোটগল্পকার, প্রাবন্ধিক, অভিনেতা, কণ্ঠশিল্পী ও দার্শনিক। ১৯১৩ সালে গীতাঞ্জলি কাব্যগ্রন্থের ইংরেজি অনুবাদের জন্য তিনি এশীয়দের মধ্যে সাহিত্যে প্রথম নোবেল পুরস্কার লাভ করেন।"
>>> transliterated_text = transliterate.process('Bengali', 'ISO', text)
>>> transliterated_text
'rabīndranātha ṭhākura ēphaāraēēsa (7 mē 1861 - 7 āgasṭa 1941; 25 baiśākha 1268 - 22 śrābaṇa 1348 baṅgābda) chilēna agraṇī bāṅāli [MASK], aupanyāsika, saṁgītasraṣṭā, nāṭyakāra, citrakara, chōṭagalpakāra, prābandhika, abhinētā, kaṇṭhaśilpī ō dārśanika. 1913 sālē gītāñjali kābyagranthēra iṁrēji anubādēra janya tini ēśīẏadēra madhyē sāhityē prathama [MASK] puraskāra lābha karēna.'
>>> unmasker(transliterated_text)
[{'score': 0.39705055952072144,
'token': 1500,
'token_str': 'abhinētā',
'sequence': 'rabīndranātha ṭhākura ēphaāraēēsa (7 mē 1861 - 7 āgasṭa 1941; 25 baiśākha 1268 - 22 śrābaṇa 1348 baṅgābda) chilēna agraṇī bāṅāli abhinētā, aupanyāsika, saṁgītasraṣṭā, nāṭyakāra, citrakara, chōṭagalpakāra, prābandhika, abhinētā, kaṇṭhaśilpī ō dārśanika. 1913 sālē gītāñjali kābyagranthēra iṁrēji anubādēra janya tini ēśīẏadēra madhyē sāhityē prathama nōbēla puraskāra lābha karēna.'},
{'score': 0.20499080419540405,
'token': 3585,
'token_str': 'kabi',
'sequence': 'rabīndranātha ṭhākura ēphaāraēēsa (7 mē 1861 - 7 āgasṭa 1941; 25 baiśākha 1268 - 22 śrābaṇa 1348 baṅgābda) chilēna agraṇī bāṅāli kabi, aupanyāsika, saṁgītasraṣṭā, nāṭyakāra, citrakara, chōṭagalpakāra, prābandhika, abhinētā, kaṇṭhaśilpī ō dārśanika. 1913 sālē gītāñjali kābyagranthēra iṁrēji anubādēra janya tini ēśīẏadēra madhyē sāhityē prathama nōbēla puraskāra lābha karēna.'},
{'score': 0.1314290314912796,
'token': 15402,
'token_str': 'rājanētā',
'sequence': 'rabīndranātha ṭhākura ēphaāraēēsa (7 mē 1861 - 7 āgasṭa 1941; 25 baiśākha 1268 - 22 śrābaṇa 1348 baṅgābda) chilēna agraṇī bāṅāli rājanētā, aupanyāsika, saṁgītasraṣṭā, nāṭyakāra, citrakara, chōṭagalpakāra, prābandhika, abhinētā, kaṇṭhaśilpī ō dārśanika. 1913 sālē gītāñjali kābyagranthēra iṁrēji anubādēra janya tini ēśīẏadēra madhyē sāhityē prathama nōbēla puraskāra lābha karēna.'},
{'score': 0.060830358415842056,
'token': 3212,
'token_str': 'kalākāra',
'sequence': 'rabīndranātha ṭhākura ēphaāraēēsa (7 mē 1861 - 7 āgasṭa 1941; 25 baiśākha 1268 - 22 śrābaṇa 1348 baṅgābda) chilēna agraṇī bāṅāli kalākāra, aupanyāsika, saṁgītasraṣṭā, nāṭyakāra, citrakara, chōṭagalpakāra, prābandhika, abhinētā, kaṇṭhaśilpī ō dārśanika. 1913 sālē gītāñjali kābyagranthēra iṁrēji anubādēra janya tini ēśīẏadēra madhyē sāhityē prathama nōbēla puraskāra lābha karēna.'},
{'score': 0.035522934049367905,
'token': 11586,
'token_str': 'sāhityakāra',
'sequence': 'rabīndranātha ṭhākura ēphaāraēēsa (7 mē 1861 - 7 āgasṭa 1941; 25 baiśākha 1268 - 22 śrābaṇa 1348 baṅgābda) chilēna agraṇī bāṅāli sāhityakāra, aupanyāsika, saṁgītasraṣṭā, nāṭyakāra, citrakara, chōṭagalpakāra, prābandhika, abhinētā, kaṇṭhaśilpī ō dārśanika. 1913 sālē gītāñjali kābyagranthēra iṁrēji anubādēra janya tini ēśīẏadēra madhyē sāhityē prathama nōbēla puraskāra lābha karēna.'}]
✨ 主な機能
- 多言語対応: インド・アーリア語派の言語に対する事前学習が行われており、下流タスクでの使用が想定されています。
- 変換機能: Aksharamukhaライブラリを使用して、テキストをISO-15919形式に変換できます。
📦 インストール
このモデルを使用するには、まず Aksharamukha ライブラリをインストールする必要があります。
pip install aksharamukha
📚 ドキュメント
モデルの説明
このモデルは、ALBERT Base v2モデル と同じ構成を持っています。具体的には、このモデルは以下の構成を持っています。
- 12層の繰り返しレイヤー
- 128次元の埋め込みベクトル
- 768次元の隠れ層
- 12個のアテンションヘッド
- 1100万個のパラメータ
- 512トークンのシーケンス長
学習データ
このモデルは、IndicGLUEベンチマークの一部であるSohamデータセットでファインチューニングされています。
変換
このモデルの独特な要素は、ISO-15919形式に変換されたテキストを入力として受け取ることです。 この背後にある動機は次の通りです。2つの言語が語彙を共有する場合、機械学習モデルはそれを利用して、良好なクロス言語表現を学習することができます。ただし、これらの2つの言語が異なる書記体系を使用している場合、モデルが関連付けを行うことは困難です。したがって、2つの言語を単一の書記体系で表現できれば、モデルが良好なクロス言語表現を学習することが容易になります。 現在使用されている多くの書記体系には、ラテン文字に変換するための標準的な変換方式があります。特に、インドの書記体系については、ISO-15919変換方式が設計されており、異なるインドの書記体系で書かれたテキストを一貫してラテン文字に変換することができます。 ベンガル語 のテキストに対するISO-15919変換の例は次の通りです。 原文: "রবীন্দ্রনাথ ঠাকুর এফআরএএস (৭ মে ১৮৬১ - ৭ আগস্ট ১৯৪১; ২৫ বৈশাখ ১২৬৮ - ২২ শ্রাবণ ১৩৪৮ বঙ্গাব্দ) ছিলেন অগ্রণী বাঙালি কবি, ঔপন্যাসিক, সংগীতস্রষ্টা, নাট্যকার, চিত্রকর, ছোটগল্পকার, প্রাবন্ধিক, অভিনেতা, কণ্ঠশিল্পী ও দার্শনিক।" 変換後: 'rabīndranātha ṭhākura ēphaāraēēsa (7 mē 1861 - 7 āgasṭa 1941; 25 baiśākha 1268 - 22 śrābaṇa 1348 baṅgābda) chilēna agraṇī bāṅāli kabi, aupanyāsika, saṁgītasraṣṭā, nāṭyakāra, citrakara, chōṭagalpakāra, prābandhika, abhinētā, kaṇṭhaśilpī ō dārśanika.' ヒンディー語 のテキストに対する別の例は次の通りです。 原文: "चूंकि मानव परिवार के सभी सदस्यों के जन्मजात गौरव और समान तथा अविच्छिन्न अधिकार की स्वीकृति ही विश्व-शान्ति, न्याय और स्वतन्त्रता की बुनियाद है" 変換後: "cūṁki mānava parivāra kē sabhī sadasyōṁ kē janmajāta gaurava aura samāna tathā avicchinna adhikāra kī svīkr̥ti hī viśva-śānti, nyāya aura svatantratā kī buniyāda hai"
学習手順
前処理
テキストは、Aksharamukhaライブラリを使用してISO-15919形式に変換されます。その後、SentencePieceを使用してトークン化され、語彙サイズは50,000に設定されます。
学習
モデルは、バッチサイズ16、学習率 2e-5 で8エポック学習されました。
評価結果
以下の表に、Sohamに関する具体的な結果を示します。
タスク | mBERT | XLM-R | IndicBERT-Base | XLMIndic-Base-Uniscript (このモデル) | XLMIndic-Base-Multiscript (アブレーションモデル) |
---|---|---|---|---|---|
Wikipediaセクションタイトル予測 | 71.90 | 65.45 | 69.40 | 81.78 ± 0.60 | 77.17 ± 0.76 |
記事ジャンル分類 | 88.64 | 96.61 | 97.72 | 98.70 ± 0.29 | 98.30 ± 0.26 |
固有表現認識 (F1スコア) | 71.29 | 62.18 | 56.69 | 89.85 ± 1.14 | 83.19 ± 1.58 |
BBCヒンディー語ニュース記事分類 | 60.55 | 75.52 | 74.60 | 79.14 ± 0.60 | 77.28 ± 1.50 |
Sohamベンガル語ニュース記事分類 | 80.23 | 87.6 | 78.45 | 93.89 ± 0.48 | 93.22 ± 0.49 |
INLTKグジャラート語見出しジャンル分類 | - | - | 92.91 | 90.73 ± 0.75 | 90.41 ± 0.69 |
INLTKマラーティー語見出しジャンル分類 | - | - | 94.30 | 92.04 ± 0.47 | 92.21 ± 0.23 |
IITPヒンディー語製品レビューセンチメント分類 | 74.57 | 78.97 | 71.32 | 77.18 ± 0.77 | 76.33 ± 0.84 |
IITPヒンディー語映画レビューセンチメント分類 | 56.77 | 61.61 | 59.03 | 66.34 ± 0.16 | 65.91 ± 2.20 |
MIDASヒンディー語談話タイプ分類 | 71.20 | 79.94 | 78.44 | 78.54 ± 0.91 | 78.39 ± 0.33 |
Cloze形式の質問応答 (マスク埋めタスク) | - | - | 37.16 | 41.54 | 38.21 |
想定される用途と制限
このモデルは、インド・アーリア語派の言語で事前学習されています。したがって、これらの言語に関する下流タスクでの使用が想定されています。ただし、マラヤーラム語、テルグ語、カンナダ語などのドラヴィダ語派の言語は、インド・アーリア語派の言語と多くの語彙を共有しているため、このモデルはこれらの言語でも潜在的に使用できます (テキストをISO-15919形式に変換した後)。 生のモデルは、マスク付き言語モデリングまたは次文予測に使用できますが、主に下流タスクでファインチューニングすることを目的としています。関心のあるタスクでファインチューニングされたバージョンを探すには、モデルハブ を参照してください。 このモデルは主に、文全体 (潜在的にマスクされた) を使用して決定を行うタスク、例えばシーケンス分類、トークン分類、質問応答などでファインチューニングすることを目的としています。テキスト生成などのタスクについては、GPT2のようなモデルを探す必要があります。
制限とバイアス
比較的大規模な多言語コーパスで事前学習を行っているものの、このモデルは有害な性別、民族、政治的バイアスを示す可能性があります。これらの問題が重要なタスクでこのモデルをファインチューニングする場合、モデルに基づいて決定を行う際には特別な注意が必要です。
📄 ライセンス
このモデルは、Apache-2.0ライセンスの下で提供されています。
その他情報
言語
- as
- bn
- gu
- hi
- mr
- ne
- or
- pa
- si
- sa
- bpy
- mai
- bh
- gom
データセット
- oscar
タグ
- 多言語
- albert
- xlmindic
- 自然言語処理
- インド・アーリア語派
- インド言語処理
- iso15919
- 変換
- テキスト分類
CO2排出量
- 排出量: "0.21グラムのCO2"
- 情報源: "このウェブサイトを使用して計算 https://mlco2.github.io/impact/#compute"
- 学習タイプ: "ファインチューニング"
- 地理的位置: "NA"
- 使用ハードウェア: "約1.5時間のP100"
ウィジェット
- テキスト: 'cīnēra madhyāñcalē āraō ēkaṭi śaharēra bāsindārā ābāra gharabandī haẏē paṛēchēna. āja maṅgalabāra natuna karē lakaḍāuna–saṁkrānta bidhiniṣēdha jāri haōẏāra para gharē āṭakā paṛēchēna tām̐rā. karōnāra ati saṁkrāmaka natuna dharana amikranēra bistāra ṭhēkātē ēmana padakṣēpa niẏēchē kartr̥pakṣa. khabara bārtā saṁsthā ēēphapira.'
お問い合わせ
ご意見や当社のモデルに関する詳細を知りたい場合は、いつでもお問い合わせください。
- Ibraheem Muhammad Moosa (ibraheemmoosa1347@gmail.com)
- Mahmud Elahi Akhter (mahmud.akhter01@northsouth.edu)
- Ashfia Binte Habib
BibTeXエントリと引用情報
近日公開予定!



