模型简介
模型特点
模型能力
使用案例
🚀 XLMIndic Base Uniscript
本模型是在Soham孟加拉语新闻分类任务上,基于此模型进行微调得到的,该任务是IndicGLUE基准测试的一部分。在预训练此模型之前,我们使用Aksharamukha库将文本音译为ISO - 15919格式。 你可以在这里查看Aksharamukha库的演示,在该演示中你可以对文本进行音译,并在推理小部件上使用我们的模型。
✨ 主要特性
- 多语言支持:支持多种印度 - 雅利安语系语言,如阿萨姆语(as)、孟加拉语(bn)等。
- 音译处理:采用ISO - 15919音译方案,便于模型学习跨语言表示。
- 性能优异:在多个下游任务上取得了较好的评估结果。
📦 安装指南
要使用此模型,你需要先安装Aksharamukha库。
pip install aksharamukha
💻 使用示例
基础用法
>>> from aksharamukha import transliterate
>>> text = "चूंकि मानव परिवार के सभी सदस्यों के जन्मजात गौरव और समान तथा अविच्छिन्न अधिकार की स्वीकृति ही विश्व-शान्ति, न्याय और स्वतन्त्रता की बुनियाद है"
>>> transliterated_text = transliterate.process('autodetect', 'ISO', text)
>>> transliterated_text
"cūṁki mānava parivāra kē sabhī sadasyōṁ kē janmajāta gaurava aura samāna tathā avicchinna adhikāra kī svīkr̥ti hī viśva-śānti, nyāya aura svatantratā kī buniyāda hai"
高级用法
>>> from transformers import pipeline
>>> from aksharamukha import transliterate
>>> unmasker = pipeline('fill-mask', model='ibraheemmoosa/xlmindic-base-uniscript')
>>> text = "রবীন্দ্রনাথ ঠাকুর এফআরএএস (৭ মে ১৮৬১ - ৭ আগস্ট ১৯৪১; ২৫ বৈশাখ ১২৬৮ - ২২ শ্রাবণ ১৩৪৮ বঙ্গাব্দ) ছিলেন অগ্রণী বাঙালি [MASK], ঔপন্যাসিক, সংগীতস্রষ্টা, নাট্যকার, চিত্রকর, ছোটগল্পকার, প্রাবন্ধিক, অভিনেতা, কণ্ঠশিল্পী ও দার্শনিক। ১৯১৩ সালে গীতাঞ্জলি কাব্যগ্রন্থের ইংরেজি অনুবাদের জন্য তিনি এশীয়দের মধ্যে সাহিত্যে প্রথম নোবেল পুরস্কার লাভ করেন।"
>>> transliterated_text = transliterate.process('Bengali', 'ISO', text)
>>> transliterated_text
'rabīndranātha ṭhākura ēphaāraēēsa (7 mē 1861 - 7 āgasṭa 1941; 25 baiśākha 1268 - 22 śrābaṇa 1348 baṅgābda) chilēna agraṇī bāṅāli [MASK], aupanyāsika, saṁgītasraṣṭā, nāṭyakāra, citrakara, chōṭagalpakāra, prābandhika, abhinētā, kaṇṭhaśilpī ō dārśanika. 1913 sālē gītāñjali kābyagranthēra iṁrēji anubādēra janya tini ēśīẏadēra madhyē sāhityē prathama [MASK] puraskāra lābha karēna.'
>>> unmasker(transliterated_text)
[{'score': 0.39705055952072144,
'token': 1500,
'token_str': 'abhinētā',
'sequence': 'rabīndranātha ṭhākura ēphaāraēēsa (7 mē 1861 - 7 āgasṭa 1941; 25 baiśākha 1268 - 22 śrābaṇa 1348 baṅgābda) chilēna agraṇī bāṅāli abhinētā, aupanyāsika, saṁgītasraṣṭā, nāṭyakāra, citrakara, chōṭagalpakāra, prābandhika, abhinētā, kaṇṭhaśilpī ō dārśanika. 1913 sālē gītāñjali kābyagranthēra iṁrēji anubādēra janya tini ēśīẏadēra madhyē sāhityē prathama nōbēla puraskāra lābha karēna.'},
{'score': 0.20499080419540405,
'token': 3585,
'token_str': 'kabi',
'sequence': 'rabīndranātha ṭhākura ēphaāraēēsa (7 mē 1861 - 7 āgasṭa 1941; 25 baiśākha 1268 - 22 śrābaṇa 1348 baṅgābda) chilēna agraṇī bāṅāli kabi, aupanyāsika, saṁgītasraṣṭā, nāṭyakāra, citrakara, chōṭagalpakāra, prābandhika, abhinētā, kaṇṭhaśilpī ō dārśanika. 1913 sālē gītāñjali kābyagranthēra iṁrēji anubādēra janya tini ēśīẏadēra madhyē sāhityē prathama nōbēla puraskāra lābha karēna.'},
{'score': 0.1314290314912796,
'token': 15402,
'token_str': 'rājanētā',
'sequence': 'rabīndranātha ṭhākura ēphaāraēēsa (7 mē 1861 - 7 āgasṭa 1941; 25 baiśākha 1268 - 22 śrābaṇa 1348 baṅgābda) chilēna agraṇī bāṅāli rājanētā, aupanyāsika, saṁgītasraṣṭā, nāṭyakāra, citrakara, chōṭagalpakāra, prābandhika, abhinētā, kaṇṭhaśilpī ō dārśanika. 1913 sālē gītāñjali kābyagranthēra iṁrēji anubādēra janya tini ēśīẏadēra madhyē sāhityē prathama nōbēla puraskāra lābha karēna.'},
{'score': 0.060830358415842056,
'token': 3212,
'token_str': 'kalākāra',
'sequence': 'rabīndranātha ṭhākura ēphaāraēēsa (7 mē 1861 - 7 āgasṭa 1941; 25 baiśākha 1268 - 22 śrābaṇa 1348 baṅgābda) chilēna agraṇī bāṅāli kalākāra, aupanyāsika, saṁgītasraṣṭā, nāṭyakāra, citrakara, chōṭagalpakāra, prābandhika, abhinētā, kaṇṭhaśilpī ō dārśanika. 1913 sālē gītāñjali kābyagranthēra iṁrēji anubādēra janya tini ēśīẏadēra madhyē sāhityē prathama nōbēla puraskāra lābha karēna.'},
{'score': 0.035522934049367905,
'token': 11586,
'token_str': 'sāhityakāra',
'sequence': 'rabīndranātha ṭhākura ēphaāraēēsa (7 mē 1861 - 7 āgasṭa 1941; 25 baiśākha 1268 - 22 śrābaṇa 1348 baṅgābda) chilēna agraṇī bāṅāli sāhityakāra, aupanyāsika, saṁgītasraṣṭā, nāṭyakāra, citrakara, chōṭagalpakāra, prābandhika, abhinētā, kaṇṭhaśilpī ō dārśanika. 1913 sālē gītāñjali kābyagranthēra iṁrēji anubādēra janya tini ēśīẏadēra madhyē sāhityē prathama nōbēla puraskāra lābha karēna.'}]
📚 详细文档
模型描述
此模型的配置与ALBERT Base v2模型相同。具体而言,该模型具有以下配置:
属性 | 详情 |
---|---|
重复层数 | 12层 |
嵌入维度 | 128 |
隐藏维度 | 768 |
注意力头数 | 12 |
参数数量 | 1100万 |
序列长度 | 512 |
训练数据
该模型在Soham数据集上进行了微调,该数据集是IndicGLUE基准测试的一部分。
音译处理
本模型的独特之处在于它接受ISO - 15919音译后的文本。
其背后的动机如下:当两种语言共享词汇时,机器学习模型可以利用这一点来学习良好的跨语言表示。然而,如果这两种语言使用不同的书写脚本,模型就很难建立联系。因此,如果我们能将两种语言用同一种脚本书写,模型就更容易学习到良好的跨语言表示。
对于目前使用的许多脚本,都有将其转换为拉丁脚本的标准音译方案。特别是对于印度语系的脚本,ISO - 15919音译方案旨在将用不同印度语系脚本书写的文本一致地音译为拉丁脚本。
以下是一段孟加拉语文本的ISO - 15919音译示例: 原文:"রবীন্দ্রনাথ ঠাকুর এফআরএএস (৭ মে ১৮৬১ - ৭ আগস্ট ১৯৪১; ২৫ বৈশাখ ১২৬৮ - ২২ শ্রাবণ ১৩৪৮ বঙ্গাব্দ) ছিলেন অগ্রণী বাঙালি কবি, ঔপন্যাসিক, সংগীতস্রষ্টা, নাট্যকার, চিত্রকর, ছোটগল্পকার, প্রাবন্ধিক, অভিনেতা, কণ্ঠশিল্পী ও দার্শনিক।" 音译后:'rabīndranātha ṭhākura ēphaāraēēsa (7 mē 1861 - 7 āgasṭa 1941; 25 baiśākha 1268 - 22 śrābaṇa 1348 baṅgābda) chilēna agraṇī bāṅāli kabi, aupanyāsika, saṁgītasraṣṭā, nāṭyakāra, citrakara, chōṭagalpakāra, prābandhika, abhinētā, kaṇṭhaśilpī ō dārśanika.'
以下是一段印地语文本的ISO - 15919音译示例: 原文:"चूंकि मानव परिवार के सभी सदस्यों के जन्मजात गौरव और समान तथा अविच्छिन्न अधिकार की स्वीकृति ही विश्व-शान्ति, न्याय और स्वतन्त्रता की बुनियाद है" 音译后:"cūṁki mānava parivāra kē sabhī sadasyōṁ kē janmajāta gaurava aura samāna tathā avicchinna adhikāra kī svīkr̥ti hī viśva-śānti, nyāya aura svatantratā kī buniyāda hai"
训练过程
预处理
使用Aksharamukha库将文本音译为ISO - 15919格式,然后使用SentencePiece进行分词,词汇量大小为50000。
训练
模型训练了8个轮次,批次大小为16,学习率为2e - 5。
评估结果
以下是在Soham相关任务上的评估结果:
任务 | mBERT | XLM - R | IndicBERT - Base | XLMIndic - Base - Uniscript(本模型) | XLMIndic - Base - Multiscript(消融模型) |
---|---|---|---|---|---|
维基百科章节标题预测 | 71.90 | 65.45 | 69.40 | 81.78 ± 0.60 | 77.17 ± 0.76 |
文章体裁分类 | 88.64 | 96.61 | 97.72 | 98.70 ± 0.29 | 98.30 ± 0.26 |
命名实体识别(F1分数) | 71.29 | 62.18 | 56.69 | 89.85 ± 1.14 | 83.19 ± 1.58 |
BBC印地语新闻文章分类 | 60.55 | 75.52 | 74.60 | 79.14 ± 0.60 | 77.28 ± 1.50 |
Soham孟加拉语新闻文章分类 | 80.23 | 87.6 | 78.45 | 93.89 ± 0.48 | 93.22 ± 0.49 |
INLTK古吉拉特语头条体裁分类 | - | - | 92.91 | 90.73 ± 0.75 | 90.41 ± 0.69 |
INLTK马拉地语头条体裁分类 | - | - | 94.30 | 92.04 ± 0.47 | 92.21 ± 0.23 |
IITP印地语产品评论情感分类 | 74.57 | 78.97 | 71.32 | 77.18 ± 0.77 | 76.33 ± 0.84 |
IITP印地语电影评论情感分类 | 56.77 | 61.61 | 59.03 | 66.34 ± 0.16 | 65.91 ± 2.20 |
MIDAS印地语语篇类型分类 | 71.20 | 79.94 | 78.44 | 78.54 ± 0.91 | 78.39 ± 0.33 |
完形填空式问答(填空任务) | - | - | 37.16 | 41.54 | 38.21 |
预期用途与限制
此模型在印度 - 雅利安语系语言上进行了预训练,因此旨在用于这些语言的下游任务。不过,由于马拉雅拉姆语、泰卢固语、卡纳达语等达罗毗荼语系语言与印度 - 雅利安语系语言有很多共同词汇,该模型也有可能用于这些语言(需先将文本音译为ISO - 15919格式)。
你可以将原始模型用于掩码语言建模或下一句预测,但它主要用于在下游任务上进行微调。你可以在模型中心查找针对你感兴趣的任务进行微调后的版本。
请注意,此模型主要旨在针对使用整个句子(可能带有掩码)来做决策的任务进行微调,如序列分类、标记分类或问答任务。对于文本生成等任务,你应该考虑使用像GPT2这样的模型。
局限性和偏差
尽管我们在相对较大的多语言语料库上进行了预训练,但模型仍可能表现出有害的性别、种族和政治偏差。如果你在对这些问题很重要的任务上微调此模型,在依赖模型进行决策时应格外小心。
🔧 技术细节
本模型基于ALBERT架构,通过对输入的印度语系文本进行ISO - 15919音译处理,使得模型能够更好地学习跨语言表示。在训练过程中,经过预处理和特定的训练参数设置,在多个下游任务上取得了较好的性能。
📄 许可证
本模型采用Apache - 2.0许可证。
联系方式
如果你有任何想法或想了解更多关于我们模型的信息,请随时联系我们:
- Ibraheem Muhammad Moosa (ibraheemmoosa1347@gmail.com)
- Mahmud Elahi Akhter (mahmud.akhter01@northsouth.edu)
- Ashfia Binte Habib
BibTeX引用和引用信息
即将推出!



