I

Indicbertv2 MLM Only

由ai4bharat開發
IndicBERT是一個支持23種印度語言及英語的多語言語言模型,擁有2.78億參數,在IndicCorp v2上訓練並在IndicXTREME基準測試中評估。
下載量 87.60k
發布時間 : 11/13/2022

模型概述

IndicBERT是一個多語言BERT風格模型,專注於印度語言處理,通過多種訓練目標和數據集優化,支持填充掩碼任務。

模型特點

多語言支持
支持23種印度語言及英語,覆蓋多種語言家族。
多種訓練目標
通過MLM、TLM及反向翻譯等多種目標訓練,提升模型性能。
詞彙共享優化
IndicBERT-SS版本通過文字轉換促進語言間更好的詞彙共享。

模型能力

多語言文本理解
填充掩碼任務處理
跨語言遷移學習

使用案例

自然語言理解
命名實體識別
在多種印度語言中識別命名實體。
情感分析
分析印度語言文本的情感傾向。
機器翻譯輔助
平行語料庫增強
通過TLM訓練提升機器翻譯模型的性能。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase