T

Tamillion

由monsoon-nlp開發
基於ELECTRA框架訓練的泰米爾語預訓練模型,第二版採用TPU訓練並擴大語料庫規模
下載量 58
發布時間 : 3/2/2022

模型概述

專為泰米爾語設計的預訓練語言模型,支持文本分類、情感分析等自然語言處理任務

模型特點

TPU訓練優化
第二版採用TPU訓練,相比GPU訓練的V1版本性能更優
擴展語料庫
融合11GB IndicCorp語料和482MB維基百科數據,覆蓋更廣
超越mBERT
在泰米爾語新聞分類任務上準確率達75.1%,顯著優於mBERT的53%

模型能力

泰米爾語文本理解
新聞分類
情感分析
經典文本主題分類
問答系統適配

使用案例

文本分類
新聞分類
對泰米爾語新聞內容進行分類
準確率75.1%,超越mBERT模型
經典文本分類
對《蒂魯古拉爾》經典文本進行主題分類
達到與mBERT同等準確率
情感分析
電影評論分析
分析泰米爾語電影評論的情感傾向
均方根誤差0.626,優於mBERT的0.657
問答系統
泰米爾語問答
通過微調訓練構建泰米爾語問答系統
參考印地語和孟加拉語實現案例
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase