C

Canine C

由google開發
CANINE-c是一個在多語言文本上預訓練的字符級編碼模型,無需顯式標記化處理,直接操作Unicode字符。
下載量 191.50k
發布時間 : 3/2/2022

模型概述

CANINE-c是一個基於自監督學習的多語言文本編碼模型,直接在字符級別操作,無需傳統標記化步驟。它通過掩碼語言建模和下一句預測目標進行預訓練,適用於多種下游NLP任務。

模型特點

無標記化處理
直接操作Unicode字符,無需WordPiece或SentencePiece等顯式標記器
多語言支持
在104種語言的維基百科數據上預訓練,具有廣泛的語言覆蓋能力
字符級處理
每個字符被轉換為Unicode碼點進行處理,簡化輸入預處理流程
自迴歸字符損失
採用自迴歸方式預測被掩碼的字符跨度,提高字符級預測能力

模型能力

多語言文本理解
字符級文本編碼
掩碼語言建模
下一句預測

使用案例

自然語言處理
序列分類
可用於文本分類任務,如情感分析、主題分類等
標記分類
適用於命名實體識別、詞性標註等序列標註任務
問答系統
可用於構建問答系統,基於字符級理解處理用戶查詢
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase