C

Canine C

googleによって開発
CANINE-cは、多言語テキストで事前学習された文字レベルのエンコーディングモデルで、明示的なトークン化処理を必要とせず、直接Unicode文字を操作します。
ダウンロード数 191.50k
リリース時間 : 3/2/2022

モデル概要

CANINE-cは、自己教師付き学習に基づく多言語テキストエンコーディングモデルで、文字レベルで直接操作し、従来のトークン化ステップを必要としません。マスク言語モデリングと次文予測の目標を通じて事前学習され、様々な下流のNLPタスクに適しています。

モデル特徴

無トークン化処理
直接Unicode文字を操作し、WordPieceやSentencePieceなどの明示的なトークナイザーを必要としません。
多言語対応
104言語のウィキペディアデータで事前学習され、広範な言語カバレッジを持っています。
文字レベルの処理
各文字はUnicodeコードポイントに変換されて処理され、入力前処理の流れを簡素化します。
自己回帰型文字損失
自己回帰方式でマスクされた文字範囲を予測し、文字レベルの予測能力を向上させます。

モデル能力

多言語テキスト理解
文字レベルのテキストエンコーディング
マスク言語モデリング
次文予測

使用事例

自然言語処理
系列分類
テキスト分類タスク、例えば感情分析やトピック分類などに使用できます。
トークン分類
固有表現認識や品詞タグ付けなどの系列ラベリングタスクに適しています。
質問応答システム
質問応答システムの構築に使用でき、文字レベルの理解に基づいてユーザーのクエリを処理します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase