Model Selection

WordPiece Tokenization

# WordPiece Tokenization

Camembertv2 Base

CamemBERTv2 is a French language model pre-trained on a 275 billion-word French text corpus, serving as the second-generation version of CamemBERT. It adopts the RoBERTa architecture with optimized tokenizer and training data.

Large Language Model

Transformers French

Luke Japanese Wordpiece Base

A LUKE model improved from Japanese BERT, specifically optimized for Japanese named entity recognition tasks

Sequence Labeling

Transformers Japanese

Bert Base Indonesian 522M

A BERT base model pretrained on Indonesian Wikipedia using Masked Language Modeling (MLM) objective, case insensitive.

Large Language Model Other

Bert Base Indonesian 1.5G

This is a BERT-based Indonesian pretrained model trained on Wikipedia and newspaper data, suitable for various natural language processing tasks.

Large Language Model Other

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase