roberta-base-japanese-aozora Open-source Japanese Model - Utility Tool for Masked Language Modeling

Home

Roberta Base Japanese Aozora

Developed by KoichiYasuoka

Japanese RoBERTa model pre-trained on Aozora Bunko texts, supporting masked language modeling tasks

Large Language Model

Transformers

Japanese#Japanese Text Processing #Aozora Bunko Pre-training #Dependency Parsing

Downloads 17

Release Time : 3/2/2022

Model Overview

This is a RoBERTa model pre-trained on Japanese Aozora Bunko texts using Japanese-LUW-Tokenizer, suitable for Japanese text processing tasks such as part-of-speech tagging and dependency parsing.

Model Features

Aozora Bunko Pre-training

Pre-trained on classic literary works from Japan's Aozora Bunko, suitable for processing formal Japanese texts

Dedicated Japanese Tokenizer

Uses Japanese-LUW-Tokenizer for word segmentation, optimized for Japanese language characteristics

Downstream Task Adaptability

Can be fine-tuned for various Japanese NLP tasks such as part-of-speech tagging and dependency parsing

Model Capabilities

Japanese text understanding

Masked language modeling

Part-of-speech tagging

Dependency parsing

Use Cases

Natural Language Processing

Japanese Text Completion

Predicts masked words in sentences

Example: 'Upon arriving in Japan, visit [MASK].' can predict appropriate location nouns

Grammar Analysis

Used for Japanese part-of-speech tagging and dependency relation analysis

There are fine-tuned versions of this model for part-of-speech tagging and dependency parsing

Property	Details
Model Type	RoBERTa
Training Data	Texts from 青空文庫
License	cc - by - sa - 4.0
Pipeline Tag	fill - mask
Mask Token	[MASK]

Featured Recommended AI Models

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

Roberta Base Japanese Aozora

Model Overview

Model Features

Model Capabilities

Use Cases

🚀 roberta-base-japanese-aozora

🚀 Quick Start

✨ Features

📦 Installation

💻 Usage Examples

Basic Usage

Advanced Usage

📚 Documentation

Model Information

Reference

📄 License