mbart-large-cc25-cnn-dailymail-nl-finetune Open Source Model - Efficiently Complete Dutch Text News Summarization

Home

Mbart Large Cc25 Cnn Dailymail Nl Finetune

Developed by ml6team

Dutch news summarization model based on mbart architecture, specifically designed for Dutch text summarization tasks

Text Generation

Transformers

Other#Dutch news summarization #mbart fine-tuning #multi-document summarization

Downloads 25

Release Time : 3/2/2022

Model Overview

This model is a Dutch text summarization model fine-tuned from mbart-large-cc25, primarily used for generating summaries of Dutch news articles.

Model Features

Dutch language optimization

Fine-tuned specifically for Dutch news texts, optimizing Dutch summarization capabilities

Based on mbart architecture

Utilizes multilingual BART (mbart) architecture with powerful sequence-to-sequence learning capabilities

High-quality training data

Trained using CNN/DailyMail Dutch dataset and additional web-scraped data

Model Capabilities

Dutch text summarization

News content compression

Key information extraction

Use Cases

News media

News summarization generation

Automatically generates concise summaries of Dutch news articles

Helps readers quickly grasp key news points

Content analysis

Document key information extraction

Extracts core content from lengthy Dutch documents

Improves information processing efficiency

🚀 mbart-large-cc25-cnn-dailymail-nl

This is a fine - tuned version of mbart, designed for summarizing Dutch news articles.

🚀 Quick Start

How to Use

import transformers
undisputed_best_model = transformers.MBartForConditionalGeneration.from_pretrained(
    "ml6team/mbart-large-cc25-cnn-dailymail-nl-finetune"
)
tokenizer = transformers.MBartTokenizer.from_pretrained("facebook/mbart-large-cc25")
summarization_pipeline = transformers.pipeline(
    task="summarization",
    model=undisputed_best_model,
    tokenizer=tokenizer,
)
summarization_pipeline.model.config.decoder_start_token_id = tokenizer.lang_code_to_id[
    "nl_XX"
]
article = "Kan je dit even samenvatten alsjeblief."  # Dutch
summarization_pipeline(
    article,
    do_sample=True,
    top_p=0.75,
    top_k=50,
    # num_beams=4,
    min_length=50,
    early_stopping=True,
    truncation=True,
)[0]["summary_text"]

✨ Features

This model is a fine - tuned version of mbart. It is specifically intended for summarizing Dutch news articles. We also wrote a blog post about this model here.

📦 Installation

The installation process is mainly about using the transformers library. You can install it via pip install transformers if not already installed.

📚 Documentation

Intended Uses & Limitations

It's meant for summarizing Dutch news articles.

Training Data

Finetuned mbart with this dataset and another smaller dataset that we can't open source because we scraped it from the internet. For more information check out our blog post here.

📄 License

No license information is provided in the original document, so this section is skipped.

🔧 Technical Details

No specific technical details (more than 50 - word description) are provided in the original document, so this section is skipped.

💻 Usage Examples

Basic Usage

import transformers
undisputed_best_model = transformers.MBartForConditionalGeneration.from_pretrained(
    "ml6team/mbart-large-cc25-cnn-dailymail-nl-finetune"
)
tokenizer = transformers.MBartTokenizer.from_pretrained("facebook/mbart-large-cc25")
summarization_pipeline = transformers.pipeline(
    task="summarization",
    model=undisputed_best_model,
    tokenizer=tokenizer,
)
summarization_pipeline.model.config.decoder_start_token_id = tokenizer.lang_code_to_id[
    "nl_XX"
]
article = "Kan je dit even samenvatten alsjeblief."  # Dutch
summarization_pipeline(
    article,
    do_sample=True,
    top_p=0.75,
    top_k=50,
    # num_beams=4,
    min_length=50,
    early_stopping=True,
    truncation=True,
)[0]["summary_text"]

Advanced Usage

There is no advanced usage example in the original document, so this part is not added.

📋 Information Table

Property	Details
Model Type	Fine - tuned version of mbart
Training Data	this dataset and another smaller dataset scraped from the internet
Pipeline Tag	summarization
Datasets	ml6team/cnn_dailymail_nl
Language	nl
Tags	mbart, bart, summarization

Featured Recommended AI Models

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご