bertin-base-gaussianオープンソーススペイン語モデル - マスクされたテキスト処理の無料実装

ホーム

Bertin Base Gaussian

bertin-projectによって開発

これはRoBERTa-baseアーキテクチャに基づき、ゼロから訓練されたスペイン語のマスク埋めモデルです。

大規模言語モデルスペイン語#スペイン語テキストのマスク埋め #RoBERTaアーキテクチャ #高品質コーパスによる訓練

ダウンロード数 16

リリース時間 : 3/2/2022

モデル概要

このモデルはスペイン語に特化して設計され、マスク埋めタスクに使用され、テキスト中の欠落した単語やフレーズを予測することができます。

モデル特徴

高品質の訓練データ

訓練データセットはmc4のサンプリングされたドキュメントから取得され、合計約5000万件のサンプルがあり、ガウス関数を用いて平均困惑度に偏向して選択され、データの質が保証されています。

ゼロからの訓練

このモデルは事前学習モデルを微調整したものではなく、ゼロから訓練され、スペイン語に特化して最適化されています。

コミュニティのサポート

このプロジェクトはJax/Flaxコミュニティ週間イベントに所属し、HuggingFaceによって組織され、Googleから提供されるTPUコンピューティングパワーのサポートを受けています。

モデル能力

スペイン語テキストの理解

マスク埋め予測

使用事例

テキスト補完

文章の補完

文章中の欠落した単語やフレーズを予測します。例えば、「Fui a la librería a comprar un <mask>.」のような場合です。

言語教育

スペイン語学習の支援

スペイン語学習ツールに使用でき、学習者が文章構造や語彙の使い方を理解するのに役立ちます。

🚀 RoBERTa-baseモデル（スペイン語版）

このモデルは、スペイン語でゼロから学習されたRoBERTa-baseモデルです。マスクトークンの予測に使用できます。

🚀 クイックスタート

このモデルは、スペイン語の文章におけるマスクトークンを予測するために使用できます。例えば、以下のような文章が入力された場合：

Fui a la librería a comprar un <mask>.

モデルは<mask>部分に適切な単語を予測します。

✨ 主な機能

スペイン語でゼロから学習されたRoBERTa-baseモデルです。
マスク言語モデリングタスクに適しています。

📦 インストール

このモデルはHugging Faceのモデルハブから直接使用できます。具体的なインストール手順はHugging Faceのドキュメントを参照してください。

📚 ドキュメント

学習データセット

学習データセットはmc4で、約5000万のサンプルにサブサンプリングされています。サンプリングは平均パープレキシティ値に基づいて行われ（ガウス関数を使用）、非常に大きな値（低品質）または非常に小さな値（短く繰り返しの多いテキスト）を持つドキュメントはより頻繁に破棄されます。

学習ステップ

このモデルは250,000ステップ学習されています。

詳細情報

詳細な情報については、メインのカードを参照してください。

🔧 技術詳細

このモデルはRoBERTa-baseアーキテクチャを使用し、スペイン語のテキストデータでゼロから学習されています。学習データセットのサブサンプリング方法や学習ステップ数などの詳細は上記の通りです。

📄 ライセンス

このモデルはCC BY 4.0ライセンスの下で公開されています。

チームメンバー

Eduardo González (edugp)
Javier de la Rosa (versae)
Manu Romero (mrm8488)
María Grandury (mariagrandury)
Pablo González de Prado (Pablogps)
Paulo Villegas (paulo)

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご