Distilbert Word2vec 256k MLM 500k
D
Distilbert Word2vec 256k MLM 500k
Developed by vocab-transformers
このモデルはword2vec単語埋め込みとDistilBERTアーキテクチャを組み合わせ、大規模データで訓練され、様々な自然言語処理タスクに適しています。
Downloads 15
Release Time : 4/7/2022
Model Overview
このモデルは256k語彙のword2vec単語埋め込み行列を使用し、C4、MSMARCO、ニュース、ウィキペディア、S2ORCなど計100GBのデータで訓練されました。その後マスク言語モデリング(MLM)で50万ステップ訓練され、単語埋め込み層は訓練中凍結状態に保たれました。
Model Features
大規模単語埋め込み
256k語彙のword2vec単語埋め込み行列を使用し、100GBの多様なデータで訓練されました。
効率的な訓練
マスク言語モデリングで50万ステップ訓練され、バッチサイズは64でした。
凍結単語埋め込み
訓練中単語埋め込み層は凍結状態に保たれ、元のword2vec特徴を保持しました。
軽量アーキテクチャ
DistilBERTアーキテクチャに基づき、性能を維持しながらモデル複雑性を低減しました。
Model Capabilities
テキスト理解
言語モデリング
テキスト特徴抽出
Use Cases
自然言語処理
テキスト分類
感情分析、トピック分類などのタスクに使用可能です。
情報検索
検索エンジンや質問応答システムのテキストマッチングに適しています。
言語モデルファインチューニング
下流タスクの事前学習モデルとしてファインチューニング可能です。
Featured Recommended AI Models
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers Supports Multiple Languages

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers English

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム Chinese
R
uer
2,694
98