🚀 Amazon-Beauty-Product-Reviews-distilBERT-base for Sentiment Analysis
このモデルは、Amazonの美容製品レビューに対する感情分析に特化したものです。DistilBERTモデルをベースに、Amazonの美容レビューデータセットで微調整されており、高い精度で感情分析を行うことができます。
🚀 クイックスタート
このセクションでは、モデルの概要や基本的な使い方を説明します。
✨ 主な機能
- Amazonの美容製品レビューに対する感情分析が可能です。
- 評価セットでは、Loss: 0.5171、Accuracy: 0.7862、Precision: 0.7876、Recall: 0.7860、F1: 0.7867 という結果を達成しています。
📚 ドキュメント
🔍 モデル詳細
モデル説明
このモデルは、distilbert-base-uncased を Amazon beauty reviews dataset のバランスされたサブセットで微調整したものです。
評価セットでは、以下の結果を達成しています。
- Loss: 0.5171
- Accuracy: 0.7862
- Precision: 0.7876
- Recall: 0.7860
- F1: 0.7867
開発者情報
- 開発者: Jiali Han
- モデルタイプ: テキスト分類
- 言語: 英語
- ライセンス: Apache-2.0
- 親モデル: DistilBERTの詳細については、このモデルカード をご覧ください。
- 詳細情報のリソース:
💡 使用方法
直接的なアプリケーション
このモデルは、Amazonの美容製品レビューの感情分析に使用できます。
誤用と範囲外の使用
このモデルは、意図的に人々に敵対的または疎外感を与える環境を作るために使用してはなりません。また、このモデルは人やイベントの事実や真実を表現するように訓練されていないため、そのような内容を生成するためにモデルを使用することは、このモデルの能力範囲外です。
⚠️ リスク、制限事項、バイアス
このモデルは、偏った予測を生成する可能性があり、特に代表されていないグループに影響を与える可能性があります。
ユーザーは、特定のユースケースに対するモデルのリスクを評価する必要があります。
さらなるバイアス評価には、以下のデータセットを考慮してください。
📊 訓練と評価
訓練データ
著者は、Amazon beauty reviews dataset を使用しており、クラス不均衡の問題を解決するためにバランスが取られています。
訓練手順
訓練ハイパーパラメータ
訓練中に以下のハイパーパラメータが使用されました。
- learning_rate: 5e-05
- train_batch_size: 8
- eval_batch_size: 8
- seed: 0
- optimizer: OptimizerNames.ADAMW_TORCH を使用し、betas=(0.9,0.999)、epsilon=1e-08、optimizer_args=追加のオプティマイザ引数なし
- lr_scheduler_type: linear
- num_epochs: 1
訓練結果
詳細な訓練ログについては、Tensorboard ページを参照してください。
訓練損失 |
エポック |
ステップ |
検証損失 |
正解率 |
適合率 |
再現率 |
F1値 |
0.7283 |
0.0299 |
500 |
0.6867 |
0.7073 |
0.7038 |
0.7071 |
0.7030 |
0.6718 |
0.0598 |
1000 |
0.6067 |
0.7340 |
0.7478 |
0.7340 |
0.7377 |
0.6473 |
0.0898 |
1500 |
0.6154 |
0.7390 |
0.7508 |
0.7390 |
0.7416 |
0.616 |
0.1197 |
2000 |
0.6448 |
0.7423 |
0.7373 |
0.7420 |
0.7377 |
0.6123 |
0.1496 |
2500 |
0.6286 |
0.7241 |
0.7677 |
0.7243 |
0.7284 |
0.5874 |
0.1795 |
3000 |
0.5774 |
0.7516 |
0.7539 |
0.7515 |
0.7523 |
0.5746 |
0.2095 |
3500 |
0.5708 |
0.7564 |
0.7636 |
0.7563 |
0.7582 |
0.5917 |
0.2394 |
4000 |
0.5839 |
0.7596 |
0.7602 |
0.7595 |
0.7598 |
0.5774 |
0.2693 |
4500 |
0.6225 |
0.7526 |
0.7482 |
0.7524 |
0.7492 |
0.594 |
0.2992 |
5000 |
0.5531 |
0.7662 |
0.7694 |
0.7661 |
0.7673 |
0.5591 |
0.3292 |
5500 |
0.5770 |
0.7665 |
0.7645 |
0.7663 |
0.7645 |
0.5548 |
0.3591 |
6000 |
0.5805 |
0.7613 |
0.7579 |
0.7611 |
0.7584 |
0.5742 |
0.3890 |
6500 |
0.5592 |
0.7639 |
0.7665 |
0.7638 |
0.7636 |
0.5374 |
0.4189 |
7000 |
0.5548 |
0.7712 |
0.7776 |
0.7711 |
0.7735 |
0.5488 |
0.4489 |
7500 |
0.5622 |
0.7747 |
0.7747 |
0.7745 |
0.7746 |
0.5557 |
0.4788 |
8000 |
0.5698 |
0.7642 |
0.7822 |
0.7643 |
0.7670 |
0.556 |
0.5087 |
8500 |
0.5380 |
0.7754 |
0.7777 |
0.7753 |
0.7764 |
0.5325 |
0.5386 |
9000 |
0.5791 |
0.7754 |
0.7746 |
0.7751 |
0.7736 |
0.5301 |
0.5686 |
9500 |
0.5569 |
0.7753 |
0.7738 |
0.7751 |
0.7744 |
0.5232 |
0.5985 |
10000 |
0.5391 |
0.7782 |
0.7806 |
0.7780 |
0.7789 |
0.5462 |
0.6284 |
10500 |
0.5499 |
0.7729 |
0.7698 |
0.7726 |
0.7683 |
0.5614 |
0.6583 |
11000 |
0.5243 |
0.7803 |
0.7818 |
0.7801 |
0.7808 |
0.5376 |
0.6883 |
11500 |
0.5406 |
0.7795 |
0.7772 |
0.7794 |
0.7780 |
0.5287 |
0.7182 |
12000 |
0.5227 |
0.7797 |
0.7852 |
0.7796 |
0.7806 |
0.5149 |
0.7481 |
12500 |
0.5423 |
0.7803 |
0.7788 |
0.7801 |
0.7792 |
0.5312 |
0.7780 |
13000 |
0.5338 |
0.7771 |
0.7860 |
0.7771 |
0.7781 |
0.5204 |
0.8079 |
13500 |
0.5183 |
0.7843 |
0.7857 |
0.7841 |
0.7849 |
0.5412 |
0.8379 |
14000 |
0.5192 |
0.7844 |
0.7893 |
0.7843 |
0.7860 |
0.515 |
0.8678 |
14500 |
0.5135 |
0.7845 |
0.7858 |
0.7843 |
0.7850 |
0.5033 |
0.8977 |
15000 |
0.5254 |
0.7862 |
0.7882 |
0.7860 |
0.7870 |
0.5023 |
0.9276 |
15500 |
0.5251 |
0.7863 |
0.7853 |
0.7861 |
0.7856 |
0.5042 |
0.9576 |
16000 |
0.5215 |
0.7865 |
0.7864 |
0.7864 |
0.7864 |
0.5237 |
0.9875 |
16500 |
0.5171 |
0.7862 |
0.7876 |
0.7860 |
0.7867 |
評価結果
微調整されたDistilBERTモデルは、以下の分割でデータセット上で評価されました。
- 訓練サンプル: 133,665
- 検証サンプル: 33,417
評価は3クラスの感情分類タスクで行われました。以下は詳細な結果です。
分類レポート
ラベル |
適合率 |
再現率 |
F1値 |
サポート |
0 |
0.78 |
0.78 |
0.78 |
11163 |
1 |
0.69 |
0.70 |
0.69 |
11099 |
2 |
0.89 |
0.87 |
0.88 |
11155 |
正解率 |
|
|
0.78 |
33417 |
マクロ平均 |
0.79 |
0.78 |
0.78 |
33417 |
加重平均 |
0.79 |
0.78 |
0.79 |
33417 |
混同行列
|
0 |
1 |
2 |
0 |
8672 |
2331 |
160 |
1 |
2292 |
7793 |
1014 |
2 |
169 |
1237 |
9749 |
フレームワークバージョン
- Transformers 4.50.3
- Pytorch 2.6.0+cu124
- Tokenizers 0.21.1
📄 ライセンス
このモデルは、Apache-2.0ライセンスの下で提供されています。