🚀 名前による性別分類
このモデルは、入力された名前に基づいて性別を分類します。事前学習済みのBERTモデルをベースに使用し、名前とそれに関連する性別のデータセットでファインチューニングされています。
🚀 クイックスタート
from transformers import AutoModelForSequenceClassification, AutoTokenizer
model_name = "imranali291/genderize"
model = AutoModelForSequenceClassification.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)
def predict_gender(name):
inputs = tokenizer(name, return_tensors="pt", padding=True, truncation=True, max_length=32)
outputs = model(**inputs)
predicted_label = outputs.logits.argmax(dim=-1).item()
return label_encoder.inverse_transform([predicted_label])[0]
print(predict_gender("Alex"))
print(predict_gender("Maria"))
✨ 主な機能
- 入力された名前から性別を分類することができます。
- 事前学習済みのBERTモデルをベースにしているため、高精度な分類が可能です。
- 名前に基づく性別識別が必要なアプリケーションの強化に役立ちます。
📦 インストール
このモデルを使用するには、transformers
ライブラリが必要です。以下のコマンドでインストールできます。
pip install transformers
💻 使用例
基本的な使用法
from transformers import AutoModelForSequenceClassification, AutoTokenizer
model_name = "imranali291/genderize"
model = AutoModelForSequenceClassification.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)
def predict_gender(name):
inputs = tokenizer(name, return_tensors="pt", padding=True, truncation=True, max_length=32)
outputs = model(**inputs)
predicted_label = outputs.logits.argmax(dim=-1).item()
return label_encoder.inverse_transform([predicted_label])[0]
print(predict_gender("Alex"))
print(predict_gender("Maria"))
📚 ドキュメント
モデル詳細
プロパティ |
詳細 |
モデル名 |
Genderize |
開発者 |
Imran Ali |
モデルタイプ |
テキスト分類 |
言語 |
英語 |
ライセンス |
MIT |
説明
このモデルは、入力された名前に基づいて性別を分類します。事前学習済みのBERTモデルをベースに使用し、名前とそれに関連する性別のデータセットでファインチューニングされています。
学習詳細
- 学習データ: 名前と性別のデータセット(例:Dannel gender-nameデータセット)
- 学習手順: 分類ヘッド付きのBERTモデルを使用してファインチューニング
- 学習ハイパーパラメータ:
- バッチサイズ: 8
- 勾配累積ステップ: 1
- 学習率: 2e-5
- 総ステップ数: 20,005
- 学習可能なパラメータ数: 109,483,778 (1.9M)
評価
- テストデータ: 学習データセットから分割
- 評価指標: 正解率、適合率、再現率、F1スコア
用途
- 直接使用: 与えられた名前の性別を分類する
- 下流の使用: 名前に基づく性別識別が必要なアプリケーションの強化(例:パーソナライズマーケティング、ユーザープロファイリング)
- 範囲外の使用: 適切な検証なしに性別分類以外の目的でモデルを使用する
バイアス、リスク、制限事項
- バイアス: モデルは学習データに含まれるバイアスを反映する可能性があります。多様なデータセットでの性能を検証することが重要です。
- リスク: 誤分類が発生する可能性があり、特に中性またはあまり一般的でない名前の場合に顕著です。
- 制限事項: モデルの精度は、名前の文化的および言語的文脈によって異なる場合があります。
推奨事項
- ユーザーは、モデルの潜在的なバイアスと制限事項を認識する必要があります。
- 特定の使用事例やデータセットについては、さらなる検証が推奨されます。
🔧 技術詳細
このモデルは、事前学習済みのBERTモデルをベースに使用し、分類ヘッド付きでファインチューニングされています。学習データは名前と性別のデータセットで、学習手順では特定のハイパーパラメータを使用しています。評価では、正解率、適合率、再現率、F1スコアなどの指標を使用しています。
📄 ライセンス
このモデルはMITライセンスの下で提供されています。
⚠️ 重要な注意
モデルは学習データに含まれるバイアスを反映する可能性があり、誤分類が発生することがあります。また、名前の文化的および言語的文脈によって精度が異なる場合があります。
💡 使用上のヒント
ユーザーはモデルの潜在的なバイアスと制限事項を認識し、特定の使用事例やデータセットについてはさらなる検証を行うことを推奨します。