Openlid
OpenLIDは高カバレッジで高性能な言語識別モデルで、201言語をサポートしています。
ダウンロード数 1,854
リリース時間 : 10/24/2023
モデル概要
fastTextフレームワークに基づくテキスト分類モデルで、言語識別タスク専用です。
モデル特徴
高カバレッジ
201言語をサポートし、広範なカバレッジを提供します。
高性能
FLORES-200ベンチマークで優れた性能を発揮します。
公開データセット
トレーニングデータと性能指標が公開されており、さらなる研究を促進します。
モデル能力
テキスト分類
言語識別
使用事例
多言語処理
言語検出
テキストの言語カテゴリを識別します。
FLORES-200ベンチマークで優れた性能を発揮します。
🚀 OpenLID
OpenLIDは、201の言語をカバーする高カバレッジかつ高性能な言語識別モデルです。このモデルと学習データに関する情報を公開することで、言語識別の分野におけるさらなる研究を促進します。
🚀 クイックスタート
OpenLIDは、高カバレッジで高性能な言語識別モデルです。201の言語をカバーするfastTextモデルで、学習データと言語ごとのパフォーマンスが公開されており、さらなる研究を促進することを目的としています。
モデルの使用方法
与えられたテキストの言語を検出するには、以下のようにします。
>>> import fasttext
>>> from huggingface_hub import hf_hub_download
>>> model_path = hf_hub_download(repo_id="laurievb/OpenLID", filename="model.bin")
>>> model = fasttext.load_model(model_path)
>>> model.predict("Hello, world!")
(('__label__eng_Latn',), array([0.81148803]))
>>> model.predict("Hello, world!", k=5)
(('__label__eng_Latn', '__label__vie_Latn', '__label__nld_Latn', '__label__pol_Latn', '__label__deu_Latn'),
array([0.61224753, 0.21323682, 0.09696738, 0.01359863, 0.01319415]))
✨ 主な機能
- 高カバレッジ:201の言語をカバーしています。
- 高性能:F1スコアなどの指標で高いパフォーマンスを示します。
- データ公開:学習データと言語ごとのパフォーマンスが公開されています。
📦 インストール
このモデルを使用するには、fasttext
とhuggingface_hub
ライブラリが必要です。以下のコマンドでインストールできます。
pip install fasttext huggingface_hub
💻 使用例
基本的な使用法
>>> import fasttext
>>> from huggingface_hub import hf_hub_download
>>> model_path = hf_hub_download(repo_id="laurievb/OpenLID", filename="model.bin")
>>> model = fasttext.load_model(model_path)
>>> model.predict("Hello, world!")
(('__label__eng_Latn',), array([0.81148803]))
高度な使用法
>>> model.predict("Hello, world!", k=5)
(('__label__eng_Latn', '__label__vie_Latn', '__label__nld_Latn', '__label__pol_Latn', '__label__deu_Latn'),
array([0.61224753, 0.21323682, 0.09696738, 0.01359863, 0.01319415]))
📚 ドキュメント
モデルの制限とバイアス
- 言語カバレッジ:このデータセットとモデルは201の言語のみをカバーしています。
- ドメイン依存性:テストセットは単一のドメイン(ウィキ記事)の文章で構成されているため、他のドメインでのパフォーマンスは反映されていない可能性があります。
- データ検証:データの多くはネイティブスピーカーによる検証が不十分です。
学習データ
このモデルは、OpenLIDデータセットを使用して学習されています。
学習手順
このモデルは、以下のハイパーパラメータを設定してfastTextを使用して学習されました。他のハイパーパラメータはデフォルト値に設定されています。
- 損失関数:softmax
- エポック数:2
- 学習率:0.8
- 単語の最小出現回数:1000
- 埋め込み次元数:256
- 文字n-gram:2 - 5
- 単語n-gram:1
- バケットサイズ:1,000,000
- スレッド数:68
評価データセット
このモデルは、Costa-jussà et al. (2022)によって提供されたFLORES-200ベンチマークを使用して評価されました。詳細な情報は論文を参照してください。
BibTeXエントリと引用情報
ACL引用 (推奨)
@inproceedings{burchell-etal-2023-open,
title = "An Open Dataset and Model for Language Identification",
author = "Burchell, Laurie and
Birch, Alexandra and
Bogoychev, Nikolay and
Heafield, Kenneth",
editor = "Rogers, Anna and
Boyd-Graber, Jordan and
Okazaki, Naoaki",
booktitle = "Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers)",
month = jul,
year = "2023",
address = "Toronto, Canada",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2023.acl-short.75",
doi = "10.18653/v1/2023.acl-short.75",
pages = "865--879",
abstract = "Language identification (LID) is a fundamental step in many natural language processing pipelines. However, current LID systems are far from perfect, particularly on lower-resource languages. We present a LID model which achieves a macro-average F1 score of 0.93 and a false positive rate of 0.033{\%} across 201 languages, outperforming previous work. We achieve this by training on a curated dataset of monolingual data, which we audit manually to ensure reliability. We make both the model and the dataset available to the research community. Finally, we carry out detailed analysis into our model{'}s performance, both in comparison to existing open models and by language class.",
}
ArXiv引用
@article{burchell2023open,
title={An Open Dataset and Model for Language Identification},
author={Burchell, Laurie and Birch, Alexandra and Bogoychev, Nikolay and Heafield, Kenneth},
journal={arXiv preprint arXiv:2305.13820},
year={2023}
}
🔧 技術詳細
OpenLIDはfastTextモデルをベースに構築されており、201の言語をカバーする言語識別モデルです。学習データは公開されており、研究の促進に役立てることができます。
📄 ライセンス
このモデルはGPL-3.0ライセンスの下で公開されています。
関連情報
- 開発者:Laurie Burchell, Alexandra Birch, Nikolay Bogoychev, Kenneth Heafield
- モデルタイプ:テキスト分類(言語識別)
- 言語:英語
- 詳細情報:OpenLIDのGitHubリポジトリ
Distilbert Base Uncased Finetuned Sst 2 English
Apache-2.0
DistilBERT - base - uncasedをベースに、SST - 2感情分析データセットで微調整されたテキスト分類モデル。正解率91.3%
テキスト分類 英語
D
distilbert
5.2M
746
Xlm Roberta Base Language Detection
MIT
XLM-RoBERTaベースの多言語検出モデル、20言語のテキスト分類をサポート
テキスト分類
Transformers 複数言語対応

X
papluca
2.7M
333
Roberta Hate Speech Dynabench R4 Target
このモデルは動的データセット生成を通じてオンライン憎悪検出を改善し、検出効果を高めるために最悪ケースから学習することに焦点を当てています。
テキスト分類
Transformers 英語

R
facebook
2.0M
80
Bert Base Multilingual Uncased Sentiment
MIT
bert-base-multilingual-uncasedを微調整した多言語感情分析モデルで、6言語の商品レビューの感情分析に対応しています。
テキスト分類 複数言語対応
B
nlptown
1.8M
371
Emotion English Distilroberta Base
DistilRoBERTa-baseをファインチューニングした英語テキストの感情分類モデルで、エクマンの6基本感情と中立カテゴリを予測可能。
テキスト分類
Transformers 英語

E
j-hartmann
1.1M
402
Robertuito Sentiment Analysis
RoBERTuitoベースのスペイン語ツイート感情分析モデル、POS(ポジティブ)/NEG(ネガティブ)/NEU(ニュートラル)の3分類に対応
テキスト分類 スペイン語
R
pysentimiento
1.0M
88
Finbert Tone
FinBERTは金融通信テキストを元に事前学習されたBERTモデルで、金融自然言語処理分野に特化しています。finbert-toneはその微調整バージョンで、金融感情分析タスクに使用されます。
テキスト分類
Transformers 英語

F
yiyanghkust
998.46k
178
Roberta Base Go Emotions
MIT
RoBERTa-baseに基づく多ラベル感情分類モデルで、go_emotionsデータセットで訓練され、28種類の感情ラベル識別をサポートします。
テキスト分類
Transformers 英語

R
SamLowe
848.12k
565
Xlm Emo T
XLM-EMOはXLM-Tモデルをファインチューニングした多言語感情分析モデルで、19言語をサポートし、特にソーシャルメディアテキストの感情予測に特化しています。
テキスト分類
Transformers その他

X
MilaNLProc
692.30k
7
Deberta V3 Base Mnli Fever Anli
MIT
MultiNLI、Fever-NLI、ANLIのデータセットを用いて訓練されたDeBERTa-v3モデルで、ゼロショット分類と自然言語推論タスクに優れています。
テキスト分類
Transformers 英語

D
MoritzLaurer
613.93k
204
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98