🚀 fastText
fastTextは、オープンソースで無料の軽量ライブラリで、ユーザーがテキスト表現とテキスト分類器を学習することを可能にします。標準的な汎用ハードウェアで動作し、後でモデルのサイズを縮小してモバイルデバイスにも搭載できます。このライブラリは この論文 で紹介され、公式ウェブサイトは こちら です。
🚀 クイックスタート
fastTextは、単語表現と文分類を効率的に学習するためのライブラリです。開発者、専門家、学生にとって使いやすいように設計されており、テキスト分類と単語表現の学習に特化しています。特殊なハードウェアを必要とせずに、迅速なモデルの反復と改良が可能です。fastTextモデルは、任意のマルチコアCPU上で数十億語以上のデータを数分以内に学習できます。
✨ 主な機能
- ウィキペディアや157以上の異なる言語で学習された事前学習モデルを含んでいます。
- コマンドラインとして使用することも、C++アプリケーションにリンクすることも、実験やプロトタイピングから本番環境までのユースケースでライブラリとして使用することもできます。
💻 使用例
基本的な使用法
事前学習済みのベクトルをロードして使用する方法は次の通りです。
>>> import fasttext
>>> from huggingface_hub import hf_hub_download
>>> model_path = hf_hub_download(repo_id="facebook/fasttext-en-vectors", filename="model.bin")
>>> model = fasttext.load_model(model_path)
>>> model.words
['the', 'of', 'and', 'to', 'in', 'a', 'that', 'is', ...]
>>> len(model.words)
145940
>>> model['bread']
array([ 4.89417791e-01, 1.60882145e-01, -2.25947708e-01, -2.94273376e-01,
-1.04577184e-01, 1.17962055e-01, 1.34821936e-01, -2.41778508e-01, ...])
高度な使用法
英単語ベクトルの最近傍をクエリする方法は次の通りです。
>>> import fasttext
>>> from huggingface_hub import hf_hub_download
>>> model_path = hf_hub_download(repo_id="facebook/fasttext-en-nearest-neighbors", filename="model.bin")
>>> model = fasttext.load_model(model_path)
>>> model.get_nearest_neighbors("bread", k=5)
[(0.5641006231307983, 'butter'),
(0.48875734210014343, 'loaf'),
(0.4491206705570221, 'eat'),
(0.42444291710853577, 'food'),
(0.4229326844215393, 'cheese')]
与えられたテキストの言語を検出する方法は次の通りです。
>>> import fasttext
>>> from huggingface_hub import hf_hub_download
>>> model_path = hf_hub_download(repo_id="facebook/fasttext-language-identification", filename="model.bin")
>>> model = fasttext.load_model(model_path)
>>> model.predict("Hello, world!")
(('__label__eng_Latn',), array([0.81148803]))
>>> model.predict("Hello, world!", k=5)
(('__label__eng_Latn', '__label__vie_Latn', '__label__nld_Latn', '__label__pol_Latn', '__label__deu_Latn'),
array([0.61224753, 0.21323682, 0.09696738, 0.01359863, 0.01319415]))
制限事項とバイアス
このモデルに使用される学習データはかなり中立的と言えるかもしれませんが、このモデルは偏った予測をする可能性があります。
コサイン類似度を使用して、2つの異なる単語ベクトル間の類似度を測定できます。2つのベクトルが同一であれば、コサイン類似度は1になります。完全に無関係な2つのベクトルの場合、値は0になります。2つのベクトルが反対の関係にある場合、値は-1になります。
>>> import numpy as np
>>> def cosine_similarity(word1, word2):
>>> return np.dot(model[word1], model[word2]) / (np.linalg.norm(model[word1]) * np.linalg.norm(model[word2]))
>>> cosine_similarity("man", "boy")
0.061653383
>>> cosine_similarity("man", "ceo")
0.11989131
>>> cosine_similarity("woman", "ceo")
-0.08834904
📚 ドキュメント
トレーニングデータ
157の言語に対する事前学習済みの単語ベクトルは、fastTextを使用して Common Crawl と Wikipedia で学習されました。これらのモデルは、位置重み付きのCBOWを使用して、次元数300、文字n-gramの長さ5、ウィンドウサイズ5、ネガティブサンプリング数10で学習されました。また、フランス語、ヒンディー語、ポーランド語用の3つの新しい単語類推データセットも配布しています。
トレーニング手順
トークン化
中国語には Stanford word segmenter、日本語には Mecab、ベトナム語には UETsegmenter を使用しました。ラテン文字、キリル文字、ヘブライ文字、ギリシャ文字を使用する言語には、Europarl の前処理ツールのトークナイザーを使用しました。その他の言語には、ICUトークナイザーを使用しました。
これらのモデルの学習に関する詳細な情報は、論文 Learning Word Vectors for 157 Languages を参照してください。
ライセンス
単語ベクトルは Creative Commons Attribution-Share-Alike License 3.0 の下で配布されています。
評価データセット
論文で説明されている類推評価データセットは、次の場所から入手できます。
BibTeXエントリと引用情報
単語表現の学習にこのコードを使用する場合は [1] を、テキスト分類に使用する場合は [2] を引用してください。
[1] P. Bojanowski*, E. Grave*, A. Joulin, T. Mikolov, Enriching Word Vectors with Subword Information
@article{bojanowski2016enriching,
title={Enriching Word Vectors with Subword Information},
author={Bojanowski, Piotr and Grave, Edouard and Joulin, Armand and Mikolov, Tomas},
journal={arXiv preprint arXiv:1607.04606},
year={2016}
}
[2] A. Joulin, E. Grave, P. Bojanowski, T. Mikolov, Bag of Tricks for Efficient Text Classification
@article{joulin2016bag,
title={Bag of Tricks for Efficient Text Classification},
author={Joulin, Armand and Grave, Edouard and Bojanowski, Piotr and Mikolov, Tomas},
journal={arXiv preprint arXiv:1607.01759},
year={2016}
}
[3] A. Joulin, E. Grave, P. Bojanowski, M. Douze, H. Jégou, T. Mikolov, FastText.zip: Compressing text classification models
@article{joulin2016fasttext,
title={FastText.zip: Compressing text classification models},
author={Joulin, Armand and Grave, Edouard and Bojanowski, Piotr and Douze, Matthijs and J{'e}gou, H{'e}rve and Mikolov, Tomas},
journal={arXiv preprint arXiv:1612.03651},
year={2016}
}
これらの単語ベクトルを使用する場合は、次の論文を引用してください。
[4] E. Grave*, P. Bojanowski*, P. Gupta, A. Joulin, T. Mikolov, Learning Word Vectors for 157 Languages
@inproceedings{grave2018learning,
title={Learning Word Vectors for 157 Languages},
author={Grave, Edouard and Bojanowski, Piotr and Gupta, Prakhar and Joulin, Armand and Mikolov, Tomas},
booktitle={Proceedings of the International Conference on Language Resources and Evaluation (LREC 2018)},
year={2018}
}
(* これらの著者は同等の貢献をしています。)
📄 ライセンス
このプロジェクトは CC BY-SA 3.0 ライセンスの下で提供されています。