fasttext-th-vectorsオープンソースモデル - タイ語の単語ベクトル抽出とテキスト分類を無料で実現

Home

Fasttext Th Vectors

Developed by facebook

fastTextはオープンソースで無料の軽量ライブラリであり、テキスト表現とテキスト分類器の学習をサポートし、タイ語単語ベクトルの抽出に対応しています。

テキスト埋め込み Other#タイ語単語ベクトル #多言語サポート #軽量テキスト分類

Downloads 83

Release Time : 3/24/2023

Model Overview

fastTextは単語ベクトルと文分類を効率的に学習するライブラリで、通常のハードウェア上での高速トレーニングをサポートし、テキスト分類や単語ベクトル学習タスクに適しています。

Model Features

効率的なトレーニング

通常のマルチコアCPUで数十億語彙のトレーニングを数分で処理可能

軽量

トレーニング後のモデルはモバイルデバイスに適したサイズまで圧縮可能

多言語サポート

157言語の事前学習済み単語ベクトルをサポート

Model Capabilities

単語ベクトル抽出

テキスト分類

言語識別

単語類似度計算

Use Cases

自然言語処理

単語ベクトル検索

単語のベクトル表現を取得

テキスト分類などの下流NLPタスクに利用可能

単語類似度計算

2つの単語のコサイン類似度を計算

単語間の意味的関連性を測定可能

言語識別

テキスト言語検出

入力テキストの言語タイプを識別

157言語の識別をサポート

🚀 fastText (タイ語)

fastTextは、オープンソースで無料の軽量ライブラリで、ユーザーがテキスト表現とテキスト分類器を学習することができます。標準的な汎用ハードウェアで動作し、後でモデルのサイズを縮小してモバイルデバイスにも搭載できます。このライブラリはこの論文で紹介され、公式サイトはこちらです。

🚀 クイックスタート

fastTextは、単語表現の効率的な学習と文分類のためのライブラリです。開発者、ドメインエキスパート、学生にとって使いやすいように設計されています。テキスト分類と単語表現の学習に特化しており、特殊なハードウェアを必要とせずに迅速なモデルの反復と改良を可能にするように設計されています。fastTextモデルは、任意のマルチコアCPUで数十億語以上のデータを数分以内に学習できます。

✨ 主な機能

ウィキペディアや157以上の異なる言語で学習された事前学習モデルを含んでいます。
コマンドラインとして使用したり、C++アプリケーションにリンクしたり、実験やプロトタイピングから本番運用までのユースケースでライブラリとして使用することができます。

📦 インストール

このREADMEには具体的なインストール手順が記載されていないため、このセクションをスキップします。

💻 使用例

基本的な使用法

事前学習済みのベクトルをロードして使用する方法は次の通りです。

>>> import fasttext
>>> from huggingface_hub import hf_hub_download

>>> model_path = hf_hub_download(repo_id="facebook/fasttext-th-vectors", filename="model.bin")
>>> model = fasttext.load_model(model_path)
>>> model.words

['the', 'of', 'and', 'to', 'in', 'a', 'that', 'is', ...]

>>> len(model.words)

145940

>>> model['bread']

array([ 4.89417791e-01,  1.60882145e-01, -2.25947708e-01, -2.94273376e-01,
       -1.04577184e-01,  1.17962055e-01,  1.34821936e-01, -2.41778508e-01, ...])

高度な使用法

英単語ベクトルの近傍をクエリする

>>> import fasttext
>>> from huggingface_hub import hf_hub_download

>>> model_path = hf_hub_download(repo_id="facebook/fasttext-en-nearest-neighbors", filename="model.bin")
>>> model = fasttext.load_model(model_path)
>>> model.get_nearest_neighbors("bread", k=5)

[(0.5641006231307983, 'butter'), 
 (0.48875734210014343, 'loaf'), 
 (0.4491206705570221, 'eat'), 
 (0.42444291710853577, 'food'), 
 (0.4229326844215393, 'cheese')]

与えられたテキストの言語を検出する

>>> import fasttext
>>> from huggingface_hub import hf_hub_download

>>> model_path = hf_hub_download(repo_id="facebook/fasttext-language-identification", filename="model.bin")
>>> model = fasttext.load_model(model_path)
>>> model.predict("Hello, world!")

(('__label__eng_Latn',), array([0.81148803]))

>>> model.predict("Hello, world!", k=5)

(('__label__eng_Latn', '__label__vie_Latn', '__label__nld_Latn', '__label__pol_Latn', '__label__deu_Latn'), 
 array([0.61224753, 0.21323682, 0.09696738, 0.01359863, 0.01319415]))

📚 ドキュメント

想定される用途と制限

事前学習済みの単語ベクトルをテキスト分類や言語識別に使用することができます。興味のあるタスクを探すには、公式サイトのチュートリアルとリソースを参照してください。

制限事項とバイアス

このモデルに使用される学習データはかなり中立的と言えるかもしれませんが、このモデルは偏った予測をする可能性があります。

コサイン類似度を使用して、2つの異なる単語ベクトル間の類似度を測定することができます。2つのベクトルが同一であれば、コサイン類似度は1になります。完全に無関係な2つのベクトルの場合、値は0になります。2つのベクトルが反対の関係にある場合、値は -1になります。

>>> import numpy as np

>>> def cosine_similarity(word1, word2):
>>>     return np.dot(model[word1], model[word2]) / (np.linalg.norm(model[word1]) * np.linalg.norm(model[word2]))

>>> cosine_similarity("man", "boy")

0.061653383

>>> cosine_similarity("man", "ceo")

0.11989131

>>> cosine_similarity("woman", "ceo")

-0.08834904

学習データ

157の言語に対する事前学習済みの単語ベクトルは、fastTextを使用してCommon CrawlとWikipediaで学習されました。これらのモデルは、位置重み付きのCBOWを使用して、次元300、文字n-gramの長さ5、ウィンドウサイズ5、ネガティブサンプリング数10で学習されました。また、フランス語、ヒンディー語、ポーランド語用の3つの新しい単語類推データセットも配布しています。

学習手順

トークン化

中国語にはStanford word segmenter、日本語にはMecab、ベトナム語にはUETsegmenterを使用しました。ラテン文字、キリル文字、ヘブライ文字、ギリシャ文字を使用する言語には、Europarlの前処理ツールのトークナイザーを使用しました。残りの言語には、ICUトークナイザーを使用しました。

これらのモデルの学習に関する詳細情報は、論文Learning Word Vectors for 157 Languagesを参照してください。

評価データセット

論文で説明されている類推評価データセットは、以下の場所から入手できます。

BibTeXエントリと引用情報

単語表現の学習にこのコードを使用する場合は[1]を引用し、テキスト分類に使用する場合は[2]を引用してください。

[1] P. Bojanowski*, E. Grave*, A. Joulin, T. Mikolov, Enriching Word Vectors with Subword Information

@article{bojanowski2016enriching,
  title={Enriching Word Vectors with Subword Information},
  author={Bojanowski, Piotr and Grave, Edouard and Joulin, Armand and Mikolov, Tomas},
  journal={arXiv preprint arXiv:1607.04606},
  year={2016}
}

[2] A. Joulin, E. Grave, P. Bojanowski, T. Mikolov, Bag of Tricks for Efficient Text Classification

@article{joulin2016bag,
  title={Bag of Tricks for Efficient Text Classification},
  author={Joulin, Armand and Grave, Edouard and Bojanowski, Piotr and Mikolov, Tomas},
  journal={arXiv preprint arXiv:1607.01759},
  year={2016}
}

[3] A. Joulin, E. Grave, P. Bojanowski, M. Douze, H. Jégou, T. Mikolov, FastText.zip: Compressing text classification models

@article{joulin2016fasttext,
  title={FastText.zip: Compressing text classification models},
  author={Joulin, Armand and Grave, Edouard and Bojanowski, Piotr and Douze, Matthijs and J{'e}gou, H{'e}rve and Mikolov, Tomas},
  journal={arXiv preprint arXiv:1612.03651},
  year={2016}
}

これらの単語ベクトルを使用する場合は、以下の論文を引用してください。

[4] E. Grave*, P. Bojanowski*, P. Gupta, A. Joulin, T. Mikolov, Learning Word Vectors for 157 Languages

@inproceedings{grave2018learning,
  title={Learning Word Vectors for 157 Languages},
  author={Grave, Edouard and Bojanowski, Piotr and Gupta, Prakhar and Joulin, Armand and Mikolov, Tomas},
  booktitle={Proceedings of the International Conference on Language Resources and Evaluation (LREC 2018)},
  year={2018}
}

(* これらの著者は同等の貢献をしています。)