December 5, 2020

NLP similarity text for mover.run

Check all these articles:

MAIN ARTICLES

Main website for NLP data and models: http://vectors.nlpl.eu/repository/#

https://habr.com/ru/post/446530/

https://itnext.io/string-similarity-the-basic-know-your-algorithms-guide-3de3d7346227

https://www.tensorflow.org/tutorials/text/word2vec

https://arxiv.org/ftp/arxiv/papers/1504/1504.08183.pdf

https://www.researchgate.net/publication/327296241_Phonetic_String_Matching_for_Languages_with_Cyrillic_Alphabet_Part_I

https://www.aclweb.org/anthology/W17-1415.pdf

gensim

https://www.youtube.com/watch?v=U0LOSHY7U5Q&ab_channel=%D0%9A%D0%BE%D0%BC%D0%BF%D1%8C%D1%8E%D1%82%D0%B5%D1%80%D0%BD%D1%8B%D0%B5%D0%BD%D0%B0%D1%83%D0%BA%D0%B8

https://github.com/RaRe-Technologies/gensim

About panda: https://pandas.pydata.org/docs/user_guide/10min.html?highlight=csv

при одинаковых математических ожиданиях
дисперсия величины Х очень мала, а случайной величины Y
значительная.
    В общем случае, если дисперсия случайной величины мала, то
малы отклонения от матожидания, а если существуют значения xi ,
сильно отклоняющиеся от матожидания, то они маловероятны.
    Если же дисперсия велика, то это указывает на существование
значений случайной величины, которые сильно отклоняются от её
математического ожидания, причем не все они маловероятны.
    Кроме дисперсии, характеристикой рассеяния является среднее
квадратическое отклонение σ , которое является корнем квадратичным из
дисперсии: σ = D[ X ] . Среднее квадратическое отклонение имеет
размерность значений случайной величины, в то время как дисперсия
имеет размерность квадрата размерности значений случайной величины.
    Математическое ожидание, дисперсия и среднеквадратическое
отклонение – это теоретические величины, и они не являются
случайными. Это постоянные величины.