December 5, 2020
NLP similarity text for mover.run
Check all these articles:
MAIN ARTICLES
Main website for NLP data and models: http://vectors.nlpl.eu/repository/#
https://habr.com/ru/post/446530/
https://itnext.io/string-similarity-the-basic-know-your-algorithms-guide-3de3d7346227
https://www.tensorflow.org/tutorials/text/word2vec
https://arxiv.org/ftp/arxiv/papers/1504/1504.08183.pdf
https://www.aclweb.org/anthology/W17-1415.pdf
gensim
https://github.com/RaRe-Technologies/gensim
About panda: https://pandas.pydata.org/docs/user_guide/10min.html?highlight=csv
при одинаковых математических ожиданиях дисперсия величины Х очень мала, а случайной величины Y значительная. В общем случае, если дисперсия случайной величины мала, то малы отклонения от матожидания, а если существуют значения xi , сильно отклоняющиеся от матожидания, то они маловероятны. Если же дисперсия велика, то это указывает на существование значений случайной величины, которые сильно отклоняются от её математического ожидания, причем не все они маловероятны. Кроме дисперсии, характеристикой рассеяния является среднее квадратическое отклонение σ , которое является корнем квадратичным из дисперсии: σ = D[ X ] . Среднее квадратическое отклонение имеет размерность значений случайной величины, в то время как дисперсия имеет размерность квадрата размерности значений случайной величины. Математическое ожидание, дисперсия и среднеквадратическое отклонение – это теоретические величины, и они не являются случайными. Это постоянные величины.