December 20, 2021
Spis resursov za komputerovu rabotu so slovjanskymi jezykami. Korpusy tekstov, programistične biblioteky i tako dalje.
Spisy slov
Čestotne spisy za vse slovjanske jezyky https://app.box.com/s/qi2mli1nqy5ne32880xxxpemtlwiuv1g
Python
Biblioteka za rabotu s čestotnymi spisami. Za vsaky jezyk imaje minimalno korpusy od Wikipedije i od Opensubtitles (2018). Može nahoditi čestotnost vsakogo slova, davati spisy, tokenizovati tekst i.t.d.
Ne imaje bělorusskogo, davaje ne lemmatizovane slova.
https://pypi.org/project/wordfreq/
čitanje i konvertacija 30+ slovnikovyh formatov
https://pypi.org/project/pyglossary/
Korpusy tekstov
Korpusy tekstov za različne jezyky (vključno take rědke kako gorny lužičsky)
I. Velike korpuse za jezyky:
bg bn cs en hr mk pl ru sk sl sr uk
II. Paralelne rěčenja:
bg-bn