December 20, 2021

Spis resursov za komputerovu rabotu so slovjanskymi jezykami. Korpusy tekstov, programistične biblioteky i tako dalje.

Spisy slov

Čestotne spisy za vse slovjanske jezyky https://app.box.com/s/qi2mli1nqy5ne32880xxxpemtlwiuv1g

Python

Biblioteka za rabotu s čestotnymi spisami. Za vsaky jezyk imaje minimalno korpusy od Wikipedije i od Opensubtitles (2018). Može nahoditi čestotnost vsakogo slova, davati spisy, tokenizovati tekst i.t.d.

Ne imaje bělorusskogo, davaje ne lemmatizovane slova.

https://pypi.org/project/wordfreq/

čitanje i konvertacija 30+ slovnikovyh formatov
https://pypi.org/project/pyglossary/

Korpusy tekstov

Korpusy tekstov za različne jezyky (vključno take rědke kako gorny lužičsky)

I. Velike korpuse za jezyky:
bg
bn cs en hr mk pl ru sk sl sr uk


II. Paralelne rěčenja:

bg-bn

bg-cs

bg-en

bg-hr

bg-mk

bg-pl

bg-ru

bg-sk

bg-sl

bg-sr

bg-uk

bn-cs

bn-en

bn-hr

bn-mk

bn-pl

bn-ru

bn-sk

bn-sl

bn-sr

bn-uk

cs-en

cs-hr

cs-mk

cs-pl

cs-ru

cs-sk

cs-sl

cs-sr

cs-uk

en-hr

en-mk

en-pl

en-ru

en-sk

en-sl

en-sr

en-uk

hr-mk

hr-pl

hr-ru

hr-sk

hr-sl

hr-sr

hr-uk

mk-pl

mk-ru

mk-sk

mk-sl

mk-sr

mk-uk

pl-ru

pl-sk

pl-sl

pl-sr

pl-uk

ru-sk

ru-sl

ru-sr

ru-uk

sk-sl

sk-sr

sk-uk

sl-sr

sl-uk

sr-uk