BigData
June 17, 2020

BigData елегінде – Абайдың қара сөздері

«BigData» дегеніміз не? Ол медиада не үшін қажет?
Бұл сұрақтарға мейлінше көп оқырманға таныс Абайдың «Қара сөздеріне» BigData ретінде қарау арқылы жауап беріп көрейін.

«BigData» дегеніміз – үлкен дата, үлкен мәлімет қоры. Компьютер ғылымының түсінігі. Бірақ BigData журналистік зерттеу техникасы ретінде қарастырылып, сәтті қолданылып жүр.

Ол қалай сонда? Мақалаға қажет мәліметтер қайдан, қалайша BigData бола алады?

Ол үшін дөрекі мысал келтірейік.

Мысал. 10. Он деген санды білесіз. Біз оны осылайша, бүтін, тұтас сан түрінде танимыз. Бизнес орталықтағы оныншы бөлме, театрдағы оныншы қатар, он түйір тас, т.с.с.

Бірақ өмірде кездесетін 10 саны түрлі амалмен шыққан болуы мүмкін ғой.

Мысалы, арифметикалық түрде солай: 1+9=10; 8+2=10; 2+2+2+2+2=10, т.с.с.

Ендеше біз 10 санын тұтас түрінде танығанымызбен, ол өмірдің түрлі жағдайында – түрлі әдіспен құралған сан.

Қонақ үйдегі N10 бөлме оған дейін – тоғыз бөлме бар деген сөз бе? Мүмкін иә, мүмкін жоқ. 1-бөлме, 2-бөлме, 3-бөлме, 4-бөлме деп келе жатып, кенет – 5A, 5B, 5C деп жалғасуы мүмкін. Шын мәнінде он бес бөлме болып шығуы ғажап емес. Сіздер мұндайды әсіресе ғимараттардың мекенжайынан жиі ұшырастырасыздар. Мысалы, мен тұратын үйдің нөмірі – 31A. Өмірде бізге әлдеқандай нәрсенің саны белгілі болғанымен, оның құрамдас бөліктерін де білу маңызды.

Ендеше, журналистер де біртұтас мазмұндағы мәліметтерге BigData ретінде қарап, оның құрамдас бөліктерінің арасындағы тәуелдік, бұрын байқалмай келген заңдылық, тренд көруі мүмкін. Немесе шашыранды, түрлі дереккөзден алынған мәліметтерді өзара байланыстырып, мәселенің біртұтас бейнесін жасауы да ықтимал.


«Қара сөздегі» қазақ

Мысал үшін Абайдың «Қара сөздеріне» BigData ретінде қарайық. BigData-мен жұмыстың басты әдістерінің бірі - біртұтас мәліметті құрамдас бөліктерге бөлу немесе жан-жақтан жиналған өзара тәуелсіз ақпарлардан мәселенің біртұтас бейнесін жасау дедік. Яғни, шашу немесе жинау.

«Қара сөздер» біртұтас шығарма. Тақырыбы - адам болу. Ал енді оны құрамдас бөліктерге бөлейік. Мысалы, «Қара сөздерде» қанша ұлт аталған? Немесе, қанша жануар атауы, кісі есімдері, жер-су аттары бар? Тек заттарды емес, сонымен бірге - ауа райы, көңіл-күй, себептер, т.с.с. бірліктерді жинап алып, топтастыруға болады. Олар не береді? Міне, бұл енді - BigData-ны оқудың, аналитиканың мәселесі.

Мысалы, «қазақ» сөзі бар сөйлемдерді теріп алайық:

(бұл кестені түпнұсқа сайттан қараған дұрыс)

Енді оларды мағынасына қарай бояп отырайық. Жақсы мағынадағы сөйлем болса – жасылға, мағынасы бейтарап болса – ашық көкке, жағымсыз пікір болса – қызылға бояйық:

(бұл кестені түпнұсқа сайттан қараған дұрыс)

Сосын боялған торкөздерді бір жерге топтастырсақ, біз Абайдың көңіл-күйінің картасын жасаған болар едік. Мұны дата-аналитикада «сөз райы» (sentiment) деп атайды.

(бұл кестені түпнұсқа сайттан қараған дұрыс)

Бұл жолақтарды қарап отырып, не түйдіңіз? Ал кестені былай берсек:

BigData-ның бір қыры осы - мәліметтерді ұғынықты түрде көрсетіп, мазмұнын оқырманның өзіне пайымдауға қалдырады. Ал біз жақсы журналистік зерттеудің - әрқашан бейтараптық сақтап, шешім қабылдауды оқырманның өзіне қалдыру екенін білеміз.


Статистика

(шылаулар есептелмеген)

«Қара сөздерде» ең көп қолданылған сөзді білесіз бе? Мен таныстарымнан шығармаға қарамай айтуды сұрағанда, олардың барлығы дерлік «адам» деген сөз шығар» деген. Шамамен тапты деуге болады: «адам» деген сөз қолданылу жиілігі жағынан 9-орында тұр екен:

Және «адам» сөзі - осы тізімдегі жалғыз зат есім.

Немесе, ең көлемді және ең қысқа «қара сөз» қайсылар? Символдарын санау арқылы (қазақша кирил нұсқасын) қарасақ, келесідей бейне шығады:

BigData-да кестемен жұмыс істей білу маңызды. Сонымен бірге, скрипттік програмдау тілдерінің бірін, SQL тілін үйренген жақсы. Бұлар соңғы кездері журналистер үшін арнайы курс ретінде оқытылатын болып жүр.


Функционал тәуелдік

BigData-ның мәліметті бейнелеудегі қуатты тұсы - функционал тәуелдікті айқын, визуал көрсете алуы.

Шетелден қарыз алған сайын әлеуметтік жағдай жақсара берді ме? Бизнестің табысты болуының билікке туысқандық қатынасқа байланысы бар ма? Жерлестік факторы ұлттық компаниялардағы мансапқа әсер ететіні рас па? Ауа райы іскерлік өмірдің темпін қалай өзгертеді? Міне, біз BigData арқылы - декларатив, жария жәйттерден басқа, бұрын жасырын болып келген, не мән берілмеген бейне көре алар едік.

Мысалы, Абай «Қара сөздерді» 45 жасынан бастап жаза бастады. «Қара сөздерді» Абайдың есеюіне тәуелдігін қарап көрейік:

Бұл кестені қалай сөйлетуге болады?

Абай 58 жасында қайтыс болды. Қара сөздің соңғысын 53 жасында жазған. 9 жыл бойы үздіксіз жазып келе жатып, неліктен тастап кетті? Әлде шығарма өз тақырыбы бойынша шырқау шегіне жетті ме?

Сөздерді жазуды 45 жасында, салыстырмалы түрде кеш бастаған. Неге тура 45 жасында бастады? Ол дәл осы жаста пәлсапалық трактат форматымен жазылған бір еңбекті көріп, ұнатты ма екен, солай болса - қай еңбек болды екен?

Ал көрсетілген жылдарда қазақ даласында, немесе қоғамдық-саяси өмірге әсері болмай қоймайтын Ресей Империясында қандай оқиғалар болды? Олар Абайдың сол жылдардағы жазған сөздерінде көрініс тапты ма? Мысалы, Ресейдегі социал-демократиялық сеңжүрістердің әсері бар ма?

Осылайша жіктеу биографтарға, зерттеушілерге жаңа бағыт беріп, мүмкін, біз байқамаған жаңа мәліметтерді, оқиғаларды айқындар еді.


ҚОРЫТЫНДЫ

Бұл - BigData-ға кіріспе жазбамыз. Шынайы жағдайда BigData - бірі бірінен тәуелсіз дереккөздерден алынған мәліметтердің тоғысуы. Мысалы, Ресейдегі COVID-19 індетіне байланысты мәліметтердің бұрмалануы мүмкін екеніне байланысты тұжырымдар - Ресейден басқа елдердің берген мәліметтерін топтастыру кезінде шықты. Себебі, Ресей берген мәліметтер медициналық жәрдем әлдеқайда қуатты елдердің мәліметтерінен оғаш оқшауланып тұрды. Оған Reuters зерттеу жасағанда - шынымен солай болып шықты.

BigData - аналитикалық нәрсе. Толассыз мәліметтерді шығарып алу мүмкін болғанымен, олардың статистикасын, функционал тәуелдіктерін оқи білу қажет. Біз «Қара сөздерді» - сұрыпталмаған (unstructured) күйде алдық. Сосын ондағы мәліметтерді өз қалауымызбен сұрыптап (мысалы, қазақ ұлтына қатысты сөйлемдерді жинап алдық), оны мазмұны бойынша жіктедік. BigData-журналистика да көбіне осы жолмен жүреді.

BigData туралы кең тараған жаңсақ пікір

Сұрақ: BigData сонда инфографика жасау ма?

Жауап: Жоқ. BigData - мәлімет жинау, табу әдісі. Ал инфографика - мәліметті көрсету форматы. BigData-ға негізделген мақалаларда инфографиканың көп болуы - мәліметтерді оңтайлы, ұғынықты көрсету әрекеті ғана. Ондай мақаланы тек мәтінмен жазуға да болар еді. BigData-ның мақсаты - инфографика жасау емес, мәлімет жинау.

Ерлан Оспан, erekepost.kz

Бұл жоба АҚШ халықаралық даму агенттігінің (USAID) қолдауымен Қазақстандағы Internews өкілдігінің “Media CAMP — Орталық Азия” бағдарламасы аясында жүзеге асты.