May 7, 2020

Информация. История. Теория. Поток

Информация. История. Теория. Поток
@azaudio
Введение
Где бы мы ни жили и чем бы мы ни занимались — мы постоянно взаимодействуем с информацией: читаем книги, смотрим телевизор, звоним друзьям и посылаем коллегам электронные письма. 
Конечно же, человечество отнюдь не сразу пришло к столь удобным способам фиксирования информации и передачи ее на расстоянии. Им предшествовала огромная работа самых разных людей — от барабанщиков из примитивных африканских племен до физиков и математиков, выпускников Оксфорда и Гарварда. Пробы и ошибки, гениальные озарения и многочисленные рутинные эксперименты и расчеты сделали возможным это движение.
С каждым новым научно-техническим прорывом мы получали и продолжаем получать удивительные, не представимые ранее возможности. Казалось бы, совсем недавно была решена проблема быстрой и качественной передачи информации между соседними городами — а мы уже расшифровали геном, работаем с квантовой механикой и вплотную подошли к телепортации (пусть пока лишь отдельных частиц).
Информация изменяет не только мир вокруг, но и нас самих, а мы — когда запускаем новые мемы, вносим правки в «Википедию» или пишем стихи любимым — пусть ненамного, но отодвигаем гибель Вселенной. Кстати, это не преувеличение!
Люди давно пытались решить проблему передачи информации на расстоянии. Для этого использовались самые разные способы: флаги, рога, колокола, системы сигнальных огней и дымов, зеркальные отражения и т. п. Однако большинство этих способов упиралось в одно и то же препятствие: они могли передавать только ограниченный набор сообщений, а то и вовсе один сигнал. Это куда-то годилось, если было заранее оговорено нечто вроде «если мы выиграем эту битву, мы зажжем огонь на башне», но не более того.
Потенциал ряда способов связи так и остался нереализованным. Так, одна из непонятых технологий прошлого — африканские говорящие барабаны. Они были предназначены для весьма сложной коммуникации. Эта система трансляции информации на расстоянии сильно опережала по эффективности не только европейские барабаны (применявшиеся в основном лишь для координации действий в воинском подразделении), но и современные ей системы курьерской почты или почтовых станций — при том, что культура, породившая говорящие барабаны, находилась на весьма примитивной, дописьменной стадии.
2. Постоянство слова
Письменность стала гигантским информационным прорывом — самым существенным для человечества.
Письменность развивалась от пиктографии через идеографию к логографии. Это происходило с разной скоростью: так, китайская иероглифическая письменность образовалась от 4,5 до 8 тысяч лет назад, алфавитная, где один звук равен одному символу, — существенно позже, примерно в XVI веке до нашей эры. Алфавитная система стала наиболее разрушительной для естественного языка, наиболее редуктивной — и одновременно наиболее прагматичной, наиболее легкой для изучения. 
Чтобы создать литературу, алфавит был не обязателен: так, «Илиада» и «Одиссея» были сочинены вне письменности. Позже язык устной культуры приспосабливался к письменным формам. 
Письменная речь породила логику: хотя силлогизм можно и произнести, устная речь слишком ненадежна для строгого анализа, в ней используются события, но не категории.
Письменности мы обязаны изобретением математики. Уже во времена Древнего Вавилона люди умели вычислять геометрическую прогрессию, квадратные и кубические корни, раскладывать сложные многочлены второй степени и т. д. Более того: вавилоняне пришли к изобретению алгоритма и описанию его.
Написанное слово, в отличие от сказанного, не исчезало. Знания стали устойчивыми.
3. Словари
Письменная речь развивалась, количество слов и обозначаемых ими понятий росло — и, начиная с определенного момента, потребовалось профессионально работать уже непосредственно со словами.
Алфавитизация как способ систематизации (слов в словаре, книг в библиотеке и т. д.) появилась не сразу, хотя есть предположения, что уже в Александрийской библиотеке использовались ее элементы. Первый строго алфавитный каталог был составлен в 1613 году для Бодлианской библиотеки в Оксфорде (до того понятия организовывались по тематическим категориям).
По этим ранним словарям видно, что часть понятий, отвечающих за взаимоотношения вещи и слова (например, «представлять», «символизировать»), на тот момент в языке еще не сформировалась. Также не существовало еще науки как системы изучения Вселенной и ее законов. Соответственно, отсутствовал и ряд научных терминов. 
С этой проблемой в полной мере пришлось столкнуться Ньютону — когда выяснилось, например, отсутствие слова (и, соответственно, понятия) «материя».
Словарь при этом сам влияет на язык — однако он не способен устранить имеющиеся разночтения. Словарь в определенном смысле берет на себя роль исторической панорамы языка.
4. Перевести силу мысли в движение колес!
За преодоление еще одной «информационной ступени» мы можем быть благодарны гениальным английским математикам Чарльзу Бэббиджу и Аде Байрон-Лавлейс.
В XVII веке процесс вычислений ускорило изобретение логарифма и создание первых примитивных счетных машин Лейбница и Паскаля — для сложения и умножения.
После разностной машины Бэббидж, уже совместно с Адой Байрон-Лавлейс, задумался над следующим, еще более грандиозным проектом — «аналитической машиной». Их машина должна была не просто рассчитывать результаты, но выполнять операции — «процессы, изменяющие взаимное отношение двух вещей» — и при этом работать не только с числами, но и с другими объектами, вроде тонов гармонической музыки. Из «машины чисел» она должна была стать «машиной информации». Единицами информации для такой машины должны были стать переменные. 
Попыток создать рабочую дистанционную коммуникационную систему было множество: с помощью синхронизированных маятниковых часов, деревянных рам со скользящими заслонками, рычагами, которые могли поворачиваться в несколько позиций, и т. п. Однако общей их проблемой была невысокая достоверность передаваемого сигнала: сети были уязвимы, операторы допускали кучу ошибок на промежуточных этапах, изрядная часть сообщений искажалась или просто терялась. 
«Озарение» Морзе — обеспечившее успех телеграфу — состояло в том, что Морзе создал принципиально новую систему знаков. Не внося новые элементы, как делали его предшественники (вроде дополнительных стрелок, пузырьков воздуха в колбе и т. п.), он использовал лишь саму электрическую цепь — ее замыкание и размыкание. Такой аппарат был способен передать до 30 слов в минуту — невиданная скорость по тем временам. 
Морзе не сразу пришел к известной нам азбуке. Изначально предлагалось с помощью электромагнитного ключа посылать последовательность «точек» (кратких сигналов) и пауз, обозначающих числа. Будь этот вариант реализован — был бы необходим огромный словарь соответствий, а телеграфисты тратили бы уйму времени на дешифровку. К счастью, от этого вовремя отказались: помогло усовершенствование ключа, созданное Альфредом Вейлем и позволившее ввести третий (помимо точки и паузы) знак — «тире» (то есть длинный сигнал). Исследование частотности букв, встречающихся в английском языке, дало возможность еще более увеличить скорость передачи информации.
Быстро встал вопрос о надежности передаваемых сообщений — и, естественно, о необходимости кодирования. Для этого (а также для увеличения скорости передаваемого сообщения и экономии денег при пересылке) использовались самые разные приемы: от простейших сокращений вроде Shf (stocks have fallen — акции упали) до сложных систем кодирования, требующих больших словарей для расшифровки. 
Любопытно, что, решая проблему оптимального криптографического кода, математик и викарий Джон Уилкинс еще в 1641 году создал двоичный код — и подошел к созданию концепции информации в чистом виде. 
Количество телеграфных линий все росло, скоростная дистанционная коммуникация становилась все более востребованной — и появилось ощущение, что мир меняется благодаря электричеству, что телеграф (а затем и телефон) превращают человечество в единый организм. 
Появилось понимание разности времени в разных местах. 
Погоду стало возможно анализировать как некий целостный (а не только локальный) феномен — и в 1854 году британское правительство учредило Метеорологическое управление. 
Изменялся и физический ландшафт — повсюду протянулись провода, и они были значимым элементом пейзажа, несли серьезную смысловую нагрузку. Телеграф стал оказывать свое влияние на журналистику и даже на литературу — появилось понятие «телеграфного стиля».
Информационное развитие подталкивало людей к идее компьютера. Вэнивар Буш из Массачусетского технологического института разработал, практически не опираясь на изобретения Бэббиджа, «дифференциальный анализатор» — 100-тонную платформу с шестеренками и вращающимися стержнями, предназначенную для решения дифференциальных уравнений второго порядка. Электричество она использовала лишь для привода и для электромеханических переключателей, оперировала не цифрами, а множествами (была аналоговой, а не цифровой), и точность ее была невелика. 
Сотрудник Буша Клод Шеннон заинтересовался электрическими системами контроля платформы — релейными цепями — и увидел, что реле передает, по сути, сообщение: замкнута цепь или разомкнута. То есть для описания всех комбинаций состояний и действий релейных цепей можно использовать лишь символы «0» и «1». Проработав эту концепцию, Шеннон увидел, что вообще любая операция с конечным числом шагов (вроде «если», «или» и т. п.) может быть автоматически выполнена релейными цепями.
Однако «универсальный» — не значит «всемогущий». Так, Алан Тьюринг провел мысленный эксперимент с «машиной идеальных возможностей». По итогам этого эксперимента стало понятно, что машина не может справиться с теми задачами, которые выходят за пределы механических, — то есть с задачами, алгоритм которых (как бы сложен он ни был) в принципе нельзя задать. 
В гипотетической машине Тьюринга были три необходимых составных части: 
—   лента, разделенная на ячейки и могущая двигаться влево или вправо;
—  символы, которые записаны по одному на ячейку ленты;
—  состояния, в которых может находиться машина (и совершать определенные действия).
Тьюринг программировал свою несуществующую машину. С помощью простых действий конструировались сложные, машина могла использовать часть ленты в качестве временного хранилища информации и т. д. При неограниченности ленты машина могла вычислить все, что вообще можно вычислить. Однако выяснилось, что вычислить можно отнюдь не все.
Любая формальная система оказывалась содержащей неразрешимые утверждения. 
7. Теория информации
Параллельно с усложнением и ростом производительности самих вычислительных устройств совершенствовались и способы обработки данных. Этому способствовала Вторая мировая война, когда востребованность шифрования и дешифрования резко возросла.
Первой задачей дешифровщиков было распознать в том, что на первый взгляд походило на «шум» (поток случайных данных), систему. Такому распознаванию способствовал сам язык — крайне устойчивая структура даже после шифровки (в том числе благодаря его избыточности).
—   передатчик выводит сигнал в канал передачи;
—   в канале при передаче сигнал неизбежно получает дополнительный шум;
—   декодированное или реконструированное сообщение доходит до получателя.
8. Информационный поворот
Норберт Винер стал первооткрывателем кибернетики, в его исходном представлении — науки, исследующей способы коммуникации и управления, работающие и для человека, и для машины. 
Ее также не видел и нейрофизиолог Уоррен Маккаллох. Он организовал серию конференций с тогдашними светилами науки из разных ее областей — в основную группу входили антрополог Маргарет Мид, этолог, психолог и этнолог Грегори Бейтсон, психологи Лоуренс Франк и Генрих Клювер, математики Норберт Винер и Джон фон Нейман. 
На этих конференциях Шеннон продемонстрировал «мышь Шеннона» — робота, находящего выход из лабиринтов с помощью метода проб и ошибок. Робот обладал «памятью» — ее формировали 75 соединенных друг с другом реле — позволявшей ему безошибочно проходить уже известные участки. Любопытно, что некоторые сочетания старой памяти и нового лабиринта формировали «замкнутый круг решения» (похожий на человеческий невроз) — тогда «мышь» начинала безостановочно проходить один и тот же ошибочный круг действий. Шеннон был вынужден добавить «противоневрозную цепь» — команду выхода из цикла, если он повторялся более шести раз. 
Общий объем памяти «мыши» составлял 75 бит, и она «забывала» старые решения при изменении обстоятельств. Несмотря на мизерный объем памяти, это был робот, убедительно показывающий сходство процессов в электронном устройстве и человеческом мозге.
Психология к середине ХХ века пришла к застою — было не вполне понятно, что она вообще изучает (если вынести за скобки физиологию — стимулы и нервные реакции — и непосредственно поведение). Мышь Шеннона же стала моделью (пусть грубой) не только мозга, но и поведения — и ее можно было изучать, отойдя от бихевиористских принципов «черного ящика». Стало возможно прогнозировать не только реакцию живых существ, но и их представление о мире. Проблемы воспроизведения сообщений, шума и избыточности стали насущными не только в сугубо технических сферах. Наблюдателя можно было расценивать, например, как канал связи — и благодаря этому предположению подойти к механизмам распознавания и запоминания.
Развитие компьютеров сделало возможным создание «искусственного шахматиста» — и тем самым в некоторой степени еще значительнее уменьшило разницу между человеческим мышлением и компьютерной обработкой данных.
Изначально слово «энтропия» обозначало недоступность энергии в системе из-за отсутствия разницы температур. С введением этого термина начала термодинамики приобрели следующий вид:
—  Первое начало: количество энергии во Вселенной постоянно;
— Второе начало: энтропия Вселенной всегда возрастает.
Стало понятно, что Вселенная «изнашивается», и в будущем неизбежна ее смерть из-за исчерпания потенциальной энергии.
Джеймс Клерк Максвелл первым стал изучать беспорядок как существенное свойство энтропии. 
Движение отдельных молекул одинаково независимо от того, вперед или назад движется время, но если рассматривать пространство, содержащее эти молекулы, как единое целое, станет очевидно: молекулярные процессы движутся в одном направлении. Происходит это вследствие работы законов вероятности: статистически все стремится к максимальной энтропии. 
У упорядоченных состояний низкая вероятность и низкая энтропия. 
Для иллюстрации второго начала термодинамики Максвелл предложил мысленный эксперимент с «демоном Максвелла» — микросуществом, находящимся в единственной маленькой дырочке в перегородке, разделяющей сосуд на две части. Демон способен сортировать молекулы: медленные — в одну часть сосуда, быстрые — в другую; таким образом, одна часть сосуда становится горячее, а другая холоднее. Демон пренебрегает вероятностями — но чтобы совершить эту работу, ему нужна информация и энергия (а также память). 
Позже Лео Силард доказал, что никакой вариант подобного демона работать не будет. И дело тут, в том числе, в «небесплатности» информации. Каждый раз выбор между двумя частицами стоит 1 бит информации — а память принципиально не бесконечна.
Мы, как и все живые организмы, противостоим энтропии — создаем структуры и схемы, нарушаем тепловое равновесие, умудряемся оставаться не вполне стабильными.
«Когда мы называем кусок материи живым? Когда он продолжает делать что-то — двигаться, обмениваться веществами с окружающей средой и т. п. — в течение гораздо более длительного периода времени, чем мы бы ожидали от неодушевленного куска материи в схожих обстоятельствах... Организму удается освободить себя от всей энтропии, которую он не может не производить, пока жив».
И к живым существам, и к информации невозможно применить обычные способы подсчета энтропии. Люди сами преобразуют отрицательную энтропию в информацию.
Слово «ген» было придумано датским ботаником Вильгельмом Йохансоном в 1910 году (ранее такие гипотетические частицы назывались «пластикулами»). 
Эрвин Шредингер выдвинул теорию, согласно которой гены для компактной записи большого количества информации должны использовать код наподобие морзянки. Вскоре радиолог Генри Кастлер предположил, что единицами информации там работают аминокислоты, а его коллега Сидней Данкофф — что хромосомная нить есть линейная лента с закодированной информацией. Далее Кастлер пришел к идее о «каталоге генов» — геноме. А в 1953 году Джеймс Уотсон и Фрэнсис Крик и в самом деле обнаружили ген — в нуклеиновой кислоте. Видеть эти молекулы они еще не могли, ��о их следы обнаруживались благодаря дифракции рентгеновских лучей. Каждый нуклеотид содержал одно из четырех базовых оснований — они и были единицами кода, позволяющими создать множество комбинаций.
К решению проблемы «кода жизни» подключились самые разные ученые: физики Георгий Гамов и Ричард Фейнман, создатель водородной бомбы Эдвард Теллер, математик Николас Метрополис и другие. Проблема состояла не только в хранении, но и в передаче наследственной информации, ведь: 
—   ДНК сохраняет информацию (притом число нуклеотидов превышает 1 миллиард, и вся информация должна быть сохранена максимально точно);
—   ДНК посылает информацию вовне, чтобы ее можно было использовать при создании нового организма; при этом данные одномерной нити должны расположиться в трех измерениях.
То есть ДНК не просто воспроизводит себя, но и запускает принципиально новое производство.
Код долго не могли расшифровать (и даже подступиться к расшифровке) из-за — как выяснилось позже — изрядной избыточности: она дает устойчивость к ошибкам. Тем не менее ошибки регулярно случаются — такие «опечатки» в ДНК приводят к мутациям.
«Записи» в молекулах-репликаторах не должны быть совершенно безошибочными: «опечатки» нужны для эволюции. 
Репликаторы, судя по всему, появились не только до возникновения ДНК, но даже до возникновения белков (то ли в отложениях глины, то ли в «первичном бульоне»). Судьба этих макромолекул оказалась различна, и часть из них научилась, используя энергию фотонов, катализировать формирование более крупных и информационно богатых молекул. В дальнейшем вокруг начала строиться и белковая оболочка. 
Зоолог Ричард Докинз предположил, что единица естественного отбора — ген, а не организм. Не мы пользуемся генами — мы лишь машины для выживания, транспорта и сохранения генов. Наше тело представляет собой «колонию» генов; причем не только человеческих — мы являемся еще и носителями экосистемы микроскопических организмов, в первую очередь бактерий. 
Гены не умеют предвидеть, у них нет намерений или знаний — но они могут обеспечить свое выживание, совершенствуя организмы сообразно условиям окружающей среды.
Влияние отдельного гена зависит от его взаимодействия с «колонией», от влияния окружающей среды и от случайности. Многие качества зависят не от одного гена, а от их набора. 
11. В мемофонд
Идеи обладают некоторыми свойствами организмов — они могут развиваться (и развитие это идет согласно законам естественного отбора), они склонны сохранять структуру и размножаться, они могут сливаться, рекомбинировать или сегрегировать отдельные свои компоненты. Они обладают заразностью — причем для некоторых из них (вроде религиозных идей) этот параметр существенно выше, чем для других. Они порождают подобных себе, помогают друг другу развиваться, взаимодействуют друг с другом и с внешним окружением.
Докинз полагает, что в случае с идеями мы также имеем дело с появлением репликаторов; роль «первичного бульона» в этом случае взяла на себя культура. Вектором передачи служит язык, пищей — мозг. Докинз же предложил и имя для этого нового первичного репликатора — мем.
К мемам относятся идеи, мелодии, крылатые фразы, легенды, мода и т. п. 
«Мемы распространяются... переходя из мозга в мозг с помощью процесса, который в широком смысле слова можно назвать имитацией. Они конкурируют друг с другом за ограниченные ресурсы — время мозга или ширину канала. Но самое главное — они конкурируют за внимание».
Ричард Докинз
В древности существование мемов было недолгим, с изобретением и развитием письменности они начали становиться все долговечнее и заразнее. Мемы копируются людьми — и мемы копируют сами себя.
Мемы могут влиять на окружающий мир, порой достаточно мощно (как, например, религиозные мемы), изменяя также условия, необходимые для своего выживания.
Технически мемы можно рассматривать как паразитов на человеческом мозге — механизмы распространения их именно таковы. Другой правомерный вариант — рассматривать их как вирусы (не зря появились термины вроде «вирусный текст»).
Определенные мемы существуют даже среди животных — так, шимпанзе и гориллы способны перенимать навыки друг друга, имитируя процессы, птицы учатся друг у друга песням. 
12. Смысл случайности
Не может быть случайностью то, что известно заранее, что определено причиной или организовано в соответствии с планом. В любом процессе случайность представляет собой либо «шум», либо же она порождена глубинной динамикой процесса. 
Интуиция человека не работает ни для распознавания случайности, ни для предсказания ее. Мы неизбежно склоняемся к упорядоченности.
Закономерность и порядок выражают вычислимость, и измерить ее можно, исходя из размера алгоритма; исходя из него же, мы можем измерить и количество информации.
Математик Андрей Колмогоров ввел понятие «сложность объекта» — чем проще объект, тем меньше он несет в себе информации. Максимальной сложности достигает объект, чей алгоритм требует такой же длины в битах, какую содержит и сам объект.
Динамическая система производит информацию, и чем более она непредсказуема — тем больше информации она производит. Однако хаотичный поток может скрывать в себе простой алгоритм.
Клод Шеннон первым продемонстрировал возможности сжатия при наличии неслучайного в сообщении. Из-за естественной визуальной избыточности сжимаемы фотографии и еще более сжимаемо видео, из-за языковой — сжимаемы текстовые сообщения. Нельзя сжать только полностью случайную последовательность.
Для обратной расшифровки важно наличие общего знания у отправителя и адресата. Избавиться от неопределенности помогает заданный алгоритм.
Сами законы науки представляют собой, по сути, сжатие данных.
13. После потопа
Чарльз Бэббидж предполагал, что атмосфера, помимо всего прочего, — гигантская библиотека всех звуков, которые когда-либо прозвучали. Его в этом поддерживал Эдгар Аллан По, считавший, что слово — как импульс, сообщаемый воздуху, — распространяется бесконечно и в итоге влияет на каждую частицу материи. С изобретением Луи Дагером дагерротипии возникла идея и о вечном хранении всех изображений. 
Самой гигантской библиотекой из практически доступных нам стала «Википедия». «Вики» как идея — вопреки первоначальным намерениям ее создателя, Джимми Уэлса — создала себя сама. Ее неофициальным лозунгом стало: «Вики» сделана не из бумаги» — а биты бесплатны, так что нет ограничений ни на длину, ни на количество статей. 
«Википедия» выдает зашедшему на нее версию истины, существующую на данный момент. Как и воспринимаемая нами истина, «Вики» меняется все время.
Все, связанное с информацией, растет экспоненциально. Это верно и для меры информации (бит — байт — килобайт — мегабайт — гигабайт — терабайт — петабайт — экзабайт — зетабайт — йотабайт...). 
В начале 1960-х годов люди начали беспокоиться, что новые технологии принесут не только добро; они приведут к тому, что люди станут меньше знать, будут больше забывать (передавая эту функцию устройствам) и ухудшится человеческая коммуникация.
Элизабет Эйзенстайн придерживалась другого мнения: самая большая проблема современности — это информационная перегрузка. 
Нельзя сказать, что это состояние до того было незнакомо человечеству: на это жаловался еще в 1621 году Роберт Бертон (собравший на тот момент одну из самых больших библиотек в мире).
С валом информации надо как-то справляться. Стратегии сводятся к следующему:
—   использование фильтров;
—   использование целевого поиска.
Когда информация дешевеет — дорожает внимание.
Заключение
С древнейших времен люди работали с информацией: когда создавали легенды и исторические хроники, когда пели колыбельные и любовные песни, когда передавали известия о приближении врагов или о выигранном сражении, когда учили детей и распоряжались, как обойтись с имуществом после смерти. 
Однако по мере того, как усложнялся мир, требования все возрастали. Стало необходимо, чтобы приобретенные знания о мире были зафиксированы — появилась письменность. Раз информации становится все больше, ее надо структурировать — и были созданы словари и алфавитная каталогизация. Коммуникация на расстоянии должна быть быстрой, не искажаемой и надежно защищенной от посторонних глаз и ушей — и вот к нашим услугам телефон, интернет и сложнейшие техники шифрования...
Мы познаем самих себя — от генных структур до глубин психики. Мы познаем Вселенную. Информации вокруг все больше, прогресс движется все быстрее. Это нередко озадачивает, утомляет, а порой может и пугать. Но ведь мы и сами — во многом порождение информации. Мы приспособимся!