Как Лингвисты Раскрывают Значение Слов Шекспира С Помощью Чисел
Сегодня было бы странно называть цветок словом «ублюдок» — зачем применять к цветку термин, обозначающий личное оскорбление? Но во времена Шекспира «ублюдок» был техническим термином, обозначавшим определённые растения.
Точно так же сегодня было бы странно ассоциировать слово «плохой» с успехом и говорить о «плохом успехе» Но тогда в этом не было ничего необычного, ведь успех означал результат, который мог быть как хорошим, так и плохим.
Корпусная лингвистика — это раздел лингвистики, который использует компьютеры для изучения употребления слов в огромных массивах текстов. С помощью этого метода можно выявить нюансы, которые могут остаться незамеченными лингвистами, работающими вручную, или крупные закономерности, которые могут остаться незамеченными даже за всю жизнь изучения языка. Ключевую роль играют цифры, подсчёт слов и отслеживание их употребления.
По моему опыту участия в конференциях и тому подобных мероприятиях, в мире литературоведения не все одинаково хорошо воспринимают разговоры о цифрах. Иногда цифры воспринимаются как нечто упрощающее, неуместное при обсуждении творческих работ или доступное только специалистам.
Тем не менее для описания любого паттерна нужны числа. В первом абзаце выше я использовал слова «нормальный», «нечётный» и «необычный» для мягкого описания частоты — количества случаев (подумайте также о таких словах, как «уникальный», «редкий», «распространённый»).
Даже в разговоре об «ассоциациях» используются числа. Часто ассоциации возникают из-за необычно большого количества совпадений между двумя или более вещами. А числа помогают нам видеть вещи такими, какие они есть.
Для анализа использованы компьютеры, примерно 20 000 слов, взятых из корпуса (собрания письменных текстов) пьес Шекспира объёмом в миллион слов. В результате появился новый тип словаря.
Люди и раньше составляли шекспировские словари, но этот — первый, в котором используется весь арсенал корпусных методов, и первый сравнительный. Он не только анализирует слова в пьесах Шекспира, но и сравнивает их с соответствующим корпусом из миллиона слов в пьесах раннего Нового времени, а также с огромным корпусом из 320 миллионов слов в различных произведениях того периода.
Конечно, в Англии раннего Нового времени слова употреблялись не только в произведениях Шекспира. «Бастард» — это, как правило, гибридное растение, о котором говорится в технических текстах по садоводству.
Иногда это слово использовалось для личных оскорблений, как, например, в «Короле Лире», где Эдмунда называют «ублюдком» Но это не общее оскорбительное выражение, не говоря уже о шутках, которые можно услышать сегодня Это прямое указание на то, что он незаконнорожденный, генетический гибрид, сомнительный по своей сути.
Сейчас слово «плохой» не ассоциируется со словом «успех», но 400 лет назад это было так же, как и с другими негативными словами, включая «катастрофический», «неудачный», «болезненный», «несчастный» и «невезучий».
Мы можем выявить ассоциации, связанные со словом, изучив его сочетания, то есть слова, с которыми оно обычно употребляется (подобно тому, как мы судим о людях отчасти на основании того, с кем они общаются). Таким образом, мы видим, что значение слова «успех» — «результат», а результат, учитывая его сочетания, может быть хорошим или плохим.
Очень часто встречающиеся слова
Мы можем использовать интуицию, чтобы угадывать некоторые закономерности в употреблении слов. Неудивительно, что в раннем новоанглийском языке слово «порочный» очень часто встречалось в религиозных текстах того времени. Но, что менее очевидно, то же самое можно сказать и о слове «сами», которое ассоциировалось с проповедями и пьесами, в которых часто высказывались суждения о людях на земле.
Часто употребляемые слова, которые так часто исключаются из исторических словарей и справочников, часто бывают короткими и кажутся незначительными. С ними возникает проблема «за деревьями не видно леса».
Тем не менее корпусные методы позволяют выявить интересные закономерности. Оказывается, предлог «by» часто используется в религиозном контексте: для того, чтобы подчеркнуть искренность высказывания, ссылаясь на божественное (например, «клянусь Богом»).
Цифры также могут рассказать о том, что происходит в произведениях Шекспира. Выяснилось, что такие часто употребляемые слова, как «alas» или «ah», в основном используются женскими персонажами Шекспира, что свидетельствует о том, что именно они выполняют эмоциональную работу по выражению скорби в пьесах, особенно в исторических.
А что насчёт редких слов? Слова, которые встречаются у Шекспира только один раз, — так называемые hapax legomena — представляют интерес. Единственный случай употребления слова «боль в костях» в «Троиле и Крессиде» отсылает к ужасающим мучениям, которые причинял сифилис, к которому оно относится. Напротив, «целование ушей» в «Короле Лире» — это более приятная и креативная шекспировская метафора для обозначения шёпота (интересно, что другие писатели использовали её для обозначения лести).
Ещё одна группа интересных редких слов связана со словами, которые, судя по всему, впервые появились у Шекспира. Корпусные методы позволили нам разобраться в хитросплетениях орфографических вариаций. До стандартизации орфографии при поиске слова «sweet», например, можно было пропустить варианты «sweete», «swete» или «svveet».
Таким образом, мы можем с большей уверенностью утверждать, что слово, написанное тем или иным автором, действительно является самым ранним примером его употребления. К первым употреблениям Шекспира относится довольно скучное слово «безветренный» («Антоний и Клеопатра»), которое, вероятно, не было придумано Шекспиром, а просто впервые зафиксировано в его тексте. Но есть и более креативные слова: «пронзающий слух» («Отелло») и явно современное «самоповреждение» («Комедия ошибок» и «Ричард II»).
Почему эти достижения в области исторической корпусной лингвистики появились именно сейчас? До недавнего времени не существовало технологий, которые позволили бы сделать такие выводы.
Программы для работы с вариативностью правописания (например, Vard) или для сложного анализа обширных коллекций электронных текстов (например, CQPweb), не говоря уже об огромном количестве машиночитаемых данных на языках раннего Нового времени (например, EEBO-TCP), получили широкое распространение только в последние 10 лет или около того. Таким образом, мы стоим на пороге значительного улучшения нашего понимания и оценки творчества таких великих писателей, как Шекспир.