Arcticles matter: почему a и the решают, что делает LLM

Ты можешь свободно говорить по-английски.
Ты можешь писать статьи, код, документацию.

Но вот неприятный вопрос:

достаточно ли хорош твой английский, чтобы языковая модель поняла тебя так, как ты задумал?

a / an / the - «мелочь», которая ломает смысл

В человеческой грамматике всё ясно:

a / an - ввод новой сущности
the - ссылка на уже известную, определённую

Это называется definiteness - базовое понятие дискурса.

А теперь плохая новость:

Языковые модели не знают правил грамматики.
Они знают вероятности.

И всё же - артикли для них критически важны.

Что реально происходит внутри языковой модели

Современные LLM (BERT, GPT и др.):

не имеют символов «известно / неизвестно»;
не отслеживают сущности логически;
но обучены на корпусах, где the почти всегда указывает на уже введённый объект.

Исследования probing-типа показывают, что:

скрытые представления модели кодируют информацию о том, встречалась ли сущность раньше;
the статистически «привязывает» существительное к предыдущему контексту;
a чаще интерпретируется как новая абстракция, даже без явного объяснения.

Hewitt & Manning, A Structural Probe for Finding Syntax in Word Representations

We find that syntactic trees are implicitly embedded in contextual word representations and can be recovered with a simple linear transformation.

Это одна из ключевых работ, которая впервые показала: внутри нейросетевых языковых моделей уже «спрятана» грамматика - даже если её туда явно не закладывали.

Идея простыми словами

Авторы взяли BERT и спросили:

«Если модель не знает правил синтаксиса,
можем ли мы всё равно достать из неё информацию о структуре предложения?»

Оказалось — да.

Они придумали метод structural probing:

берём скрытые векторы слов из модели;
ищем линейное преобразование, при котором:

расстояния между словами соответствуют синтаксическому дереву.

📌 Результат:
Внутренние представления модели кодируют синтаксические отношения
(кто к чему относится, что определяет что).

Почему это важно для a / the

Потому что артикли - это детерминаторы, часть синтаксической структуры.

Это исследование показало:

модель не просто угадывает слова;
она выучивает структурные зависимости.

То есть the model и a model для неё — разные структурные сигналы, а не просто частотные токены.

Tenney et al., What Do You Learn From Context? Probing for Linguistic Knowledge in Contextual Representations

Contextual representations capture a rich hierarchy of linguistic information, with lower layers encoding local syntax and higher layers encoding more abstract, contextual properties.

Работа про то, какие лингвистические знания модель усваивает и где именно внутри себя.

Идея простыми словами

Авторы задали вопрос:

«Когда модель читает предложение,
что она знает на каждом уровне представлений?»

Они проверяли:

морфологию (части речи),
синтаксис,
семантику,
дискурсивные свойства (вроде уже упомянутых сущностей).

И выяснили:

нижние слои → форма слова;
средние → синтаксис;
верхние → контекст и дискурс.

Ключевой вывод:
Модель учится использовать контекст, чтобы:

понимать, вводится ли новая сущность;
или продолжается разговор о старой.

Почему твой промпт звучит нормально для человека - и плохо для ИИ

Пример:

Explain impact of model on system

Для человека:
- «Ну, понятно, какой-то моделью на какую-то систему».

Для модели:

Which model?
Which system?
Это абстракция или конкретный объект?

Теперь сравни:

Explain impact of the model on the system

Модель почти гарантированно:

интерпретирует the model как текущую или обсуждаемую ранее;
сужает пространство ответов;
снижает вероятность галлюцинаций.

Это не стиль.
Это управление вероятностным выводом.

Представим, что вы общаетесь с DevOps

Девопс понимает только конкретные объекты.
Если вы говорите слишком абстрактно - он задаёт уточняющие вопросы
Сообщение девопсу / запрос к модели:

Deploy service to cluster

Тут и человек и модель вероятнее ответит вам.

Модель / девопс теряет контекст:

Какой сервис? Новый или уже обсуждался?
Какой кластер - есть ли «кластер по умолчанию»?

Which cluster should I deploy to? Is this a new service or existing?

И в таком сценарии логично что я хочу задеплоить сервис который мы последний раз обсуждали в пределах чата / контекстного окна и кластер который мы считаем по умолчанию ( модель не знает что у нас соответствует кластеру по умолчанию, если явно его не указать ):

Deploy the service to the cluster

Контекст ясен, уточнения не нужны, модель понимает конкретные объекты.

Неочевидный факт из исследований

В сравнительных анализах текстов:

языковые модели переиспользуют the чаще, чем люди;
особенно в объяснительных и аналитических текстах;
потому что большая часть обучающих данных — это тексты, где контекст уже «зафиксирован».

Ирония в том, что:

ИИ ожидает более аккуратной дефинитности, чем живой собеседник.

Почему это напрямую связано с галлюцинациями

Когда ты:

не вводишь сущность через a,
не закрепляешь её через the,
прыгаешь между формами,

модель:

теряет якоря;
начинает «достраивать» контекст;
галлюцинирует не потому, что «глупая», а потому что ей не дали сигналов.

Галлюцинации LLM возникают не из-за “незнания фактов”,
а из-за того, как модель распределяет вероятности в условиях слабого или повреждённого контекста.

Жёсткий вывод

Хороший английский для ИИ - это не fluent English.

Это:

явное введение объектов;
последовательное использование артиклей;
дисциплина дискурса.

Если ты не контролируешь a / the -
ты не контролируешь, что именно понимает модель.

Финальный вопрос (неудобный)

Мы учились говорить по-английски для людей.
Но готовы ли мы признать, что для ИИ нужен другой английский -
более формальный, более точный, более «грамматически занудный»?

Возможно, твой английский идеален для диалога.
Но для работы с ИИ - он пока слабоват.