January 27

Arcticles matter: почему a и the решают, что делает LLM

Ты можешь свободно говорить по-английски.
Ты можешь писать статьи, код, документацию.

Но вот неприятный вопрос:

достаточно ли хорош твой английский, чтобы языковая модель поняла тебя так, как ты задумал?


a / an / the - «мелочь», которая ломает смысл

В человеческой грамматике всё ясно:

  • a / an - ввод новой сущности
  • the - ссылка на уже известную, определённую

Это называется definiteness - базовое понятие дискурса.

А теперь плохая новость:

Языковые модели не знают правил грамматики.
Они знают вероятности.

И всё же - артикли для них критически важны.


Что реально происходит внутри языковой модели

Современные LLM (BERT, GPT и др.):

  • не имеют символов «известно / неизвестно»;
  • не отслеживают сущности логически;
  • но обучены на корпусах, где the почти всегда указывает на уже введённый объект.

Исследования probing-типа показывают, что:

  • скрытые представления модели кодируют информацию о том, встречалась ли сущность раньше;
  • the статистически «привязывает» существительное к предыдущему контексту;
  • a чаще интерпретируется как новая абстракция, даже без явного объяснения.

Hewitt & Manning, A Structural Probe for Finding Syntax in Word Representations

We find that syntactic trees are implicitly embedded in contextual word representations and can be recovered with a simple linear transformation.

Это одна из ключевых работ, которая впервые показала: внутри нейросетевых языковых моделей уже «спрятана» грамматика - даже если её туда явно не закладывали.

Идея простыми словами

Авторы взяли BERT и спросили:

«Если модель не знает правил синтаксиса,
можем ли мы всё равно достать из неё информацию о структуре предложения?»

Оказалось — да.

Они придумали метод structural probing:

  • берём скрытые векторы слов из модели;
  • ищем линейное преобразование, при котором:
    • расстояния между словами соответствуют синтаксическому дереву.

📌 Результат:
Внутренние представления модели кодируют синтаксические отношения
(кто к чему относится, что определяет что).

Почему это важно для a / the

Потому что артикли - это детерминаторы, часть синтаксической структуры.

Это исследование показало:

  • модель не просто угадывает слова;
  • она выучивает структурные зависимости.

То есть the model и a model для неё — разные структурные сигналы, а не просто частотные токены.

Tenney et al., What Do You Learn From Context? Probing for Linguistic Knowledge in Contextual Representations

Contextual representations capture a rich hierarchy of linguistic information, with lower layers encoding local syntax and higher layers encoding more abstract, contextual properties.

Работа про то, какие лингвистические знания модель усваивает и где именно внутри себя.

Идея простыми словами

Авторы задали вопрос:

«Когда модель читает предложение,
что она знает на каждом уровне представлений?»

Они проверяли:

  • морфологию (части речи),
  • синтаксис,
  • семантику,
  • дискурсивные свойства (вроде уже упомянутых сущностей).

И выяснили:

  • нижние слои → форма слова;
  • средние → синтаксис;
  • верхние → контекст и дискурс.

Ключевой вывод:
Модель учится использовать контекст, чтобы:

  • понимать, вводится ли новая сущность;
  • или продолжается разговор о старой.

Почему твой промпт звучит нормально для человека - и плохо для ИИ

Пример:

Explain impact of model on system

Для человека:
- «Ну, понятно, какой-то моделью на какую-то систему».

Для модели:

  • Which model?
  • Which system?
  • Это абстракция или конкретный объект?

Теперь сравни:

Explain impact of the model on the system

Модель почти гарантированно:

  • интерпретирует the model как текущую или обсуждаемую ранее;
  • сужает пространство ответов;
  • снижает вероятность галлюцинаций.

Это не стиль.
Это управление вероятностным выводом.

Представим, что вы общаетесь с DevOps

Девопс понимает только конкретные объекты.
Если вы говорите слишком абстрактно - он задаёт уточняющие вопросы
Сообщение девопсу / запрос к модели:
Deploy service to cluster

Тут и человек и модель вероятнее ответит вам.

Модель / девопс теряет контекст:

  • Какой сервис? Новый или уже обсуждался?
  • Какой кластер - есть ли «кластер по умолчанию»?
Which cluster should I deploy to? Is this a new service or existing?

И в таком сценарии логично что я хочу задеплоить сервис который мы последний раз обсуждали в пределах чата / контекстного окна и кластер который мы считаем по умолчанию ( модель не знает что у нас соответствует кластеру по умолчанию, если явно его не указать ):

Deploy the service to the cluster

Контекст ясен, уточнения не нужны, модель понимает конкретные объекты.


Неочевидный факт из исследований

В сравнительных анализах текстов:

  • языковые модели переиспользуют the чаще, чем люди;
  • особенно в объяснительных и аналитических текстах;
  • потому что большая часть обучающих данных — это тексты, где контекст уже «зафиксирован».

Ирония в том, что:

ИИ ожидает более аккуратной дефинитности, чем живой собеседник.

Почему это напрямую связано с галлюцинациями

Когда ты:

  • не вводишь сущность через a,
  • не закрепляешь её через the,
  • прыгаешь между формами,

модель:

  • теряет якоря;
  • начинает «достраивать» контекст;
  • галлюцинирует не потому, что «глупая», а потому что ей не дали сигналов.
Галлюцинации LLM возникают не из-за “незнания фактов”,
а из-за того, как модель распределяет вероятности в условиях слабого или повреждённого контекста.

Жёсткий вывод

Хороший английский для ИИ - это не fluent English.

Это:

  • явное введение объектов;
  • последовательное использование артиклей;
  • дисциплина дискурса.

Если ты не контролируешь a / the -
ты не контролируешь, что именно понимает модель.


Финальный вопрос (неудобный)

Мы учились говорить по-английски для людей.
Но готовы ли мы признать, что для ИИ нужен другой английский -
более формальный, более точный, более «грамматически занудный»?

Возможно, твой английский идеален для диалога.
Но для работы с ИИ - он пока слабоват.