Arcticles matter: почему a и the решают, что делает LLM
Ты можешь свободно говорить по-английски.
Ты можешь писать статьи, код, документацию.
достаточно ли хорош твой английский, чтобы языковая модель поняла тебя так, как ты задумал?
a / an / the - «мелочь», которая ломает смысл
В человеческой грамматике всё ясно:
Это называется definiteness - базовое понятие дискурса.
Языковые модели не знают правил грамматики.
Они знают вероятности.
И всё же - артикли для них критически важны.
Что реально происходит внутри языковой модели
Современные LLM (BERT, GPT и др.):
- не имеют символов «известно / неизвестно»;
- не отслеживают сущности логически;
- но обучены на корпусах, где the почти всегда указывает на уже введённый объект.
Исследования probing-типа показывают, что:
- скрытые представления модели кодируют информацию о том, встречалась ли сущность раньше;
- the статистически «привязывает» существительное к предыдущему контексту;
- a чаще интерпретируется как новая абстракция, даже без явного объяснения.
Hewitt & Manning, A Structural Probe for Finding Syntax in Word Representations
We find that syntactic trees are implicitly embedded in contextual word representations and can be recovered with a simple linear transformation.
Это одна из ключевых работ, которая впервые показала: внутри нейросетевых языковых моделей уже «спрятана» грамматика - даже если её туда явно не закладывали.
Идея простыми словами
«Если модель не знает правил синтаксиса,
можем ли мы всё равно достать из неё информацию о структуре предложения?»
Они придумали метод structural probing:
📌 Результат:
Внутренние представления модели кодируют синтаксические отношения
(кто к чему относится, что определяет что).
Почему это важно для a / the
Потому что артикли - это детерминаторы, часть синтаксической структуры.
То есть the model и a model для неё — разные структурные сигналы, а не просто частотные токены.
Tenney et al., What Do You Learn From Context? Probing for Linguistic Knowledge in Contextual Representations
Contextual representations capture a rich hierarchy of linguistic information, with lower layers encoding local syntax and higher layers encoding more abstract, contextual properties.
Работа про то, какие лингвистические знания модель усваивает и где именно внутри себя.
Идея простыми словами
«Когда модель читает предложение,
что она знает на каждом уровне представлений?»
Почему твой промпт звучит нормально для человека - и плохо для ИИ
Explain impact of model on system
Для человека:
- «Ну, понятно, какой-то моделью на какую-то систему».
Explain impact of the model on the system
- интерпретирует the model как текущую или обсуждаемую ранее;
- сужает пространство ответов;
- снижает вероятность галлюцинаций.
Это не стиль.
Это управление вероятностным выводом.
Представим, что вы общаетесь с DevOps
Девопс понимает только конкретные объекты.
Если вы говорите слишком абстрактно - он задаёт уточняющие вопросы
Сообщение девопсу / запрос к модели:
Deploy service to cluster
Тут и человек и модель вероятнее ответит вам.
Модель / девопс теряет контекст:
Which cluster should I deploy to? Is this a new service or existing?
И в таком сценарии логично что я хочу задеплоить сервис который мы последний раз обсуждали в пределах чата / контекстного окна и кластер который мы считаем по умолчанию ( модель не знает что у нас соответствует кластеру по умолчанию, если явно его не указать ):
Deploy the service to the cluster
Контекст ясен, уточнения не нужны, модель понимает конкретные объекты.
Неочевидный факт из исследований
В сравнительных анализах текстов:
- языковые модели переиспользуют the чаще, чем люди;
- особенно в объяснительных и аналитических текстах;
- потому что большая часть обучающих данных — это тексты, где контекст уже «зафиксирован».
ИИ ожидает более аккуратной дефинитности, чем живой собеседник.
Почему это напрямую связано с галлюцинациями
- теряет якоря;
- начинает «достраивать» контекст;
- галлюцинирует не потому, что «глупая», а потому что ей не дали сигналов.
Галлюцинации LLM возникают не из-за “незнания фактов”,
а из-за того, как модель распределяет вероятности в условиях слабого или повреждённого контекста.
Жёсткий вывод
Хороший английский для ИИ - это не fluent English.
Если ты не контролируешь a / the -
ты не контролируешь, что именно понимает модель.
Финальный вопрос (неудобный)
Мы учились говорить по-английски для людей.
Но готовы ли мы признать, что для ИИ нужен другой английский -
более формальный, более точный, более «грамматически занудный»?
Возможно, твой английский идеален для диалога.
Но для работы с ИИ - он пока слабоват.