Оценка моральных убеждений, закодированных в LLMS
Привет, друзья! Поговорим сегодня о чем-то очень увлекательном: ведь наши умные железные друзья – искусственные интеллекты – тоже пытаются понять, что такое хорошо и что такое плохо. И как вы думаете, легко ли это им даётся?
Что такое мнения у машин? 🤖💭
Давайте сначала разберемся: а кто вообще может иметь мнение? Наверное, каждый подумает про людей. Но в наш разговор уже заходят и большие языковые модели (LLM), которые представляют собой невероятно сложные программки способные обрабатывать язык почти как человеческий мозг.
И знаете что интересно? Эти модели можно опросить по-разному. Спросите простой вопрос типа "Светофор красный – стоять надо?", и большинство моделек скажут: "Ага!" А если загадка посложнее? Например, "Ладно ли лукавить ради благих целей?" Ого! Тут уже начинается философский батл AI-ов.
Как мы проводили свой эксперимент 🔎📊
Так вот мы решили пристально посмотреть на это всё через призму специальной системы опросников для языковых моделей. Сделали мы это так:
Что мы получили? В основном все AI выбрали ответы аналогично общепринятой норме для однозначных ситуаций (правда это?). А со сложными... да тут начинается самое интересное! Больше неопределенности, другие точки зрения... А закрыты программки ещё и склонны как будто по шаблончику отвечать.
Что делает этих ребят такими особенными?
В процессе всего этого заметили: запросик подай правильный – ответ получай нужный! Также выяснилось, что размер LLM напрямую связан со способностью следовать указаниям пользователя без обшибочек!
Интересна конвергентность (эдакая способность коммерческого ПО приходить к единому мировоззрению). Маленькая подсказочка для создателей AI - чтобы делать программки предсказуемее без потери функционала.
И всё-таки... 🤔
Думаем теперь: а может ли это объединение быть полезным за пределами эксперимента? Ведь если бы коммерческое ПО объединилось... Ух ты! Мир болтунов бы расцвёл новыми красками!
Нужно только помнить про ограничения. Каждый из нас несколько видит свой грузик — неизбежно он скажется на базах данных типа того же MoralChoice survey.
Теперь перед нами стоят новые задачки – расшифровывать результатом и кореникцировать програмульки!
Напоминаю ссылочку для особо любознательных 👉 Источник
А вы как считаете — станут ли наши электрические товарищи полноправными членами этического клуба 'Что Должен Делать Разум'? Делимся мыслишками 😊✨