Научная работа
/// Это можно не смотреть
План:
Базовая статья. Пересмотреть конспект (возможно придётся прочитать заново). Разобраться с последней главой про PMI. Где может запрятаться неявная регуляризация?
- При факторизации. Полистать статьи на эту тему. Обратить особое внимание на эту статью.
- Из-за стохастического градиентного спуска. Есть совсем свежая статья на эту тему. Прочитать-законспектировать-накопить вопросы.
Судя по всему дело действительно в стохастическом градиентном спуске, который даёт регуляризацию. Например, для линейных моделей он ищет решение, которое ближе всего (в смысле Евклидового расстояния) к начальной инициализации весов).
В первую очередь поанализирую, что значат отрицательные собственные значения для матрицы из попарных PPMI. Интересно, что Зобнин делал эксперименты для разных языков, уреза до разных размерностей и всегда процент отрицательных с.з. был примерно на одном и том же уровне: 10-20%.
Пока в приоритетных планах взять корпус облегчённой википедии, подчистить (возможно это уже есть тут), построить матрицу PPMI и попытаться глазами посмотреть чему соответствуют отрицательные собств знач. Это можно постараться сделать до следующего четверга.
Вторым по плану поковыряться с матрицей S.
Последним (вряд ли дойду) посмотреть код оригинального word2vec и изменить задачу так, чтобы вместо матриц W и C мы искали матрицы W и D такие, что удовлетворяют свойствам в правом верхнем углу листка.