Локальные модели: как запустить ИИ на своём компьютере — без интернета, без подписки, без слежки
Большинство людей работают с ИИ через облако: ChatGPT, Claude, Gemini — запрос уходит на серверы компании, возвращается ответ. Это удобно. Но есть альтернатива, о которой мало говорят за пределами технического сообщества: запустить языковую модель прямо на своём ноутбуке или домашнем компьютере. Без интернета, без подписки и без того, чтобы ваши данные куда-то уходили.
Ещё два года назад локальный запуск мощной языковой модели требовал сервера с несколькими профессиональными GPU за сотни тысяч рублей. Сейчас — достаточно приличного ноутбука. Произошло два события. Первое: Meta выпустила серию моделей Llama под открытой лицензией, за ней последовали Mistral, Qwen, DeepSeek и другие.
Открытый код — значит, любой может запустить у себя. Второе: появились техники квантизации, позволяющие «сжать» модель в 4–8 раз с приемлемой потерей качества. Модель, требовавшая 40 ГБ памяти, теперь работает в 6–8 ГБ.
Ollama — инструмент, который убирает всю техническую сложность запуска локальных моделей. Установка занимает две минуты. После этого в терминале пишете ollama run llama3 — и через несколько минут скачивания перед вами работающий чат с Meta Llama 3 прямо на вашем компьютере. Никаких настроек, никакой конфигурации.
Ollama поддерживает десятки моделей: Llama 3.1 и 3.2 (Meta), Mistral и Mixtral (Mistral AI), Qwen2.5 (Alibaba), Phi-4 (Microsoft), DeepSeek-R1, Gemma (Google), Code Llama для программирования. Модели скачиваются автоматически при первом запуске, хранятся локально.
Для тех, кто предпочитает графический интерфейс: LM Studio — десктопное приложение с приятным UI, поддержкой тех же моделей и встроенным браузером моделей с рейтингами и описаниями. Идеально для старта без командной строки.
Оперативная память — ключевой параметр. Для небольших моделей (7B параметров) достаточно 8 ГБ RAM. Для моделей 13B — 16 ГБ. Для 70B-моделей, сравнимых по качеству с GPT-4o, нужно 40+ ГБ или мощная видеокарта.
Практический ориентир: MacBook с 16 ГБ памяти запускает модели уровня Llama 3.1 8B достаточно быстро для комфортной работы. Apple Silicon (M1/M2/M3) особенно хорош — единая память CPU и GPU позволяет использовать её для инференса эффективно. На Windows/Linux с RTX 3090 (24 ГБ VRAM) можно запускать 34B модели на GPU — это значительно быстрее CPU-инференса.
Конфиденциальность. Корпоративные документы, юридические тексты, медицинские данные, личная переписка — всё это можно обрабатывать локально, не передавая на чужие серверы. Для бизнеса, работающего с чувствительными данными, это не паранойя, а compliance-требование.
Работа офлайн. В самолёте, на даче, в зоне слабого сигнала — локальная модель работает без интернета.
Отсутствие лимитов и цензуры. Облачные модели имеют ограничения на контент и лимиты запросов. Локальная модель обрабатывает столько запросов, сколько выдержит железо, без ограничений по тематике.
Разработка и тестирование. Разработчики тестируют приложения с ИИ локально — быстрее, дешевле, без зависимости от доступности API.
Честно: топовые открытые модели уровня Llama 3.1 70B или DeepSeek-R1 70B — близки к GPT-4o на большинстве задач. Llama 3.1 8B — примерно уровень GPT-3.5, хорошо для большинства повседневных задач. Разрыв с закрытыми моделями значительно сократился за последний год. На задачах типа «напиши письмо», «объясни концепцию», «помоги с кодом» — разница для обычного пользователя минимальна.
Локальные модели пока уступают в самых сложных рассуждениях и работе с очень длинным контекстом. Но для 80% повседневных задач разрыв несущественен.
Локальные модели — не замена облачным, а дополнение. Когда нужно обработать что-то конфиденциальное, работать офлайн или просто избавиться от подписки — локальная модель на Ollama запускается за минуты. Это больше не территория только для разработчиков. Это доступно любому, у кого есть приличный ноутбук и час на освоение.