June 11, 2025

Как легко установить LLM модель на свой Macbook pro M1


Не так давно мне стало интересно попробовать поэкспериментировать с локальными LLM моделями. Было предвзятое мнение, что нейронка будет нести ахинею и не справляться с простейшими задачами. Ибо как так у ребят из кремниевой долины там мощности нихеровые, а я тут на компуктере домашнем с жалкими 8gb ram.

Но после установки и тестов Китайской модели Qwen3 4b, я остался очень доволен. В целом ответы выдает неплохие что в обыном режиме что в режиме Reasoning.
Да, есть и не корректные ответы. Например на вопрос где находится Калмыкия, мне нейронка ответила, что на Северо-Западе РФ, что естественно не так.

В дальнейшем буду пробовать использовать эту самую модель для разворачивания полноценного ИИ ассистента с подключаемыми инструментами (RAG, Web Search и прочие интеграции)

Что значит «4B», «8B» и другие «B» в названии моделей

4B - 4 миллиарда параметров

8B - 8 миллиардов параметров

Какое железо, что потянет

Тут какую модель может потянуть Ваше устройство.

Как установить локальную LLM на свое устройство

Пошаговая инструкция

1. Ставим Ollama

  1. Зайдите на страницу загрузки Ollama и нажмите Download for macOS.
    https://ollama.com/download
  2. Распакуйте архив и перетащите Ollama.app в «Программы».
  3. Откройте приложение один раз — диалог-мастер установит и CLI
Требование: macOS 11 Big Sur +; для модели Qwen3 нужна Ollama ≥ 0.6.6, поэтому просто обновитесь до свежей версии (на сегодня 0.9.0).ollama.com

Проверьте:

ollama --version   # должно вывести ≥ 0.6.6 или новее

2. Запускаем сервер (один из способов)

ollama serve                   

После запуска сервер слушает http://localhost:11434/

3. Качаем и запускаем модель Qwen 3 (4B)

Скачивание без запуска
ollama pull qwen3:4b

# или всё одной командой (скачает и сразу откроет REPL)
ollama run qwen3:4b

Первый запуск загрузит ≈ 2,6 ГБ; ждём, пока статус дойдёт до 100 %

4. Проверяем

После загрузки увидите приглашение >>>.
Пишите вопросы — модель поддерживает русский и ещё 100+ языков.

5. Полезные команды

ollama list        # какие модели уже есть  
ollama rm qwen3:4b # удалить, если нужно освободить место  
ollama help        # краткая справка

6. Что важно знать

  • Память: Qwen 3 4B работает на M1 с 8 ГБ RAM, но лучше закрыть тяжёлые приложения.
  • Диск: под модель нужно ~3 ГБ свободного места + журналы.
  • Обновления: ollama pull qwen3:4b --update скачает свежий релиз, когда он появится.

Поставили, как теперь пользоваться?

Качаем расширение в браузер:
https://chromewebstore.google.com/detail/page-assist-a-web-ui-for/jfgfiigpkhlkbnfnbobbkinehhfdhndo

Учтите, что если на устройстве открыто миллион вкладок или пару тяжелых программ, то компьютер уйдет в небытие на какое-то время, тут лучше дождаться ответа и закрыть все лишнее)

По скорости это конечно же будет сильно медленнее чем ChatGPT, Claude да и все прочие онлайн модели.

Пишите в комментах в тг, получилось ли у вас и какие впечатления от использования.