Как легко установить LLM модель на свой Macbook pro M1

Не так давно мне стало интересно попробовать поэкспериментировать с локальными LLM моделями. Было предвзятое мнение, что нейронка будет нести ахинею и не справляться с простейшими задачами. Ибо как так у ребят из кремниевой долины там мощности нихеровые, а я тут на компуктере домашнем с жалкими 8gb ram.

Но после установки и тестов Китайской модели Qwen3 4b, я остался очень доволен. В целом ответы выдает неплохие что в обыном режиме что в режиме Reasoning.
Да, есть и не корректные ответы. Например на вопрос где находится Калмыкия, мне нейронка ответила, что на Северо-Западе РФ, что естественно не так.

В дальнейшем буду пробовать использовать эту самую модель для разворачивания полноценного ИИ ассистента с подключаемыми инструментами (RAG, Web Search и прочие интеграции)

Что значит «4B», «8B» и другие «B» в названии моделей

4B - 4 миллиарда параметров

8B - 8 миллиардов параметров

Какое железо, что потянет

Тут какую модель может потянуть Ваше устройство.

Как установить локальную LLM на свое устройство

Пошаговая инструкция

1. Ставим Ollama

Зайдите на страницу загрузки Ollama и нажмите Download for macOS.
https://ollama.com/download
Распакуйте архив и перетащите Ollama.app в «Программы».
Откройте приложение один раз — диалог-мастер установит и CLI

Требование: macOS 11 Big Sur +; для модели Qwen3 нужна Ollama ≥ 0.6.6, поэтому просто обновитесь до свежей версии (на сегодня 0.9.0).ollama.com

Проверьте:

ollama --version   # должно вывести ≥ 0.6.6 или новее

2. Запускаем сервер (один из способов)

ollama serve

После запуска сервер слушает http://localhost:11434/

3. Качаем и запускаем модель Qwen 3 (4B)

Скачивание без запуска
ollama pull qwen3:4b

# или всё одной командой (скачает и сразу откроет REPL)
ollama run qwen3:4b

Первый запуск загрузит ≈ 2,6 ГБ; ждём, пока статус дойдёт до 100 %

4. Проверяем

После загрузки увидите приглашение >>>.
Пишите вопросы — модель поддерживает русский и ещё 100+ языков.

5. Полезные команды

ollama list        # какие модели уже есть  
ollama rm qwen3:4b # удалить, если нужно освободить место  
ollama help        # краткая справка

6. Что важно знать

Память: Qwen 3 4B работает на M1 с 8 ГБ RAM, но лучше закрыть тяжёлые приложения.
Диск: под модель нужно ~3 ГБ свободного места + журналы.
Обновления: ollama pull qwen3:4b --update скачает свежий релиз, когда он появится.

Поставили, как теперь пользоваться?

Качаем расширение в браузер:
https://chromewebstore.google.com/detail/page-assist-a-web-ui-for/jfgfiigpkhlkbnfnbobbkinehhfdhndo

Учтите, что если на устройстве открыто миллион вкладок или пару тяжелых программ, то компьютер уйдет в небытие на какое-то время, тут лучше дождаться ответа и закрыть все лишнее)

По скорости это конечно же будет сильно медленнее чем ChatGPT, Claude да и все прочие онлайн модели.

Пишите в комментах в тг, получилось ли у вас и какие впечатления от использования.