Как легко установить LLM модель на свой Macbook pro M1
Не так давно мне стало интересно попробовать поэкспериментировать с локальными LLM моделями. Было предвзятое мнение, что нейронка будет нести ахинею и не справляться с простейшими задачами. Ибо как так у ребят из кремниевой долины там мощности нихеровые, а я тут на компуктере домашнем с жалкими 8gb ram.
Но после установки и тестов Китайской модели Qwen3 4b, я остался очень доволен. В целом ответы выдает неплохие что в обыном режиме что в режиме Reasoning.
Да, есть и не корректные ответы. Например на вопрос где находится Калмыкия, мне нейронка ответила, что на Северо-Западе РФ, что естественно не так.
В дальнейшем буду пробовать использовать эту самую модель для разворачивания полноценного ИИ ассистента с подключаемыми инструментами (RAG, Web Search и прочие интеграции)
Что значит «4B», «8B» и другие «B» в названии моделей
Какое железо, что потянет
Тут какую модель может потянуть Ваше устройство.
Как установить локальную LLM на свое устройство
1. Ставим Ollama
- Зайдите на страницу загрузки Ollama и нажмите Download for macOS.
https://ollama.com/download - Распакуйте архив и перетащите Ollama.app в «Программы».
- Откройте приложение один раз — диалог-мастер установит и CLI
Требование: macOS 11 Big Sur +; для модели Qwen3 нужна Ollama ≥ 0.6.6, поэтому просто обновитесь до свежей версии (на сегодня 0.9.0).ollama.com
ollama --version # должно вывести ≥ 0.6.6 или новее
2. Запускаем сервер (один из способов)
ollama serve
После запуска сервер слушает http://localhost:11434/
3. Качаем и запускаем модель Qwen 3 (4B)
Скачивание без запуска ollama pull qwen3:4b # или всё одной командой (скачает и сразу откроет REPL) ollama run qwen3:4b
Первый запуск загрузит ≈ 2,6 ГБ; ждём, пока статус дойдёт до 100 %
4. Проверяем
После загрузки увидите приглашение >>>.
Пишите вопросы — модель поддерживает русский и ещё 100+ языков.
5. Полезные команды
ollama list # какие модели уже есть ollama rm qwen3:4b # удалить, если нужно освободить место ollama help # краткая справка
6. Что важно знать
- Память: Qwen 3 4B работает на M1 с 8 ГБ RAM, но лучше закрыть тяжёлые приложения.
- Диск: под модель нужно ~3 ГБ свободного места + журналы.
- Обновления:
ollama pull qwen3:4b --updateскачает свежий релиз, когда он появится.
Поставили, как теперь пользоваться?
Качаем расширение в браузер:
https://chromewebstore.google.com/detail/page-assist-a-web-ui-for/jfgfiigpkhlkbnfnbobbkinehhfdhndo
Учтите, что если на устройстве открыто миллион вкладок или пару тяжелых программ, то компьютер уйдет в небытие на какое-то время, тут лучше дождаться ответа и закрыть все лишнее)
По скорости это конечно же будет сильно медленнее чем ChatGPT, Claude да и все прочие онлайн модели.
Пишите в комментах в тг, получилось ли у вас и какие впечатления от использования.