Властелин машин
@dt_analytic
Всё о передовых инструментах исследования и трюках продуктивности, чтобы стать крутым аналитиком и специалистом по машинному обучению на Python.
424 posts
spark

Как настраивать виртуальное окружение для работы со Spark

Интерактивная работа со Spark имеет свои особенности, главная из которых - всегда учитывать, что исполнение кода происходит на нескольких узлах. Одним из следствий этого является необходимость создания одинаковой виртуальной среды на нодах, так как иначе вы не можете гарантировать корректную работу. Это касается не только импортированных модулей, но и версии интерпретатора.

Преобразование к типу даты и времени в Spark SQL

Время есть величайшая иллюзия. Оно есть только внутренняя призма, через которую мы разлагаем бытие и жизнь (А.Ф. Амиель).

Чтение табличных файлов со Spark

Рассмотрим, какие в pyspark имеются основные опции для чтения csv файлов: