Python Zen

Спроба накрутити перегляди на YouTube з допомогою Python 1/4

2020-07-31T08:39:02.877Z

Цілі

Реалізувати скрипт, який буде змінювати IP адреси (proxy).
Оглянути доступні інструменти для цієї задачі.
Організувати безперебійний перехід на сторінку з відео.
Дослідити як зараховується перегляд для відео на YouTube.
Зробити мінімум 350-400 переглядів на обраному відео.

Proxy та їх використання у запитах

Проксі-сервер — сервер, який виступає посередником при виконанні запитів до певного ресурсу, з англійської proxy перекладається як "представник" чи "уповноважений". Не будемо глибоко вникати в суть цієї технології, головне, що варто знати, ми хочемо приховувати справжню IP-адресу для отримання потрібної інформації.

Принцип роботи проксі на простій схемі

Є багато ресурсів, де можна отримати список безкоштовних проксі-серверів, аби посилати свої запити через них.

Приклад списку проксі з http://free-proxy.cz/ru/proxylist/country/US/all/ping/all

Для роботи нам потрібно IP-адрес та порт, проте інші параметри можуть знадобитись для того, щоб фільтрувати отриманий список.

Країна та місто — часто потрібно використовувати лише фільтрацію по країні, аби отримати доступ до локального ресурсу.

Ступінь анонімності — в залежності від цього параметру гарантується чи високий рівень анонімності, чи абсолютно низький, при якому кінцевий ресурс все одно бачить нашу справжню адресу.

Швидкість відгуку (timeout) — те, наскільки швидко обробляються запити цим проксі-сервером, від цього залежить кількість виконаних запитів.

Як попрактикуватись?

Скопіювати/завантажити файл зі списком проксі з GitHub.
Спробувати відправити 20 запитів з різними проксі до ресурсу https://api.myip.com/ з використанням requests-futures або aiohttpякщо хочеться гострих вражень.
Вивести результати в якості логу з використанням модуля logging.

Зробивши це, одразу стане зрозуміло, що таке підводні камені безкоштовних проксі-серверів і як з цим справлятись. Або не стане зрозуміло взагалі нічого :)

Приклад коду з requests-futures:

from concurrent.futures import ThreadPoolExecutor
from requests_futures.sessions import FuturesSession

# створення сесії з використанням мультипроцесингу 
session = FuturesSession(executor=ThreadPoolExecutor(max_workers=10))

Приклад коду з aiohttp:

# створення асинхронної сесії
async with aiohttp.ClientSession() as session:
    async with session.get("http://python.org",
                           proxy="http://proxy.com") as resp:
        print(resp.status)

Доволі непогано це все описано в статті: Python та HTTP-клієнти

Загальна інформація про скрапинг тут: Web Scraping в Python. Детальна інструкція

Flask Checkpoint 024. Markdown. Форматування для лінивих

2020-07-27T09:29:35.791Z

Markdown logo

Полегшена мова розмітки для спрощення форматування повідомлень на різноманітних ресурсах, починаючи з чатів закінчуючи менеджерами задач.

Ця річ використовується в Telegram, Slack, StackOverflow, GitHub, Trello та інших штуках, які спрощують життя в розробці і не тільки. Markdown де факто став стандартом в написанні документації, його легко конвертувати в HTML та зручно використовувати.

Markdown Cheatsheet

Можна переглянути кілька додаткових матеріалів:

Sir Markdown. Лекція Яндексу

Короткий посібник з Markdown

Шпаргалка по Markdown, яка як не дивно зроблена з його допомогою

Інтерактивний тренажер по Markdown

Створення 3D фотографії використовуючи Python

2020-07-17T12:43:22.058Z

Для прикладу продемонструю кілька прикладів того, яки чином це все працює. Із звичайних фотографій можна зробити шість секунд паралаксу.

Львівський приклад відео

Кам'янецько-вокзальний приклад відео

Більше прикладів можна переглянути на ресурсі:
https://shihmengli.github.io/3D-Photo-Inpainting

Перш за все варто переглянути GitHub репозиторій з реалізацію наукової статті та скопіювати посилання для клонування репозиторію:

git clone https://github.com/vt-vl-lab/3d-photo-inpainting.git

Повинен бути встановлений Git Bash, якщо використовується Windows, на Linux все працює з коробки.

До того ж, для завантаження вже готових контрольних точок для моделей нейронних мереж використовується утиліта wget, що не є стандартною для Windows. На допомогу як завжди прийде Chocolatey в запущеному від імені адміністратора PowerShell, якщо говорити про Windows 10: choco install wget

Вікно PowerShell з виконаною командою

Після того, як закінчено з підготовкою потрібно виконати bash скрипт за допомогою команди sh download.sh при умові, що ви знаходитесь в директорії зі склонованим репозиторієм.

Вивід записів при виконанні download.sh

Також варто звернути увагу на завантаження необхідного пакету PyTorch. Є кілька варіантів використання цієї бібліотеки з CPU та GPU, встановити потрібно відповідну.

Для використання з GPU:

pip3 install torch==1.4.0+cu100 torchvision==0.5.0+cu100 -f https://download.pytorch.org/whl/torch_stable.html

Для використання з CPU:

pip3 install torch==1.4.0+cpu torchvision==0.5.0+cpu -f https://download.pytorch.org/whl/torch_stable.html

В принципі я запустив цю штуку під Windows, підредагував кілька файлів, аби завантажувалось cаме для CPU. Приблизно 10 хвилин на обробку одного файлу та створення 4 відео з різною анімацією.

На третьому зображенні відвалилась система і перший раз за весь час завис ноутбук, прийшлось відмовитись від цієї затії та перейти на Google Colab.

Приклад того, як виглядає директорія проекту

Щоб запустити це все, потрібно додати зображення для обробки в директорію image, результат буде у video після запуску скрипта:

python main.py --config argument.yml

В Google Colab все доступно одразу, варто лише завантажити цей ноутбук та виконати всі кроки, завантажити необхідне зображення і зачекати кілька хвилин.

Ось посилання:

https://colab.research.google.com/drive/14k-j3fY_gjN7PJCfJkPEhgvg_CIGFs1y?usp=sharing

Кілька слів про філософію Python

2020-07-14T15:01:29.410Z

За час існування мови програмування Python, навколо неї сформувалась велика спільнота, певні традиції та підходи до розробки. Це все переросло в певну філософію. Справжній Pythonista повинен знати і розуміти основи, щоб робити свою роботу ліпше.

Існує два типи мов програмування — ті, які усі постійно лають, і ті, якими ніхто не користується.

Справжній фанат вже напевно дослідив більшість джерел, які розповідають про Python. Особливу увагу можна звернути на пародію Вікіпедії під назвою Lurkmore, де весь шлях до підкорення вершини описаний ну дуже лаконічно, з відповідною експресією і всіма похідними, дуже раджу переглянути.

Якщо ж говорити саме про філософію, то варто згадати про визначну фігуру в розробці першої версії CPython — Тім Пітерс.

Перша річ, якою він відомий, це гібридний алгоритм сортування під назвою Timsort, що якраз і використовується як стандартний метод в Python.

Друга річ, це The Zen of Python, прямо описана філософія в десятку влучних фраз. Ця штука доступна з інтерпретатора в якості пасхального яйця, можна переглянути з допомогою команди import this.

The Zen of Python - вигляд з командного рядка

Українською мовою Дзен Пітону виглядає так:

Гарне краще за потворне.
Очевидне краще за неочевидне.
Просте краще за складне.
Складне краще за заплутане.
Плоске краще за вкладене.
Розділене є кращим за щільне.
Легкість читання має значення.
Особливі випадки не є настільки особливими, щоб порушувати правила.
Хоча практичність є важливішою за бездоганність.
Помилки ніколи не повинні бути замовчуваними.
Хіба що замовчуваними відверто.
Зустрівши двозначність, відкиньмо спокусу вгадати.
Має бути один — і, бажано, тільки один — очевидний спосіб зробити це.
Хоча спочатку він може бути й не очевидним, якщо ви не голландець.
Зараз — краще, ніж ніколи.
Хоча ніколи, найчастіше, — краще, ніж просто зараз.
Якщо реалізацію важко пояснити — задум поганий.
Якщо реалізацію легко пояснити — можливо, задум добрий.
Простори імен — чудова річ, тож робімо їх більше!

Якщо цікаво поринути в світ програмування на Python, можна переглянути статтю Як хоча б спробувати в Python за місяць

Дістаємо та аналізуємо тексти відео з YouTube-каналів. Частина 1

2020-07-12T16:16:30.122Z

Стало цікаво, яким же чином можна проаналізувати вміст відео на YouTube. Раніше доводилось працювати з сервісами Google, все захищено і важко добитись хороших результатів без прямого використання їх API. Проте з будь-якої ситуації можна знайти вихід, якщо сильно захотіти.

Що ж саме зробити?

Зацікавили мене рекомендаційні системи та їх реалізація, не дуже круто використовувати вже готові дані по фільмах і подібних речах. Хочеться чогось живого і трендового, слова з інтерв'ю підійдуть для цієї благої місії.

В мене є кілька основних каналів, які я періодично переглядаю, перше, що я б хотів зробити, це дістати ключові слова з текстів, провести мінімальне тематичне моделювання, спробувати прокластеризувати відео в рамках одного каналу. В подальшому перейти на рівень кількох каналів зі всім вмістом.

Дістаємо всі відео з каналу

Почну з каналу BigMoney, де Євген Черняк розпитує всіх про їхні бізнеси та підходи, з обов'язковим запитанням про їхню маржу :)

Вигляд каналу Big Money.

Перше, що приходить на думку, це використання Selenium для збору даних з каналів, прості запити тут не допоможуть, а розбиратись з YouTube API взагалі не хочеться, якщо в результаті буду використовувати лише кілька запитів. Отримувати ключі, ковиряти документацію, займатись довгою обробкою даних, які приходять, напевно ви зрозуміли. Мені ж тільки ID відео з каналу потрібні.

Ви тільки погляньте на розмір цього чортового JSON для YouTube Video Resource. Масштаб лінії для скролу змушує задуматись.

Нещодавно відкрив для себе пакетний менеджер під Windows, це як apt-get install в Linux, дуже прикольна штука під назвою Chocolatey, однозначний плюс шоколадному. Тепер можна не переживати про пошук частини пакетів, вносити їх у змінну PATH, щоб можна було з командного рядка користуватись командами. Виглядає дуже прикольно, я використав це для встановлення драйверів браузерів, що використовуються у Selenium, відповідний пакет можна знайти за посиланням.

Хоп хей ла-ла-лей. Встановлює все, що потрібно і економить час, однозначно рекомендую.

Після встановлення абсолютно всіх драйверів до браузерів, можна перейти до використання Selenium. Ще трішки пошукавши рішень, я наткнувся на бібліотеку під назвою yt-videos-list, це було приємно, як я думав, там під капотом Selenium, можна вибрати необхідний драйвер і отримати всі відео з каналу.

pip install yt-videos-list і я вже на крок ближче до отримання всіх необхідних даних.

В кілька рядків коду отримуємо результат, його можна скопіювати з посилання вище.

Результатом виконання є кілька файлів зі списком назв та посилань на відео в форматі CSV. З цим чудово справляється Pandas, тому його ми і використаємо для роботи з цими даними. Варто зазначити, що додатково в об'єкті ListCreator використовуються параметри:

txt, md, csv — булеві, можна зберігати у файлах всіх цих форматів;
headless — якщо не потрібно, щоб відображався браузер в процесі отримання даних, то варто передати цей параметр зі значенням True .

Так виглядають дані, отримані з допомогою цієї бібліотеки в форматі CSV.

Бачимо що тут є зайві поля, нам необхідно залишити лише два. Видаляємо непотрібні поля, де немає цікавих нам значень з використанням pandas.DataFrame , тут параметр inplace=True означає, що ми виконуємо кожну операцію і одразу застосовуємо результат до нашого фрейму. Немає необхідності записувати результат кожної з операцій до змінної:

df.drop(columns=["Watched?", "Watch again later?", "Notes", "Video Number"], inplace=True)
df.rename(columns={
    "Video Title": "title",
    "Video URL": "video_url",
}, inplace=True)

Створимо додаткове поле, що відповідає за ідентифікатор відео:

df["video_id"] = df.video_url.map(lambda url: urlsplit(url).query.strip("v="))

Цих маніпуляцій нам достатньо аби перейти до слідуючого етапу, де ми будемо витягувати тексти з отриманих відео. Там є декілька нюансів, які розглянемо в слідуючій частині.

Flask Checkpoint 021. Швидка підготовка до розробки з Docker

2020-07-01T15:43:26.318Z

Docker. Кити. Контейнери.

Віртуалізація — це один з найкорисніших інструментів, що допомагають використовувати доступні ресурси на максимум. Використовуючи один з методів, під назвою контейнеризація та інструменту Docker робить процес підготовки до розробки швидким та простим.

Цілі

Навчитись скорочувати час, що потрібен для підготовки та розгортання контейнерів.
Закінчити першу частину курсу Управління обчисленнями.
Ознайомитись з інструментом платформою Play with Docker та базовими лабораторними роботами для розробників: створення та розгортання.

Завдання

Перечитати Checkpoint 02, аби поновити розуміння основних концепцій, що мають відношення до Docker.
Для закріплення матеріалу варто пройти першу частину курсу після вступу:
Контейнеризация и Docker

Ця частина найбільш корисна у цьому курсі, всі послідуючі варто проходити лише для розширення свого світогляду, з погляду прикладного досвіду ці модулі набагато слабші.

Виконувати завдання можна з використанням інтерактивної платформи Play with Docker.
Після закінчення попереднього етапу є сенс перейти до інтерактивних лабораторних робіт в розділі Початок роботи для розробників (Getting Started Walk-through for Developers):

- Docker for Beginners - Linux
- Application Containerization and Microservice Orchestration
- Deploying a Multi-Service App in Docker Swarm Mode

Тут дуже зручно вчитись працювати з терміналом Linux, про це йшла мова в іншій статті, всі поради з якої тут можна спробувати в першому ж завданні, де доступний термінал.
Кожен рядок в тексті, який виділений чорним кольором, можна виконати в терміналі справа одразу побачивши очікуваний результат.
Результатом для оцінки завдання буде посилання на образ, що розміщено на Docker Hub.

Ресурси для використання

Всі потрібні матеріали зібрані за посиланням, там доступні статті, відео, корисні поради, розсилки та книги, все в одному місці і ще й на українській мові:

Корисні посилання для розуміння призначення і роботи з Docker

І дуже хороше відео по темі на YouTube зі швидкістю 1.25-1.5х саме те:

Основы Docker. Большой практический выпуск

Web Scraping в Python. Детальна інструкція

2020-06-28T17:52:38.188Z

Збір даних на даний момент у 2020 році — це один з основних напрямків задач, які можна зустріти на Freelance біржах, до прикладу Upwork. Також це єдиний спосіб отримати бажані дані, якщо власники веб-сайтів не надають доступ через API для своїх користувачів. Багато веб-сайтів, таких Twitter, YouTube або Facebook, надають простий спосіб отримати доступ до своїх даних через публічний API. Отримана таким чином інформація належним чином структурована та нормалізована. Наприклад, це можуть бути формати JSON, CSV або XML.

4 способи отримати дані з будь-якого веб-сайту

№0 RSS

Стояла задача отримувати дані з Upwork, там майже неможливо займатись скрапінгом та збирати дані. Можна використовувати API, проте для цього потрібно відправляти свої документи на верифікацію.

При цьому всьому після дослідження robots.txt побачив, що є доступна можливість отримувати дані чере з RSS (Really Simple Syndication).

З допомогою цього можна дуже просто отримувати оновлення ресурсів, збирати новини чи нові повідомлення на форумах. В Python використовувати це, можна з допомогою бібліотеки feedparser.

№1 Офіційне API

В інших випадках, перш за все, ви завжди повинні перевірити, чи є офіційний API, який ви можете використовувати для отримання потрібних даних.

Іноді офіційний API не оновлюється у відповідності до змін на ресурсі, або деякі при його використанні відсутні, до прикладу, Amazon Seller API.

№2 "Прихований API"

Серверна частина може генерувати дані в форматі JSON або XML, далі ці дані відправляються браузеру для відображення користувачам. Для нас, розробників, це хороша можливість скористатись інспектором в браузері, де можна дослідити вкладку XMLHttpRequest (XHR) і, можливо, знайти потрібні нам запити до API цього ресурсу.

Цей спосіб надасть нам можливсіть отримати дані так само, як це б зробив офіційний API, правда без детальної документації доступних методів.

Як отримати ці дані? Давайте самостійно "вполюємо" кінцеву точку API!

Наприклад, візьмемо ресурс, де відображається статистичні дані по COVID19.

Відкрийте Chrome DevTools натиснувши Ctrl+Shift+I або F12
Як тільки відкриється консоль, перейдіть до вкладки "Network".
Давайте використаємо фільтр XHR, щоб визначити кінцеву точку API як запит "XHR", якщо він доступний.
Варто переконатись, що кнопка "recording" включена, аби відображались всі запити належним чином.
Перезавантажте сторінку.
Натисніть зупинити "recording", коли бачите, що вміст запитів, пов’язаний з даними, вже з’явився на веб-сторінці.

Зараз перед вами список із запитів зліва. Досліджуйте їх. Вкладка попереднього перегляду відображає масив значень для запиту під назвою " v1".

Натисніть на вкладку "Headers", аби переглянути деталі потрібного запиту. Найбільш важливою штукою для нас є метод запиту та URL. В даному випадку для позиції " v1" URL є https://covid-19.dataflowkit.com/v1.

Тепер, давайте просто відкриємо цей URL як іншу вкладку браузеру, щоб побачити що ж відбудеться.

Круто! Це те, що ми шукали.

Отже, отримання даних безпосередньо через API або використання вищеописаної техніки, це найпростіший шлях до завантаження потрібних наборів даних з веб-ресурсів. Звичайно, ці методи можуть бути не надто ефективними для деяких веб-сайтів, тому бібліотеки з web scraping функціоналом все ще необхідні.

Web scraping або вилучення даних з веб-сайтів - це єдиний шлях для отримання бажаних даних, якщо власники ресурсу не надають доступ до їх API. Scraping є технікою вилучення даних, що може автоматизувати повторний ввід даних або копіювання з послідуючою вставкою.

№3 Website scraping. Знай правила!

Що слід перевірити перед тим, як отримувати дані з веб-сайту?

Photo by Adam Sherez / Unsplash

☑️Robots.txt — це перше, що потрібно перевірити, перед тим як діставати будь-які дані з веб-сайту. Файл Robots.txt перераховує правила того, як ви або бот повинні взаємодіяти з цим ресурсом. Ви завжди повинні поважати та дотримуватися всіх правил, перелічених у robots.txt.

☑️Не забудьте також переглянути Terms of use сайту. Якщо умови використання не говорять про те, що це обмежує доступ до ботів чи павуків і не забороняє швидкі запити сервера, то можна без будь-яких сумнівів вилучати дані.

☑️ Варто також подумати про те, аби відповідати Загальному регламенту ЄС про захист даних або GDPR, потрібно спершу оцінити проект по збору даних. Якщо ж проект не збирає персональні дані, то в такому випадку GDPR не застосовується. В цьому випадку можна пропустити цей крок та переходити

☑️Будьте уважні стосовно того чи вилучені дані не порушують авторські права, таке іноді трапляється. Якщо умови використання не накладають обмеження стосовно цього моменту, то ваш збір даних може використовуватись так довго, наскільки вам вистачить ресурсів.

Детальніше про це можна прочитати в статті: Веб-сканування законно чи ні?

Sitemaps

На типових веб-сайтах є файли мапи сайту, що містять список посилань, що належать до цього веб-сайту. Вони допомагають пошуковим системам простіше сканувати веб-сайти та індексувати їх. Отримати URL-адреси з веб-сайтів для сканування завжди набагато швидше, ніж послідовно збирати їх з допомогою опрацювання сторінок.

Відображення ресурсів, керованих з допомогою JavaScript

Фреймворки JavaScript, такі як Angular, React, Vue.js широко використовуються для створення сучасних веб-додатків. Коротше кажучи, типовий інтерфейс веб-додатків складається з HTML + JS-коду + CSS-стилів. Зазвичай вихідний HTML спочатку не містить усього фактичного вмісту. Під час завантаження веб-сторінки елементи HTML DOM динамічно завантажуються разом з виконанням коду JavaScript. В результаті ми отримуємо статичний HTML.

☑️Ви можете використовувати Selenium для збору даних з веб-сайтів, але це не дуже гарна ідея, хоча багато навчальних посібників говорять про використання саме з цією ціллю. На домашній сторінці чітко зазначено, що Selenium "для автоматизації тестування веб-додатків".

☑️ PhantomJS раніше використовувався для подібних задач, це схоже на браузер без візуальної обгортки, що забирає багато ресурсів. Проте, з 2018 року розробка цього інструменту заморожена.

☑️ Як альтернатива, Scrapinghub's Splash раніше був варіантом для Python розробників перед Headless Chrome.

Ваш браузер — це скрапер веб-сайтів по своїй природі. Найкращим способом на сьогодні є використання Headless Chrome для відображення сторінок.

Будьте розумними. Не дозволяйте їм блокувати вас.

Photo by Randy Fath / Unsplash

Деякі веб-сайти використовують техніки для протидії автоматизованим інструментам збору даних. Web scraping — це завжди гра в "кота й мишки". Тому проектуючи та розробляючи ваш скрапер, візьміть до уваги наступні поради по уникненню блокувань. Або ви ризикуєте не отримати очікуваного результату.

Порада №1: Робіть випадкові затримки між запитами

Коли людина відвідує веб-сайт, швидкість доступу до різних сторінок у рази менша порівняно зі швидкістю веб-сканера. Скрапер, навпаки, може витягнути кілька сторінок одночасно за короткий час. Величезний трафік, який надходить на сайт за короткий проміжок часу, виглядає підозрілим.

Ви повинні дізнатися ідеальну швидкість сканування, індивідуальну для кожного веб-сайту. Щоб імітувати поведінку користувачів людини, ви можете додавати випадкові затримки між запитами.

Не створюйте надмірне навантаження на сайт. Будьте ввічливі до веб-сайту, з якого витягуєте дані, щоб ви могли продовжувати використовувати цей ресурс, не турбуючись про те, що будете заблоковані.

Порада №2: Заміна User-Agent

Коли браузер підключається до веб-сайту, він передає рядок User-Agent (UA) у заголовку HTTP. Це поле визначає браузер, номер його версії та операційну систему, яку використовує користувач.

Типовий рядок User-Agent виглядає подібним чином:

Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36

Якщо кілька запитів на один і той же домен виконуються з використанням одного і того ж агента користувача, веб-сайт може дуже швидко вас заблокувати .
Деякі веб-сайти блокують конкретні запити, якщо вони містять User-Agent рядок, що сильно відрізняється від загальнодоступних браузерів.
Якщо значення "user-agent" пропущено, багато веб-сайтів не дозволять отримати доступ до їх вмісту.

Створіть список з доступних значень для User-Agent заголовків та використовуйте їх випадковим чином. Також допоможе Python бібліотека — fake-useragent.

Порада №3: Заміняйте IP-адреси. Використовуйте проксі-сервери

Якщо ви часто надсилаєте по кілька запитів з однієї і тієї ж IP-адреси в процесі збору інформації, веб-сайт може розпізнати підозрілу поведінку і заблокувати вас.

У найпростіших випадках достатньо використання дешевих Datacenter proxies. Але деякі веб-сайти мають складні алгоритми для розпізнавання ботів, тому в таких випадках приходиться використовувати дорожчі residential або mobile пороксі для збору даних.

Наприклад, хтось у Європі хоче отримати дані з веб-сайту з обмеженим доступом лише для американських користувачів. Очевидно, що запити проводяться через проксі-сервер, розташований у США, оскільки їхній трафік, як здається для ресурсу, надходить з американської IP-адреси.

Порада №4: Уникайте паттернів для web scraping. Імітуйте поведінку людини

Люди непередбачувані під час навігації по веб-сайту. Вони роблять різні випадкові дії, як натискання на різні області сторінки та рухи миші.

З іншого боку, скрапери використовують наперед визначені правила для збору інформації з ресурсу.

Навчіть свій скрепер наслідувати поведінку людини. Таким чином, алгоритми виявлення ботів на веб-сайті не мають жодних причин заважати вам виконувати автоматизовані завдання по збору даних.

Порада №5: Слідкуйте за засобами проти web scraping

Одним з найбільш часто використовуваних інструментів для виявлення спроб злому або веб-сканування є "honey pot" (горщик з медом). Такі речі не видимі для людського ока, але доступні для ботів та скраперів. Одразу після того, як скрапер натисне на невидиме посилання, сайт блокує його доволі просто.

Дізнайтеся, чи встановлено властивість CSS "display: none" або "visibility: hidden" та просто обходьте такі посилання. В іншому випадку, ресурс легко зрозуміє, що має справу не з людиною.

Порада № 6: Розв’яжіть CAPTCHA

Під час сканування веб-сайту у великих об'ємах є ймовірність бути заблокованими веб-сайтом. В такі моменти вам починає відображатись CAPTCHA замість веб-сторінок.

CAPTCHA - це тест, який використовується веб-сайтами для боротьби з ботами та сканерами, просячи відвідувачів веб-сайту довести, що вони люди, перш ніж продовжувати роботу з ресурсом.

Багато веб-сайтів використовують reCAPTCHA від Google. Остання версія v3 reCAPTCHA аналізує поведінку людини і вимагає від них поставити галочку "I'm not a robot".

Сервіси для вирішення CAPTCHA використовують два способи:

☑️ Human-based CAPTCHA Solving Services

Коли ви відправляєте свою CAPTCHA для вирішення до такого сервісу, її обробляють люди та повертають назад до вас.

☑️ OCR (Optical Character Recognition) Solutions

В цому випадку використовуються методи машинного навчання для розпізнавання символів на зображенні, такі сервіси виконують обробку автоматично.

Використання візуальних селекторів

Before starting of data extraction, let's specify patterns of data. Look at the sample screenshot taken from web store selling smartphones. We want to scrape the Image, Title of an item, and its Price.Google chrome inspect tool does a great job of investigating the DOM structure of HTML web pages.

Перш ніж розпочати вилучення даних, давайте визначимо структуру даних чи шаблон того результату, який ми отримуємо. Подивіться на зразок, зроблений із веб-магазину, що продає смартфони. Ми хочемо отримати зображення, назву предмета та його ціну.

Google chrome inspect tool дозволяє зручно проводити вивчення структури DOM для веб-сторінок.

Inspect icon

Клікніть на піктограму Inspect в лівому верхньому кутку інструменту DevTools.

Chrome Inspector tool

За допомогою інструмента Chrome Inspect ви можете легко знайти та скопіювати CSS Selector or XPath для обраного DOM на цій сторінці.

Usually, when scraping a web page, you have more than one similar block of data to extract. Often you crawl several pages during one scraping session.

Зазвичай під час збору даних з веб-сторінки ви маєте більше ніж один аналогічний блок даних. Сучасні онлайн-скрапери в більшості випадків пропонують зручніший спосіб задати шаблони (CSS Selectors або XPath) для збору даних, встановити правила розбиття сторінок і правила для обробки деталей тої чи іншої сторінки на своєму шляху.

Можете переглянути дане відео для того, щоб з'ясувати як це працює.

Оберіть стратегію для збереження даних

Найбільш відомі прості формати даних для зберігання структурованих даних на сьогоднішній день включають CSV, Excel, JSON (Lines). Зібрані дані можуть бути відформатовані відразу після розбору веб-сторінки. Ці формати підходять для зберігання даних як малогабаритних сховищ.

Сканувати кілька сторінок може бути простою задачею, але мільйони сторінок вимагають інших підходів.

Як просканувати кілька мільйонів сторінок і витягти десятки мільйонів записів?

Що робити, якщо розмір вихідних даних коливається від середніх до великих?

Визначіть правильний формат для вихідних даних

Photo by Ricardo Gomez Angel / Unsplash

Формат №1. Формат значень, розділених комами (CSV)

CSV — це найпростіший формат обміну даними, що є дуже простим для розуміння людиною. Кожен рядок файлу це один запис. Кожен запис складається з даних по відповідних однакових полях, розділених комами. Поля зазвичай визначені у першому рядку.

Тут список сімей відображених у вигляді CSV:

CSV обмежений для зберігання двовимірних нетипізованих даних. В цьому форматі складно реалізовувати вкладені структури даних.

Формат №2. JSON

Створення складних вкладених структур у файлах JSON є доволі простою задачею.

В даний час JavaScript Object Notation (JSON) стала фактичним стандартом формату обміну даними, замінюючи XML у більшості випадків.

Один з наших проектів складається з 3 мільйонів розібраних сторінок. В результаті розмір кінцевого JSON становить понад 700 Мб.

Проблема виникає, коли вам доведеться мати справу з такими розмірами JSON. Щоб вставити або прочитати запис з масиву JSON, потрібно щоразу аналізувати весь файл, що далеко не ідеально.

Формат №3. JSON Lines

Давайте розглянемо, що таке формат JSON Lines та як він порівнюється з традиційним JSON. В індустрії доволі часто використовується саме цей формат, Logstash та Docker зберігають логи в форматі JSON Lines.

Той самий список сімей виражений у форматі JSON Lines виглядає так:

{"id":1,"father":"Mark","mother":"Charlotte","children":["Tom"]} 
{"id":2,"father":"John","mother":"Ann","children":["Jessika","Antony","Jack"]} 
{"id":3,"father":"Bob","mother":"Monika","children":["Jerry","Karol"]}

JSON Lines складається з декількох рядків розділених символом нового рядка \n, у яких кожен рядок є типовим об'єктом JSON. Наприклад, це дозволяє розділити файл, що займає 10GB, на менші файли і використовувати їх по мірі необхідності.

Переклад статті: The A-Z of Web Scraping in 2020 [A How-To Guide]

Як хоча б спробувати в Python за місяць

2020-06-26T15:56:17.383Z

Вступ

Зі всіх усюд майорять статті про те, як почати займатись Data Science, ви вже втомились обирати з цього різноманіття?

Освоїти Python за короткий термін і, можливо, змінити свою кар'єру на щось інше?

В цій статті один з шляхів, яким можна піти, аби познайомитись з наукою про дані та спробувати себе в Python за місяць, все залежить від кількості сил вкладених в це. Тут будуть доступні щотижневі розклади та теми, які слід розглянути, щоб на базовому рівні опанувати Python.

Перш ніж перейти безпосередньо до Python, давайте зрозуміємо про використання Python в науці про дані чи Data Science.

Data Science Pipeline

Наука про дані — це багатопрофільна суміш гіпотез і висновків на основі даних, розробки алгоритмів та технологій для вирішення аналітично складних проблем. Цей напрямок пропонує рішення проблем у реальному світі за допомогою наявних даних. Проте аналіз даних — це покроковий процес. Це група з декількох методик, які використовуються для досягнення відповідного рішення проблеми. Крім того, досліднику, можливо, знадобиться пройти певну кількість етапів, щоб дійти до бачення проблеми, яке може відрізнятись від початкового через збільшення кількості доступної інформації.

Давайте розглянемо як це виглядає на різних етапах.

Узагальнений вигляд для Data Science Pipeline

1. Problem Definition | Визначення проблеми

Всупереч поширеній думці, найважча частина наукових даних — це не побудова точної моделі чи отримання хороших, чистих даних. Набагато складніше визначити можливі проблеми та придумати правильні способи для оцінки їх вирішення. Визначення проблеми спрямоване на глибоке розуміння предметної області. Кілька мозкових штурмів дуже допоможуть в тому, щоб правильно визначити проблему через вашу кінцеву мету, залежно від того, яку проблему ви намагаєтесь вирішити. Отже, якщо ви помилитесь під час саме цієї фази, ви отримаєте рішення проблеми, яка спочатку навіть не існувала.

2. Hypothesis Testing | Перевірка гіпотез

Цей етап покладається повністю на статистику, під час якого аналітик перевіряє припущення щодо параметру генеральної сукупності. Простими словами, ми формуємо деякі припущення на етапі визначення проблеми, а потім затверджуємо ці припущення статистично, використовуючи дані. Цей етап дає можливість знайти параметри, що дають можливість побудувати на подальших кроках вірну модель для нашої вибірки.

3. Data collection and processing | Збір та обробка даних

Збір даних — це процес збору та оцінки інформації про цікаві параметри у встановленому систематизованому порялдку, який дає змогу відповідати на визначені дослідницькі запитання, перевіряти гіпотези та оцінювати результати. Більше того, цей етап у дослідженнях є загальним для всіх галузей, включаючи фізичні та соціальні науки, гуманітарні науки, бізнес тощо. Хоча методи відрізняються від дисципліни до дисципліни, акцент на забезпеченні точного та чесного збору даних залишається однаковим. Крім того, обробка даних — це більше про низку дій чи етапів, що виконуються над даними для перевірки, організації, перетворення, інтеграції та вилучення даних у відповідній вихідній формі для подальшого використання. Методи обробки повинні бути суворо задокументовані, щоб забезпечити корисність та цілісність даних.

4. EDA and feature Engineering | Дослідницький аналіз даних та побудова ознак

Після отримання чистих та трансформованих даних наступним кроком для проектів машинного навчання є ознайомлення з даними, використовуючи дослідницький аналіз даних (EDA). EDA стосується числових підсумків, графіків, агрегацій, розподілів, щільності, огляду всіх рівнів факторних змінних та застосування загальних статистичних методів. Чітке розуміння даних дає основу для вибору моделі, тобто вибору правильного алгоритму машинного навчання для вирішення вашої проблеми. Також побудова ознак - це процес визначення тих змінних прогнози яких сприятимуть найбільшою мірою передбачувальній здатності алгоритму машинного навчання. Здебільшого це мистецтво, аніж наука. Дуже добре в процесі цього етапу мати спеціаліста у предметній області, проте підключити свою уяву теж не завадить.

5. Modelling and Prediction | Моделювання та передбачення

Машинне навчання можна використовувати для прогнозування майбутнього. Ви забезпечуєте для моделі колекцію навчальних даних, навчаєте модель на них, а потім застосовуєте модель до нових даних, аби створювати прогнози. Моделювання прогнозів корисно для стартапів, оскільки ви можете виготовляти продукти, які адаптуються на основі очікуваної поведінки користувача. Наприклад, якщо глядач послідовно дивиться одне і те саме джерело контенту на потоковому сервісі, візьмемо канал на YouTube, то програма може завантажувати цей канал при запуску і давати вам його в рекомендаціях.

6. Data Visualisation | Візуалізація даних

Цей етап має в основі процес відображення даних/інформації у графіках чи фігурах. ВІн використовується для надання візуальної звітності користувачам щодо продуктивності, операцій або загальної статистики даних та успішності прогнозування моделі.

7. Insight generation and implementation | Генерація та впровадження інсайтів

Інтерпретація даних більше схожа на донесення ваших висновків зацікавленим сторонам. Якщо ви не можете пояснити свої висновки комусь, повірте мені, все, що ви зробили, не приносить користі. Отже, цей крок стає дуже важливим. Крім того, метою цього кроку є визначення інсайтів для бізнесу, після чого їх потрібно співвіднести з отриманими даними. Також, вам може знадобитись залучення експертів у предметній області, які допоможуть вам сформувати цілісне бачення того, що буде корисно для бізнесу. Ще з іншого боку, це допоможе у доведенні фактів до аудиторії, що не має відношення до технологій.

Використання Python на різних етапах

Ознайомившись з різними етапами в алгоритмі рішень Data Science задач, ми можемо перейти до визначення методів, які пропонує Python на кожному з цих етапів. На цьому кроці ми маємо можливість краще зрозуміти про зв'язок цієї мови програмування та науки про дані.

Для початку, перший та останній етапи не потребують використання жодної мови програмування як такої. Обидва етапи більше базуються на дослідженнях та прийнятті рішень, а не на реалізації з допомогою коду.

1. Python при зборі даних

У процесі розробки багатьох проектів, які мають відношення до науки про дані, потрібно зібрати (scraping) інформацію з веб-ресурсів для отримання даних з якими ви будете працювати. Мова програмування Python знайшла широке застосування у цій області, а тому має велику екосистему модулів та інструментів, які можна використовувати в рамках цього процесу.

2. Python при перевірці гіпотез

Перевірка гіпотез вимагає багато статистичних знань та вмінь їх використовувати. У Python є бібліотеки, які можуть допомогти користувачам легко виконувати статистичні тести та обчислення. Використання таких бібліотек, як SciPy, може полегшити процес автоматизації завдань для перевірки гіпотез.

3. Python при EDA

Для виконання базового аналізу доступно кілька бібліотек. Для EDA можна використовувати pandas та matplotlib, для обробки даних та побудови графіків відповідно. Jupyter Lab для написання коду та інших корисних штук. Jupyter Lab — це свого роду щоденник для аналізу даних та науковців, веб-платформа, де ви можете змішати Python, HTML та Markdown, щоб пояснити свої кроки при дослідженні даних.

4. Python при візуалізації

Однією з ключових навичок науковця є вміння розповідати переконливу історію своїх досліджень. Він повинен візуалізувати дані та знахідки у доступний та стимулюючий спосіб. Також вивчення бібліотеки для візуалізації даних дасть змогу отримувати додаткову інформацію, розуміти дані та приймати ефективні рішення. Крім того, існують такі бібліотеки, як matplotlib, seaborn, що дозволяють створювати досить непогані візуалізації, при цьому вивчення методів роботи з цими інструментами не займає багато часу.

5. Python при моделюванні та передбаченні

Python може похвалитись бібліотеками на зразок scikit-learn, бібліотекою з відкритим вихідним кодом в якій реалізовано алгоритми машинного навчання, попередньої обробки, перехресної перевірки та візуалізації за допомогою уніфікованого інтерфейсу. Такі бібліотеки абстрагуються від математичної реалізації моделі. Отже, розробники можуть зосередетись на побудові надійних моделей, а не на розумінні складної математичної реалізації. Якщо ви новачок у машинному навчанні, тоді ви можете перейти за цим посиланням аби дізнатись більше.

Хронологія вивчення

У цьому розділі ми розглянемо тижневий розподіл тем для знайомства з Python. Це допоможе вам організувати ваш графік роботи та дозволить мати спеціальну дорожню карту на місяць.

Одразу варто зазначити, що ви не станете хорошим спеціалістом чи тим більше експертом в цій області, за цей час. Але ви можете дати поштовх в розвитку в цьому напрямку.

Тиждень 1

Основи Python
Варто почати з вивчення того, що таке змінні, які є конструкції управління потоком виконання. Опанувати базові операції та функції. Дізнатись з якими базовими типами даних поставляється стандартна бібліотека Python.
Поглиблений Python
Одразу після того, як будуть освоєні базові концепції, ви можете сконцентруватись на таких речах як: багатопотоковість, класи, об'єкти, регулярні вирази, робота з мережею тощо. Багато з цього може не знадобитись кожного дня, проте з цим варто бути знайомим.

Курси та матеріали, що допоможуть з вивченням, вони покривають обидва кроки з цього тижню, обирати лише вам, які з них використовувати:

Coursera: Занурення в Python

Stepik: Програмування на Python та Stepik: Python. основи та застосування

TutorialsPoint: Python Tutorial

Тиждень 2

Web scraping в Python
Мається на увазі збір даних з веб-сайтів за допомогою коду, це є найбільш логічним та легкодоступним джерелом даних для подальшої обробки. Автоматизація цього процесу за допомогою Python дозволяє уникнути ручного збору даних, економить час, а також дозволяє мати всі дані в потрібній структурі. Ви можете почати знайомство з таких бібліотек, як BeatifulSoup та Scrapy.
Pandas, numPy та SciPy в Python
В Python є прекрасний набір бібліотек, який покриває більшість задач по управлінню даними. Pandas дозволяє отримати доступ до даних у вигляді Data Frame, своєрідна таблична форма, яка дозволяє дуже просто проводити будь-які потрібні маніпуляції. Це у великій мірі спрощує роботу зі складними структурами та виконанням чисельних операцій над ними, будь то очищення даних, узагальнення даних тощо. NumPy в свою чергу забезпечує повним спектром чисельних методів та складних математичних структур. Багато методів з цієї бібліотеки є де-факто стандартом інтерфейсу по взаємодії з числовими даними в різних бібліотеках. Відповідно для виконання складних наукових та важких математичних обчислень існує бібліотека SciPy. Ці бібліотеки знайдуть застосування не лише при роботі в області науки про дані.

Тиждень 3

Третій тиждень — це про розуміння можливостей машинного навчання при використанні Python.

Бібліотека Scikit-learn
Ця бібліотека найбільш поширений вибір для вирішення задач класичного машинного навчання, її інтерфейс послугував для багатьох інших бібліотек. Обов'язково вкладіть свій час у вивчення методів цієї бібліотеки, вона забезпечує єдиний спосіб використання різних моделей.
Бібліотека Keras
Ця бібліотека призначена для спрощення процесу створення моделей глибокого навчання (deep learning). Вона підтримує широкий спектр шарів нейронних мереж, таких як згорткові шари, рекурентні або щільні. Вам потрібно думати лише над використанням тої чи іншої архітектури, замість складної математичної реалізації. Також можна подивитись в сторону PyTorch, що на даний час є доволі популярним.

Тиждень 4

Четвертий тиждень — це більше про можливості візуалізації та узагальнення всіх попередніх знань у формі проекту.

Matplotlib в Python
Ця бібліотека для побудови 2D графіків, що легко можна поширювати від однієї платформи до іншої, її можна використовувати як в скриптах, в Python та IPython консолях, ноутбуках Jupyter, серверних додатках та в різноманітних графічних інтерфейсах, як приклад tkinter. Matplotlib дає можливість трішки спростити багато речей, які приходилось би писати вручну.
Проект
Освоївши всі вищезгадані інструменти, настав час застосувати ці всі знання разом у вигляді проекту. Проект допоможе вам отримати бачення того, яким чином застосовуються ті чи інші бібліотеки, знайти нові запитання, на які прийдеться шукати відповіді, а також отримати загальну картину побудови Data Science Pipeline.

Зразок проекту, яким слід закріпити знання

Ви можете обрати будь-який проект, який вам подобається. Якщо ж ви заплутались і не знаєте, що за проект реалізувати, ви можете взяти проблему "Titanic", що є своєрідним Hello, World! у сфері Data Science.

Я не розкажу вам, як це вирішити, але я можу дати вам кілька порад для початку проекту:

Не будьте в погоні за рахунком вашої моделі на Kaggle. Мета полягає в тому, аби завершити проект, а не намагатись розробити хорошу модель;
Робіть більше обробки даних та EDA замість того, щоб проектувати складну модель;
Зосередьтеся на обробці даних з допомогою вивчених бібліотек (Pandas, NumPy, Matplotlib).

Висновок

Python - надзвичайно універсальна мова програмування. Окрім Data Science, ви можете використовувати її для створення веб-додатків, різноманітних інструментів автоматизації і навіть автономних безпілотників. Величезний відсоток програмістів у світі використовує Python, і це не дарма. Крім того, я думаю, що кожен може досягти високого рівня володіння ним, якщо знайде правильну мотивацію. Натхнення у навчанні!

Переклад статті Divya Singh: How to Learn Python in 30 days

9 порад для швидкої роботи в UNIX та Linux терміналі

2020-06-25T14:24:17.637Z

Bash tricks by Julia Evans

Ви коли-небудь зустрічали людину, яка володіла якимись невідомими здібностями і виконував команди в UNIX терміналі зі швидкістю світла?

Так, я декілька разів зустрічався з такими людьми і це надихнуло мене на те, щоб вчитись у них.

В цій статті або туторіалі, або називайте як забажаєте, я поділюсь з вами деякими командами для швидкої та продуктивної роботи в UNIX чи Linux терміналі.

Я працюю в сфері фінансових послуг і моя робота заключається в розробці та підтримці додатків для торгівлі акціями та фьючерсами на ринку електронних торгів, деривативів, валютних, товарних та інших класів активів.

Всі наші сервіси розташовані на серверах під управлінням Linux, саме тому для нас дуже важдиво, щоб людина могла швидко та ефективно працювати з терміналом Linux. За роки роботи в моїй голові сформувались поради для підвищення продуктивності в Linux. І зараз я збираюсь поділитись цим з вами.

9 порад для підвищення продуктивності в Linux

Якщо ваш сервер під управлінням Linux системи, а ваша щоденна робота включає в себе постійний пошук підходящої команди — дані поради допоможуть заощадити немало часу.

1) Використовуйте ! для швидкого виконання довгої команди

В среднем, эта команда сэкономила мне 30% рабочего времени, так как постоянно приходится выполнять одну и ту же UNIX команду по несколько раз.

В середньому, ця команда заощадила мені 30% робочого часу, так як постійно приходиться виконувати одну і ту ж UNIX команду декілька разів.

Перш ніж я дізнався про цю команду, я використовував стрілки вверх і вниз для роботи з історією команд. Натискаючи стрілку вверх я шукав потрібну мені команду із запропонованого списку, а потім її виконував. Погодьтесь, не дуже зручно. Але з ! достатньо відкрити історію з допомогою команди history , вибрати номер рядка з потрібною командою та виконати її. Скажемо, під номером 100 знаходиться команда sudo apt-get update . Для того, щоб не вводити цілу команду, достатньо написати !100 .

Не забувайте про цю пораду, так як вона, заощадити массу часу. Крім того, ця команда виявиться дуже корисною для командної обгортки, яка відрізняється від bash (схоже на cshабоksh ), де стрілки вверх та вниз не дозволяють працювати з історією команд.

2) Використовуйте !! для виконання останньої команди

Це розширена версія попередньої команди, що дозволяє виконати найостаннішу команду з тих, які ви вже виконували. Оскільки дана команда заключається в подвійному натисканні одної і тої ж клавіші — з роботи ви точно почнете йди раніше за інших.

Також вона буде працювати на обгортках, в яких не працює стрілка вверх чи вниз, таких як csh и ksh.

3) Використовуйте “CTRL+R” для пошуку та виконання підходящої команди

Якщо ви пам'ятаєте половину або чверть назви команди, яку хочете знайти — введіть “CRTL+R” і вона відобразить останню виконану команду, назва якої співпадає із заданою. Якщо ви продовжите натискати “CRTL+R”, вам будуть видаватись старіші команди, що підходять до шуканого рядка, якщо вони є в наявності.

Вищезгадана трійка порад заощадити вам купу часу та нервів, якщо діло стосується виконання команд, які постійно повторюються.

Особисто я зекономив майже 50-60% робочого часу, просто слідуючи цим порадам.

4) Используйте историю команд

Це найперша порада, яку я сформував для себе, коли почав працювати з UNIX.

Кожен день я виконую сотні команд і, цілком природно, що я не можу запам'ятати кожну. Для пошуку підходящої потрібно виконати команду history | grep ключові слова і ви отримаєте всі команди, що містять ключові слова.

Використовуйте змінну HISTSIZE, щоб встановити кількість команд, які необхідно зберігати в списку історії (стандартне значення — 500).

5) Використовуйте grep та find

Команда grep використовується для пошуку тексту в файлах і директоріях, на основі шаблонів. Команда find використовується для пошуку файлів по імені та іншим властивостям.

Наприклад, з допомогою find можна знайти всі файли починаючи з поточної директорії, назва яких починається, наприклад, на coolarticle: find . -name ’coolarticle*'. А з допомогою grep можна знайти coolarticle в файлі file.txt, з виводом рядка який повністю співпадає: grep coolarticle file.txt.

6) Використовуйте alias

Команда alias запускає будь-яку команду або групу команд, в тому числі з опціями, параметрами і файлами, за допомогою введення одного слова або символу. Тобто ви створюєте простіші, короткі версії звичайних команд, привласнюючи їм нові назви.

Наприклад, для того щоб не вводити цілком команду clearнапишемо alias c="clear" і добавимо в кінці ~/.bashrc, щоб даний alias був завжи доступний. Тепер, при вводі всього лише одної букви c, буде очищатись весь термінал.

7) Використовуйте pushd, popd, cd -, ~ для переміщення по каталогу

Основуючись на власному досвіді, можу сказати, що преміщення по оболонці UNIX займає 50% робочого часу, а якщо ви збираєтесь прописувати шлях до каталогу — можете зовсім забути про швидку роботу.

Загалом, замість того, щоб вводити повне ім'я команди, використовуйте вищенаведені поради і ефективно використовуйте команди pushd, popd, cd- і cd ~ для швидкого переходу між каталогами.

8) Мінімізуйте кількість натискань клавіш та збільште швидкість друку

Чим менше ви друкуєте, тим швидше ви працюєте.

Якщо ви введете перші кілька букв імені файлу, команди або шляху, а потім натиснете клавішу Tab — відбудеться автозаповнення командного рядка.

9) Продовжуйте вивчати нові команди

Намагайтеся дізнатися якомога більше команд - це допоможе скоротити час для виконання самих різних завдань. І не забувайте використовувати ctrl + z, fg і bg, щоб призупинити процес.

Ctrl+Z призупиняє процес, для відновлення виконання процесу на передньому плані можна використовувати команду fg, команда bgзапускает процес у фоновому режим.

Надіюсь, що ці поради допоможуть вам зробити більше за меншу кількість часу, збільшать вашу продуктивність та збагатять ваш досвід роботи з UNIX.

Висновок

Може здатися, що немає сенсу вивчати ці команди, але ви будете приємно здивовані, побачивши скільки часу можна заощадити, просто застосувавши мої поради на практиці.

Перевод статьи javinpaul: 10 Basic Tips on Working Fast in UNIX or Linux Terminal

Flask Checkpoint 02. Підготовка до проекту з Docker

2020-06-23T16:05:32.769Z

Цілі

Зрозуміти концепції віртуальних машин та контейнерів.
Ознайомитись з інструментом Docker.

Основні терміни

Зараз багато речей йдуть пліч-о-пліч з інструментами, які допомагають розвернути функціонал того чи іншого репозиторія на будь-якій платформі.

Раніше величезною популярністю користувались віртуальні машини, я використовував VirtualBox для того, щоб запускати різноманітні генератори ключів чи інші вірусні програми. Я робив це для того, щоб в ізольованому просторі завантажувати потенційно шкідливий код в систему, аби це не шкодило основній.

Якщо говорити про тестування моделей машинного навчання, то більшість цих репозиторіїв постачаються одразу з Dockerfile, що дозволить відтворити по образу контейнер із робочим кодом та потрібними налаштуваннями.

Отже, розглянемо дві основні концепції:

Архітектура віртуальних машин та контейнерів

Конетейнери займають менше місця за рахунок перевикористання ресурсів на рівні операційної системи, тоді як VM робить це на апаратному рівні. Основні відмінності між контейнерами та VM заключаються саме в архітектурі, в той час як їхній функціонал дуже подібний, а саме ізоляція додатку, а також його залежностей в окремий модуль.

Важливо знати: ці інструменти усувають необхідність у використанні додаткового фізичного обладнання, що дозволяє більш ефективно використовувати обчислювальні ресурси.

Зважаючи на все це, ми будемо використовувати Docker, як зручний спосіб оганізувати середовище для розробки.

Must have Docker!

Це програмне забезпечення для автоматизації розгортання та управління додатками в середовищах з підтримкою контейнеризації. Дозволяє "упакувати" додатки зі всім оточенням та залежностями в контейнер, який можна перенести на будь-яку Linux-cистему.

До основних переваг можна віднести:

Простота у використанні: Docker значно полегшує використання розробникам, системним адміністраторам, архітекторам для швидкого створення та тестування додатків. Те, що створено локально на ноутбуці з легкістю можна перемістити у хмару для загального використання. Мантра звучить як: "Побудуй один раз, запускай де завгодно".
Швидкість: контейнери Docker легкі та швидкі. Оскільки контейнери - це просто ізольовані середовища, що працюють на ядрі Linux, вони споживають невелику кількість ресурсів. Можна створити та завантажити контейнер за лічені секунди, на відміну від інших віртуальних машин, яким доводиться кожен раз створювати повноцінну операційну систему.
Docker Hub: користувачі Docker також отримують вигоду від багатої та постійно зростаючої екосистеми Docker Hub, яку можна розглянути як "магазин застосунків для Docker". Спільнота Docker Hub має десятки тисяч образів, у вільному доступі, які ви можете вільно використовувати. З легкістю можна знайти готові та працюючі образи, які будуть відповідати всім вимогам, без потреби модифікації (хіба, що чуть-чуть).
Модульність та масштабованість: Docker дозволяє легко розбити функціональність вашого додатку на різні контейнери, які можна оновлювати як незалежні компоненти. Тобто в одному контейнері може бути база даних Postgres, коли в іншому сервер Redis, в той час як сервер на Python знаходиться у третьому.

Приклад того, як виглядає Docker Toolbox з-під Windows.

Рекомендую переглянути першу частину курсу на Stepik по Docker:
Stepik: Управління обчисленнями

Стосовно того, яким чином застосовувати Linux термінал, в першій частині:
Stepik: Вступ до Linux

Python Zen

Спроба накрутити перегляди на YouTube з допомогою Python 1/4

Цілі

Proxy та їх використання у запитах

Flask Checkpoint 024. Markdown. Форматування для лінивих

Створення 3D фотографії використовуючи Python

Кілька слів про філософію Python

Дістаємо та аналізуємо тексти відео з YouTube-каналів. Частина 1

Що ж саме зробити?

Дістаємо всі відео з каналу

Flask Checkpoint 021. Швидка підготовка до розробки з Docker

Цілі

Завдання

Ресурси для використання

Web Scraping в Python. Детальна інструкція

4 способи отримати дані з будь-якого веб-сайту

№0 RSS

№1 Офіційне API

№2 "Прихований API"

№3 Website scraping. Знай правила!

Sitemaps

Відображення ресурсів, керованих з допомогою JavaScript

Будьте розумними. Не дозволяйте їм блокувати вас.

Порада №1: Робіть випадкові затримки між запитами

Порада №2: Заміна User-Agent

Порада №3: ​​Заміняйте IP-адреси. Використовуйте проксі-сервери

Порада №4: Уникайте паттернів для web scraping. Імітуйте поведінку людини

Порада №5: Слідкуйте за засобами проти web scraping

Порада № 6: Розв’яжіть CAPTCHA

Використання візуальних селекторів

Оберіть стратегію для збереження даних

Визначіть правильний формат для вихідних даних

Формат №1. Формат значень, розділених комами (CSV)

Формат №2. JSON

Формат №3. JSON Lines

Як хоча б спробувати в Python за місяць

Вступ

Data Science Pipeline

Використання Python на різних етапах

Хронологія вивчення

Тиждень 1

Тиждень 2

Тиждень 3

Тиждень 4

Зразок проекту, яким слід закріпити знання

Висновок

9 порад для швидкої роботи в UNIX та Linux терміналі

9 порад для підвищення продуктивності в Linux

1) Використовуйте ! для швидкого виконання довгої команди

2) Використовуйте !! для виконання останньої команди

3) Використовуйте “CTRL+R” для пошуку та виконання підходящої команди

4) Используйте историю команд

5) Використовуйте grep та find

6) Використовуйте alias

7) Використовуйте pushd, popd, cd -, ~ для переміщення по каталогу

8) Мінімізуйте кількість натискань клавіш та збільште швидкість друку

9) Продовжуйте вивчати нові команди

Висновок

Flask Checkpoint 02. Підготовка до проекту з Docker

Цілі

Основні терміни

Must have Docker!

Порада №3: Заміняйте IP-адреси. Використовуйте проксі-сервери