Pandas for beginners.
На сегодняшний день, пакет Pandas это самый важный инструмент во всем, что касается анализа данных. Многие аналитики и data scientis'ы пользуются этим пакетом.
Первые шаги в Pandas
Для того, чтобы установить пандас, откройте свою консоль, и введите:
pip install pandas
либо
pip3 install pandas
Для импортирования пандас мы обычно используем короткое имя:
import pandas as pd
Теперь перейдем к базовым компонентам пандас.
Ключевые компоненты: Series и DataFrames
Основные компоненты пандас это Series и DataFrame. Series это что-то вроде столбца с данными, DataFrame же это таблица, созданная из столбцов Series:
Существует множество способов создания DataFrame, но на мой взгляд самым простым и удобным является использование dict.
data = { 'apples': [3, 2, 0, 1], 'oranges': [0, 3, 7, 2] }
Теперь создадим DataFrame, в котором содержатся заказы на яблоки и апельсины:
purchases = pd.DataFrame(data)
Как это работает?
Каждый элемент (ключ, значение) в данных соответствует столбцу в результирующем DataFrame. Индекс в DataFrame пандас создал автоматически в виде чисел 0-3, но мы также можем создать наш собственный, в момент инициализации DataFrame.
Давайте в качестве индекса используем имена:
purchases = pd.DataFrame(data, index=['June', 'Robert', 'Lily', 'David'])
Теперь мы можем запросто найти заказ клиента, используя его имя:
purchases.loc['June']
Теперь мы знакомы с основами, и можем двигаться дальше. Давайте перейдем к другим быстрым методам создания DataFrame из различных источников.
Чтение данных
Загрузка данных из различных форматов файлов в DataFrame довольно проста. В следующих примерах мы продолжим использовать данные об яблоках и апельсинах, но на этот раз эти данные будут браться из различных файлов.
Чтение данных из CSV
Все что нам нужно с CSV-файлами, это одна строка для загрузки данных:
df = pd.read_csv ('purchases.csv')
CSV файлы по умолчанию не имеют индексов, поэтому все что нам нужно сделать, это указать столбец с индексами при помощи index_col:
df = pd.read_csv('purchases.csv', index_col=0)
Чтение данных из JSON
Если у вас есть JSON-файл (который по сути является словарем), пандас может прочитать его так же легко:
df = pd.read_json('purchases.json')
Обратите внимание, что на этот раз индекс пришел правильно, поскольку мы использовали JSON. Не стесняйтесь открывать файл с данными data.json в блокноте, чтобы видеть как именно он работает.
Pandas попытается выяснить, как создать DataFrame, проанализировав структуру вашего JSON, и иногда это приводит к неправильным результатам. Часто вам будет нужно установить аргумент orient в зависимости от структуры, поэтому обязательно посмотрите документацию read_json об этом аргументе, чтобы узнать, какую ориентацию вы используете.
Статья подготовлена и написана для канала Hello World.