воскресенье, 29 марта 2015 г.

Ищем команды для проверки, чистки и конвертации столбцов в числовой формат

Здесь я попробовал методы для проверки одородности таблиц и чистки столбцов .describe() .str.contains('%') .replace('%','').get .replace('%','').astype(int) .index.value_counts()
Как-то все трудно шло, отчасти потому, что не могу понять принципов построения методов. Например, долго искал, как превести столбец в числовой формат, оказалось все очень просто .astype(int)

In [1]:
# The usual preamble
%matplotlib inline

import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

# Make the graphs a bit prettier, and bigger
pd.set_option('display.mpl_style', 'default')
plt.rcParams['figure.figsize'] = (15, 5)
In [2]:
from StringIO import StringIO
In [3]:
aprpath000 = '/media/MYLINUXLIVE/Documents/Xpdf/aerbu_2014_all_csv/1aug2/000_eng_car-sales-in-april-2014.csv'
In [10]:
pd000 = pd.read_csv(aprpath000, error_bad_lines=False)
2014 2013 YoY % 2014.1 2013.1 YoY %.1 Unnamed: 6
Lada 128633 151527 -15% 37030 44100 -16% NaN
Renault* 63647 67208 -5% 17395 19178 -9% NaN
KIA 60033 60027 0% 17744 18303 -3% NaN
Nissan* 57579 44188 30% 11835 8272 43% NaN
Hyundai* 57240 56582 1% 15933 15868 0% NaN
Toyota* 50160 44610 12% 15103 15278 -1% NaN
Chevrolet 48586 52489 -7% 13279 16083 -17% NaN
VW 45828 49477 -7% 11497 14203 -19% NaN
Mitsubishi 27943 26322 6% 6101 7182 -15% NaN

1. Чтобы узнать количество ненулевых ячеек в каждом столбце, надо настроить .info()

In [9]:
pd000.info(verbose=True, buf=None, max_cols=None, memory_usage=True, null_counts=True)
<class 'pandas.core.frame.DataFrame'>
Index: 9 entries, Lada to Mitsubishi
Data columns (total 7 columns):
2014          9 non-null int64
2013          9 non-null int64
YoY %         9 non-null object
2014.1        9 non-null int64
2013.1        9 non-null int64
YoY %.1       9 non-null object
Unnamed: 6    0 non-null float64
dtypes: float64(1), int64(4), object(2)
memory usage: 468.0+ bytes

verbose : {None, True, False}, optional

Whether to print the full summary. None follows the display.max_info_columns setting. True or False overrides the display.max_info_columns setting.

buf : writable buffer, defaults to sys.stdout

max_cols : int, default None

Determines whether full summary or short summary is printed. None follows the display.max_info_columns setting.

memory_usage : boolean, default None

Specifies whether total memory usage of the DataFrame elements (including index) should be displayed. None follows the display.memory_usage setting. True or False overrides the display.memory_usage setting. Memory usage is shown in human-readable units (base-2 representation).

null_counts : boolean, default None

Whether to show the non-null counts If None, then only show if the frame is smaller than max_info_rows and max_info_columns. If True, always show counts. If False, never show counts.
In [28]:
2014 2013 2014.1 2013.1 Unnamed: 6
count 9.000000 9.000000 9.000000 9.000000 0
mean 59961.000000 61381.111111 16213.000000 17607.444444 NaN
std 27822.781511 35727.949516 8592.638666 10741.348311 NaN
min 27943.000000 26322.000000 6101.000000 7182.000000 NaN
25% 48586.000000 44610.000000 11835.000000 14203.000000 NaN
50% 57240.000000 52489.000000 15103.000000 15868.000000 NaN
75% 60033.000000 60027.000000 17395.000000 18303.000000 NaN
max 128633.000000 151527.000000 37030.000000 44100.000000 NaN

Я настолько привык к автоматическому переопределению типов, что надеюся убрать знак % в столбцах "YoY % " и посчитать описания для всех столбцов

In [31]:
pd000['YoY %'].str.contains('%') #p.210 | Chapter 7: Data Wrangling: Clean, Transform, Merge, Reshape
Lada          True
Renault*      True
KIA           True
Nissan*       True
Hyundai*      True
Toyota*       True
Chevrolet     True
VW            True
Mitsubishi    True
Name: YoY %, dtype: bool

Строковые операторы можно применять ко всему столбцу сразу (Series)

In [38]:
pstr = pd000['YoY %'].str

Пробуем убрать из столбца "лишние символы" при помощи .replace()

In [41]:
count      9
unique     8
top       -7
freq       2
Name: YoY %, dtype: object

Теперь я хотел бы конвертировать столбец строк в столбец чисел (чтобы посчитать средние, например)

In [43]:

Сначала попробуем тупой вариант, здесь срабатывают все варианты для... Так что пока не пойму, конвертирует ли Pandas автоматически, очевидно, что для строковых объектов, вряд ли:

In [47]:
#pstr = pd000['YoY %'].str - мы сами задали объект, как строку
AttributeError                            Traceback (most recent call last)
<ipython-input-47-0e2c06e6140f> in <module>()
      1 #pstr = pd000['YoY %'].str
----> 2 pstr.mean

AttributeError: 'StringMethods' object has no attribute 'mean'

Так как конвертировать строку в число?

In [48]:
2014 2013 YoY % 2014.1 2013.1 YoY %.1 Unnamed: 6
Lada 128633 151527 -16% 37030 44100 -16% NaN
Renault* 63647 67208 -5% 17395 19178 -9% NaN
KIA 60033 60027 0% 17744 18303 -3% NaN
Nissan* 57579 44188 30% 11835 8272 43% NaN
Hyundai* 57240 56582 1% 15933 15868 0% NaN
Toyota* 50160 44610 12% 15103 15278 -1% NaN
Chevrolet 48586 52489 -7% 13279 16083 -17% NaN
VW 45828 49477 -7% 11497 14203 -19% NaN
Mitsubishi 27943 26322 6% 6101 7182 -15% NaN
In [56]:
<bound method Series.get of Lada          -16
Renault*       -5
KIA             0
Nissan*        30
Hyundai*        1
Toyota*        12
Chevrolet      -7
VW             -7
Mitsubishi      6
Name: YoY %, dtype: object>
In [60]:
Lada         -16
Renault*      -5
KIA            0
Nissan*       30
Hyundai*       1
Toyota*       12
Chevrolet     -7
VW            -7
Mitsubishi     6
Name: YoY %, dtype: int32

Вот он, приемлемый вариант для конвертации .astype(int)

2. Чтобы проверить уникальность значений в столбце используем .value_counts()

Здесь мы проверяем столбец индекса. Он у нас по умолчанию получился и соответствует названиям марок. Напомним, что в предыдущем посте мы работали с полным файлом, в котором строка "Mersedes-Benz van" содержала 9 полей (а все 8) и кроме того, была еще строка "Mersedes-Benz"... что с ними делать... еще не решено.

In [14]:
Hyundai*      1
Mitsubishi    1
KIA           1
Nissan*       1
VW            1
Lada          1
Toyota*       1
Chevrolet     1
Renault*      1
dtype: int64

Очевидно, что подсчет уникальных значений не панацея..., но его рекомендуют авторы мануалов (ссылки в начале поста)

Теперь подсчитаем уникальные значения в обычном столбце:

In [19]:
pd000['YoY %'].value_counts()
-7%     2
6%      1
30%     1
0%      1
12%     1
1%      1
-15%    1
-5%     1
dtype: int64

Или вот так: .unique()

In [21]:
pd000['YoY %'].unique()
array(['-15%', '-5%', '0%', '30%', '1%', '12%', '-7%', '6%'], dtype=object)
In [ ]:
####Из столбца можно выбрать конкретный элемент по индексу
In [22]:
column = pd000['YoY %']
In [24]:
In [25]:
pd000['YoY %'].Lada
In [26]:
pd000['YoY %'].Lada = '-16%'
/usr/local/lib/python2.7/dist-packages/pandas/core/generic.py:1974: SettingWithCopyWarning: 
A value is trying to be set on a copy of a slice from a DataFrame

See the the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  self[name] = value
In [27]:
pd000['YoY %'].Lada

Значения "ячейке" можно переприсвоить.

In [ ]:
In [ ]:
aprpath = '/media/MYLINUXLIVE/Documents/Xpdf/aerbu_2014_all_csv/1aug2/eng_car-sales-in-april-2014.csv'
In [ ]:
#pd = pd.read_csv(aprpath, error_bad_lines=False)

Методы для обработки столбца

In [23]:

Методы объекта DataFrame

In [13]:
In [12]:
{'2013': Lada          151527
 Renault*       67208
 KIA            60027
 Nissan*        44188
 Hyundai*       56582
 Toyota*        44610
 Chevrolet      52489
 VW             49477
 Mitsubishi     26322
 Name: 2013, dtype: int64, '2013.1': Lada          44100
 Renault*      19178
 KIA           18303
 Nissan*        8272
 Hyundai*      15868
 Toyota*       15278
 Chevrolet     16083
 VW            14203
 Mitsubishi     7182
 Name: 2013.1, dtype: int64, '2014': Lada          128633
 Renault*       63647
 KIA            60033
 Nissan*        57579
 Hyundai*       57240
 Toyota*        50160
 Chevrolet      48586
 VW             45828
 Mitsubishi     27943
 Name: 2014, dtype: int64, '2014.1': Lada          37030
 Renault*      17395
 KIA           17744
 Nissan*       11835
 Hyundai*      15933
 Toyota*       15103
 Chevrolet     13279
 VW            11497
 Mitsubishi     6101
 Name: 2014.1, dtype: int64, 'Unnamed: 6': Lada         NaN
 Renault*     NaN
 KIA          NaN
 Nissan*      NaN
 Hyundai*     NaN
 Toyota*      NaN
 Chevrolet    NaN
 VW           NaN
 Mitsubishi   NaN
 Name: Unnamed: 6, dtype: float64, 'YoY %': Lada          -15%
 Renault*       -5%
 KIA             0%
 Nissan*        30%
 Hyundai*        1%
 Toyota*        12%
 Chevrolet      -7%
 VW             -7%
 Mitsubishi      6%
 Name: YoY %, dtype: object, 'YoY %.1': Lada          -16%
 Renault*       -9%
 KIA            -3%
 Nissan*        43%
 Hyundai*        0%
 Toyota*        -1%
 Chevrolet     -17%
 VW            -19%
 Mitsubishi    -15%
 Name: YoY %.1, dtype: object}
In [ ]:

