Поиск по блогу

Показаны сообщения с ярлыком direct. Показать все сообщения
Показаны сообщения с ярлыком direct. Показать все сообщения

вторник, 23 июня 2015 г.

Выбираем (в Pandas) инструменты для экспресс-анализа истории поисковых запросов

Хорошо было бы иметь методику анализа поисковых запросов, над ней еще предстоит поразмышлять, а здесь я попробовал не расчитывать, а сразу строить нормировки (на графиках процессов), диаграммы рассеяния и коэффициенты корреляции. Получилась вот такая последовтельность:
Копипастим таблицу "История запрсов" Yandex-Direct в ячейку ipython notebook,
Чистим и редактируем содержание ячейки (кириллица, копипастим разделители)
Считываем содержание в DataFrame (Pandas) .read_csv(StringIO(posobie_c),sep=" ", ...)
Заменяем элементы в подстроках и конвертируем строки в числа .str.replace(',','.').astype('float')
Для удаления части подстроки используем регулярные выражения .str.replace(r'.+ - ','')
Или просто разбиваем строку на подстроки и оставляем подстроку f.Period.str.split(' ').str[2]
Назначаем индекс .set_index('Period') (понадобится ось X для диаграмм)`
Строим две зависимости на одной диаграмме f.set_index('Period').nabs2.plot(secondary_y=True, style='g')
Строим диаграммы рассеяния (scatterplot)
Рассчитываем коэффициенты корреляции