Вот подробная документация (ниже две ссылки на один и тот же сайт). Я с ней познакомился, когда искал варианты работы с csv файлами. Причем, просто мне чем-то не понравились PyTables. Так что первая ссылка на csv-объект. 10 Minutes to Pandas, pandas: powerful Python data analysis toolkit
На официальном сайте есть 10-минутный ролик pandas.pydata.org, в котором рассказывается, как здорово библиотека обрабатывает Timeseries
Там же есть ссылки на другие интересные библиотеки scikit-learn Machine Learning in Python Statsmodels
На официальном сайте есть 10-минутный ролик pandas.pydata.org, в котором рассказывается, как здорово библиотека обрабатывает Timeseries
Там же есть ссылки на другие интересные библиотеки scikit-learn Machine Learning in Python Statsmodels
Начнем с примера Remote Data Access. Здесь прямой доступ к Yahoo, Google,FRED, Fama/French, World Bank
Yahoo! Finance¶
In [1]:
import pandas.io.data as web
In [2]:
import datetime
In [3]:
start = datetime.datetime(2010, 1, 1)
In [4]:
end = datetime.datetime(2013, 01, 27)
In [5]:
f=web.DataReader("F", 'yahoo', start, end)
In [6]:
f.ix['2010-01-04']
Out[6]:
World Bank¶
In [8]:
from pandas.io import wb
In [10]:
wb.search('gdp.*capita.*const').iloc[:,:2]
Out[10]:
Out[10]:
In [11]:
dat = wb.download(indicator='NY.GDP.PCAP.KD', country=['US', 'CA', 'MX'], start=2005, end=2008)
In [12]:
print(dat)
The resulting dataset is a properly formatted DataFrame with a hierarchical index, so it is easy to apply .groupby transformations to it:
In [13]:
dat['NY.GDP.PCAP.KD'].groupby(level=0).mean()
Out[13]:
Now imagine you want to compare GDP to the share of people with cellphone contracts around the world.
In [14]:
wb.search('cell.*%').iloc[:,:2]
Out[14]:
Notice that this second search was much faster than the first one because Pandas now has a cached list of available data series.
In [15]:
ind = ['NY.GDP.PCAP.KD', 'IT.MOB.COV.ZS']
In [16]:
dat = wb.download(indicator=ind, country='all', start=2011, end=2011).dropna()
In [17]:
dat.columns = ['gdp', 'cellphone']
In [18]:
print(dat.tail())
Finally, we use the statsmodels package to assess the relationship between our two variables using ordinary least squares regression. Unsurprisingly, populations in rich countries tend to use cellphones at a higher rate:
In [19]:
import numpy as np
In [20]:
import statsmodels.formula.api as smf
In [21]:
mod = smf.ols("cellphone ~ np.log(gdp)", dat).fit()
In [22]:
print(mod.summary())
Эти "новые" возможностми импорта курсов акций настолько меня восхитили, что я решил упражнения с csv-файлами перенести в следующий пост.
Посты чуть ниже также могут вас заинтересовать
Комментариев нет:
Отправить комментарий