时间序列基础

时间序列基础
- 索引、选取、子集构造
- 带有重复索引的时间序列

pandas最基本的时间序列类型就是以时间戳（通常以Python字符串或datatime对象表示）为索引的Series：

In [346]: from datetime import datetime
 
In [347]: dates = [datetime(2011, 1, 2), datetime(2011, 1, 5), datetime(2011, 1, 7),
     ...:          datetime(2011, 1, 8), datetime(2011, 1, 10), datetime(2011, 1, 12)]
 
In [348]: ts = Series(np.random.randn(6), index=dates)
 
In [349]: ts
Out[349]:
2011-01-02        0.690002
2011-01-05        1.001543
2011-01-07       -0.503087
2011-01-08       -0.622274
2011-01-10       -0.921169
2011-01-12       -0.726213

这些datetime对象实际上是被放在一个DatetimeIndex中的。现在，变量ts就成为一个TimeSeries了：

In [350]: type(ts)
Out[350]: pandas.core.series.TimeSeries
 
In [351]: ts.index
Out[351]:
<class 'pandas.tseries.index.DatetimeIndex'>
[2011-01-02 00:00:00, ..., 2011-01-12 00:00:00]
Length: 6, Freq: None, Timezone: None

注意：没必要显式使用TimeSeries的构造函数。当创建一个带有DatetimeIndex的Series时，pandas就会知道该对象是一个时间序列。

跟其他Series一样，不同索引的时间序列之间的算术运算会自动按日期对齐：

In [352]: ts + ts[::2]
Out[352]:
2011-01-02   1.380004
2011-01-05        NaN
2011-01-07  -1.006175
2011-01-08        NaN
2011-01-10  -1.842337
2011-01-12        NaN

pandas用NumPy的datetime64数据类型以纳秒形式存储时间戳：

In [353]: ts.index.dtype
Out[353]: dtype('datetime64[ns]')

DatetimeIndex中的各个标量值是pandas的Timestamp对象：

In [354]: stamp = ts.index[0]
 
In [355]: stamp
Out[355]: <Timestamp: 2011-01-02 00:00:00>

只要有需要，TimeStamp可以随时自动转换为datetime对象。此外，它还可以存储频率信息（如果有的话），且知道如何执行时区转换以及其他操作。稍后将对此进行详细讲解。

索引、选取、子集构造

由于TimeSeries是Series的一个子类，所以在索引以及数据选取方面它们的行为是一样的：

In [356]: stamp = ts.index[2]
 
In [357]: ts[stamp]
Out[357]: -0.50308739136034464

还有一种更为方便的用法：传入一个可以被解释为日期的字符串。

In [358]: ts['1/10/2011']
Out[358]: -0.92116860801301081
In [359]: ts['20110110']
Out[359]: -0.92116860801301081

对于较长的时间序列，只需传入“年”或“年月”即可轻松选取数据的切片：

In [360]: longer_ts = Series(np.random.randn(1000),
     ...:                    index=pd.date_range('1/1/2000', periods=1000))
 
In [361]: longer_ts
Out[361]:
2000-01-01    0.222896
2000-01-02    0.051316
2000-01-03   -1.157719
2000-01-04    0.816707
...
2002-09-23   -0.395813
2002-09-24   -0.180737
2002-09-25    1.337508
2002-09-26   -0.416584
Freq: D, Length: 1000
 
In [362]: longer_ts['2001']
Out[362]:
2001-01-01   -1.499503
2001-01-02    0.545154
2001-01-03    0.400823
2001-01-04   -1.946230
...
2001-12-28   -1.568139
2001-12-29   -0.900887
2001-12-30    0.652346
2001-12-31    0.871600
Freq: D, Length: 365
In [363]: longer_ts['2001-05']
Out[363]:
2001-05-01    1.662014
2001-05-02   -1.189203
2001-05-03    0.093597
2001-05-04   -0.539164
...
2001-05-28   -0.683066
2001-05-29   -0.950313
2001-05-30    0.400710
2001-05-31   -0.126072
Freq: D, Length: 31

通过日期进行切片的方式只对规则Series有效：

In [364]: ts[datetime(2011, 1, 7):]
Out[364]:
2011-01-07   -0.503087
2011-01-08   -0.622274
2011-01-10   -0.921169
2011-01-12   -0.726213

由于大部分时间序列数据都是按照时间先后排序的，因此你也可以用不存在于该时间序列中的时间戳对其进行切片（即范围查询）：

In [365]: ts
Out[365]:
2011-01-02    0.690002
2011-01-05    1.001543
2011-01-07   -0.503087
2011-01-08   -0.622274
2011-01-10   -0.921169
2011-01-12   -0.726213
In [366]: ts['1/6/2011':'1/11/2011']
Out[366]:
2011-01-07   -0.503087
2011-01-08   -0.622274
2011-01-10   -0.921169

跟之前一样，这里可以传入字符串日期、datetime或Timestamp。注意，这样切片所产生的是源时间序列的视图，跟NumPy数组的切片运算是一样的。此外，还有一个等价的实例方法也可以截取两个日期之间TimeSeries：

In [367]: ts.truncate(after='1/9/2011')
Out[367]:
2011-01-02    0.690002
2011-01-05    1.001543
2011-01-07   -0.503087
2011-01-08   -0.622274

上面这些操作对DataFrame也有效。例如，对DataFrame的行进行索引：

In [368]: dates = pd.date_range('1/1/2000', periods=100, freq='W-WED')
 
In [369]: long_df = DataFrame(np.random.randn(100, 4),
     ...:                     index=dates,
     ...:                     columns=['Colorado', 'Texas', 'New York', 'Ohio'])
 
In [370]: long_df.ix['5-2001']
Out[370]:
            Colorado     Texas  New York      Ohio
2001-05-02  0.943479 -0.349366  0.530412 -0.508724
2001-05-09  0.230643 -0.065569 -0.248717 -0.587136
2001-05-16 -1.022324  1.060661  0.954768 -0.511824
2001-05-23 -1.387680  0.767902 -1.164490  1.527070
2001-05-30  0.287542  0.715359 -0.345805  0.470886

带有重复索引的时间序列

在某些应用场景中，可能会存在多个观测数据落在同一个时间点上的情况。下面就是一个例子：

In [371]: dates = pd.DatetimeIndex(['1/1/2000', '1/2/2000', '1/2/2000', '1/2/2000',
     ...:                           '1/3/2000'])
 
In [372]: dup_ts = Series(np.arange(5), index=dates)
 
In [373]: dup_ts
Out[373]:
2000-01-01    0
2000-01-02    1
2000-01-02    2
2000-01-02    3
2000-01-03    4

通过检查索引的is_unique属性，我们就可以知道它是不是唯一的：

In [374]: dup_ts.index.is_unique
Out[374]: False

对这个时间序列进行索引，要么产生标量值，要么产生切片，具体要看所选的时间点是否重复：

In [375]: dup_ts['1/3/2000']  # 不重复
Out[375]: 4
 
In [376]: dup_ts['1/2/2000']  # 重复
Out[376]:
2000-01-02    1
2000-01-02    2
2000-01-02    3

假设你想要对具有非唯一时间戳的数据进行聚合。一个办法是使用groupby，并传入level=0（索引的唯一一层！）：

In [377]: grouped = dup_ts.groupby(level=0)
 
In [378]: grouped.mean()     In [379]: grouped.count()
Out[378]:                    Out[379]:
2000-01-01    0              2000-01-01    1
2000-01-02    2              2000-01-02    3
2000-01-03    4              2000-01-03    1