1880-2010年间全美婴儿姓名
美国社会保障总署(SSA)提供了一份从1880年到2010年的婴儿名字频率数据。Hadley Wickham(许多流行R包的作者)经常用这份数据来演示R的数据处理功能。
- In [4]: names.head(10)
- Out[4]:
- name sex births year
- 0 Mary F 7065 1880
- 1 Anna F 2604 1880
- 2 Emma F 2003 1880
- 3 Elizabeth F 1939 1880
- 4 Minnie F 1746 1880
- 5 Margaret F 1578 1880
- 6 Ida F 1472 1880
- 7 Alice F 1414 1880
- 8 Bertha F 1320 1880
- 9 Sarah F 1288 1880
你可以用这个数据集做很多事,例如:
·计算指定名字(可以是你自己的,也可以是别人的)的年度比例。
·计算某个名字的相对排名。
·计算各年度最流行的名字,以及增长或减少最快的名字。
·分析名字趋势:元音、辅音、长度、总体多样性、拼写变化、首尾字母等。
·分析外源性趋势:圣经中的名字、名人、人口结构变化等。
利用前面介绍过的那些工具,这些分析工作都能很轻松地完成,因此我会尽量多讲一些。我建议你下载这些数据并亲自试一试。如果你在这些数据中找到了某个有趣的模式,我将非常乐意听上一听。
到编写本书时为止,美国社会保障总署将该数据库按年度制成了多个数据文件,其中给出了每个性别/名字组合的出生总数。这些文件的原始档案可以在这里获取:译注6
- http://www.ssa.gov/oact/babynames/limits.html?
如果你在阅读本书的时候这个页面已经不见了,也可以用搜索引擎找找。下载"National data"文件names.zip,解压后的目录中含有一组文件(如yob1880.txt)。我用UNIX的head命令查看了其中一个文件的前10行(在Windows上,你可以用more命令,或直接在文本编辑器中打开):
- In [367]: !head -n 10 names/yob1880.txt
- Mary,F,7065
- Anna,F,2604
- Emma,F,2003
- Elizabeth,F,1939
- Minnie,F,1746
- Margaret,F,1578
- Ida,F,1472
- Alice,F,1414
- Bertha,F,1320
- Sarah,F,1288
由于这是一个非常标准的以逗号隔开的格式,所以可以用pandas.read_csv将其加载到DataFrame中:
- In [368]: import pandas as pd
- In [369]: names1880 = pd.read_csv('names/yob1880.txt', names=['name', 'sex', 'births'])
- In [370]: names1880
- Out[370]:
- <class 'pandas.core.frame.DataFrame'>
- Int64Index: 2000 entries, 0 to 1999
- Data columns:
- name 2000 non-null values
- sex 2000 non-null values
- births 2000 non-null values
- dtypes: int64(1), object(2)
这些文件中仅含有当年出现超过5次的名字。为了简单起见,我们可以用births列的sex分组小计表示该年度的births总计:
- In [371]: names1880.groupby('sex').births.sum()
- Out[371]:
- sex
- F 90993
- M 110493
- Name: births
由于该数据集按年度被分隔成了多个文件,所以第一件事情就是要将所有数据都组装到一个DataFrame里面,并加上一个year字段。使用pandas.concat即可达到这个目的:
- # 2010是目前最后一个有效统计年度
- years = range(1880, 2011)
- pieces = []
- columns = ['name', 'sex', 'births']
- for year in years:
- path = 'names/yob%d.txt' % year
- frame = pd.read_csv(path, names=columns)
- frame['year'] = year
- pieces.append(frame)
- # 将所有数据整合到单个DataFrame中
- names = pd.concat(pieces, ignore_index=True)
这里需要注意几件事情。第一,concat默认是按行将多个DataFrame组合到一起的;第二,必须指定ignore_index=True,因为我们不希望保留read_csv所返回的原始行号。现在我们得到了一个非常大的DataFrame,它含有全部的名字数据。
现在names这个DataFrame对象看上去应该是这个样子:
- In [373]: names
- Out[373]:
- <class 'pandas.core.frame.DataFrame'>
- Int64Index: 1690784 entries, 0 to 1690783
- Data columns:
- name 1690784 non-null values
- sex 1690784 non-null values
- births 1690784 non-null values
- year 1690784 non-null values
- dtypes: int64(2), object(2)
有了这些数据之后,我们就可以利用groupby或pivot_table在year和sex级别上对其进行聚合了,如图2-4所示:
- In [374]: total_births = names.pivot_table('births', rows='year',
- ...: cols='sex', aggfunc=sum)
- In [375]: total_births.tail()
- Out[375]:
- sex F M
- year
- 2006 1896468 2050234
- 2007 1916888 2069242
- 2008 1883645 2032310
- 2009 1827643 1973359
- 2010 1759010 1898382
- In [376]: total_births.plot(title='Total births by sex and year')
下面我们来插入一个prop列,用于存放指定名字的婴儿数相对于总出生数的比例。prop值为0.02表示每100名婴儿中有2名取了当前这个名字。因此,我们先按year和sex分组,然后再将新列加到各个分组上:
- def add_prop(group):
- # 整数除法会向下圆整
- births = group.births.astype(float)
- group['prop'] = births / births.sum()
- return group
- names = names.groupby(['year', 'sex']).apply(add_prop)
注意:由于births是整数,所以我们在计算分式时必须将分子或分母转换成浮点数(除非你正在使用Python 3!)。
图2-4:按性别和年度统计的总出生数
现在,完整的数据集就有了下面这些列:
- In [378]: names
- Out[378]:
- <class 'pandas.core.frame.DataFrame'>
- Int64Index: 1690784 entries, 0 to 1690783
- Data columns:
- name 1690784 non-null values
- sex 1690784 non-null values
- births 1690784 non-null values
- year 1690784 non-null values
- prop 1690784 non-null values
- dtypes: float64(1), int64(2), object(2)
在执行这样的分组处理时,一般都应该做一些有效性检查,比如验证所有分组的prop的总和是否为1。由于这是一个浮点型数据,所以我们应该用np.allclose来检查这个分组总计值是否足够近似于(可能不会精确等于)1:
- In [379]: np.allclose(names.groupby(['year', 'sex']).prop.sum(), 1)
- Out[379]: True
这样就算完活了。为了便于实现更进一步的分析,我需要取出该数据的一个子集:每对sex/year组合的前1000个名字。这又是一个分组操作:
- def get_top1000(group):
- return group.sort_index(by='births', ascending=False)[:1000]
- grouped = names.groupby(['year', 'sex'])
- top1000 = grouped.apply(get_top1000)
如果你喜欢DIY的话,也可以这样:
- pieces = []
- for year, group in names.groupby(['year', 'sex']):
- pieces.append(group.sort_index(by='births', scending=False)[:1000])
- top1000 = pd.concat(pieces, ignore_index=True)
现在的结果数据集就小多了:
- In [382]: top1000
- Out[382]:
- <class 'pandas.core.frame.DataFrame'>
- Int64Index: 261877 entries, 0 to 261876
- Data columns:
- name 261877 non-null values
- sex 261877 non-null values
- births 261877 non-null values
- year 261877 non-null values
- prop 261877 non-null values
- dtypes: float64(1), int64(2), object(2)
接下来的数据分析工作就针对这个top1000数据集了。
分析命名趋势
有了完整的数据集和刚才生成的top1000数据集,我们就可以开始分析各种命名趋势了。首先将前1000个名字分为男女两个部分:
- In [383]: boys = top1000[top1000.sex == 'M']
- In [384]: girls = top1000[top1000.sex == 'F']
这是两个简单的时间序列,只需稍作整理即可绘制出相应的图表(比如每年叫做John和Mary的婴儿数)。我们先生成一张按year和name统计的总出生数透视表:
- In [385]: total_births = top1000.pivot_table('births', rows='year', cols='name',
- ...: aggfunc=sum)
现在,我们用DataFrame的plot方法绘制几个名字的曲线图:
- In [386]: total_births
- Out[386]:
- <class 'pandas.core.frame.DataFrame'>
- Int64Index: 131 entries, 1880 to 2010
- Columns: 6865 entries, Aaden to Zuri
- dtypes: float64(6865)
- In [387]: subset = total_births[['John', 'Harry', 'Mary', 'Marilyn']]
- In [388]: subset.plot(subplots=True, figsize=(12, 10), grid=False,
- ...: title="Number of births per year")
最终结果如图2-5所示。从图中可以看出,这几个名字在美国人民的心目中已经风光不再了。但事实并非如此简单,我们在下一节中就能知道是怎么一回事了。
图2-5:几个男孩和女孩名字随时间变化的使用数量
评估命名多样性的增长
图2-5所反映的降低情况可能意味着父母愿意给小孩起常见的名字越来越少。这个假设可以从数据中得到验证。一个办法是计算最流行的1000个名字所占的比例,我按year和sex进行聚合并绘图:
- In [390]: table = top1000.pivot_table('prop', rows='year',
- ...: cols='sex', aggfunc=sum)
- In [391]: table.plot(title='Sum of table1000.prop by year and sex',
- ...: yticks=np.linspace(0, 1.2, 13), xticks=range(1880, 2020, 10))
结果如图2-6所示。从图中可以看出,名字的多样性确实出现了增长(前1000项的比例降低)。另一个办法是计算占总出生人数前50%的不同名字的数量,这个数字不太好计算。我们只考虑2010年男孩的名字:
- In [392]: df = boys[boys.year == 2010]
- In [393]: df
- Out[393]:
- <class 'pandas.core.frame.DataFrame'>
- Int64Index: 1000 entries, 260877 to 261876
- Data columns:
- name 1000 non-null values
- sex 1000 non-null values
- births 1000 non-null values
- year 1000 non-null values
- prop 1000 non-null values
- dtypes: float64(1), int64(2), object(2)
图2-6:分性别统计的前1000个名字在总出生人数中的比例
在对prop降序排列之后,我们想知道前面多少个名字的人数加起来才够50%。虽然编写一个for循环确实也能达到目的,但NumPy有一种更聪明的矢量方式。先计算prop的累计和cumsum,然后再通过searchsorted方法找出0.5应该被插入在哪个位置才能保证不破坏顺序:
- In [394]: prop_cumsum = df.sort_index(by='prop', ascending=False).prop.cumsum()
- In [395]: prop_cumsum[:10]
- Out[395]:
- 260877 0.011523
- 260878 0.020934
- 260879 0.029959
- 260880 0.038930
- 260881 0.047817
- 260882 0.056579
- 260883 0.065155
- 260884 0.073414
- 260885 0.081528
- 260886 0.089621
- In [396]: prop_cumsum.searchsorted(0.5)
- Out[396]: 116
由于数组索引是从0开始的,因此我们要给这个结果加1,即最终结果为117。拿1900年的数据来做个比较,这个数字要小得多:
- In [397]: df = boys[boys.year == 1900]
- In [398]: in1900 = df.sort_index(by='prop', ascending=False).prop.cumsum()
- In [399]: in1900.searchsorted(0.5) + 1
- Out[399]: 25
现在就可以对所有year/sex组合执行这个计算了。按这两个字段进行groupby处理,然后用一个函数计算各分组的这个值:
- def get_quantile_count(group, q=0.5):
- group = group.sort_index(by='prop', ascending=False)
- return group.prop.cumsum().searchsorted(q) + 1
- diversity = top1000.groupby(['year', 'sex']).apply(get_quantile_count)
- diversity = diversity.unstack('sex')
现在,diversity这个DataFrame拥有两个时间序列(每个性别各一个,按年度索引)。通过IPython,你可以查看其内容,还可以像之前那样绘制图表(如图2-7所示):
- In [401]: diversity.head()
- Out[401]:
- sex F M
- year
- 1880 38 14
- 1881 38 14
- 1882 38 15
- 1883 39 15
- 1884 39 16
- In [402]: diversity.plot(title="Number of popular names in top 50%")
图2-7:按年度统计的密度表
从图中可以看出,女孩名字的多样性总是比男孩的高,而且还在变得越来越高。读者们可以自己分析一下具体是什么在驱动这个多样性(比如拼写形式的变化)。
“最后一个字母”的变革
2007年,一名婴儿姓名研究人员Laura Wattenberg在她自己的网站上指出(http://www.babynamewizard.com):近百年来,男孩名字在最后一个字母上的分布发生了显著的变化。为了了解具体的情况,我首先将全部出生数据在年度、性别以及末字母上进行了聚合:
- # 从name列取出最后一个字母
- get_last_letter = lambda x: x[-1]
- last_letters = names.name.map(get_last_letter)
- last_letters.name = 'last_letter'
- table = names.pivot_table('births', rows=last_letters,
- cols=['sex', 'year'], aggfunc=sum)
然后,我选出具有一定代表性的三年,并输出前面几行:
- In [404]: subtable = table.reindex(columns=[1910, 1960, 2010], level='year')
- In [405]: subtable.head()
- Out[405]:
- sex F M
- year 1910 1960 2010 1910 1960 2010
- last_letter
- a 108376 691247 670605 977 5204 28438
- b NaN 694 450 411 3912 38859
- c 5 49 946 482 15476 23125
- d 6750 3729 2607 22111 262112 44398
- e 133569 435013 313833 28655 178823 129012
接下来我们需要按总出生数对该表进行规范化处理,以便计算出各性别各末字母占总出生人数的比例:
- In [406]: subtable.sum()
- Out[406]:
- sex year
- F 1910 396416
- 1960 2022062
- 2010 1759010
- M 1910 194198
- 1960 2132588
- 2010 1898382
- In [407]: letter_prop = subtable / subtable.sum().astype(float)
有了这个字母比例数据之后,就可以生成一张各年度各性别的条形图了,如图2-8所示:
- import matplotlib.pyplot as plt
- fig, axes = plt.subplots(2, 1, figsize=(10, 8))
- letter_prop['M'].plot(kind='bar', rot=0, ax=axes[0], title='Male')
- letter_prop['F'].plot(kind='bar', rot=0, ax=axes[1], title='Female', legend=False)
图2-8:男孩女孩名字中各个末字母的比例
从图2-8中可以看出,从20世纪60年代开始,以字母"n"结尾的男孩名字出现了显著的增长。回到之前创建的那个完整表,按年度和性别对其进行规范化处理,并在男孩名字中选取几个字母,最后进行转置以便将各个列做成一个时间序列:
- In [410]: letter_prop = table / table.sum().astype(float)
- In [411]: dny_ts = letter_prop.ix[['d', 'n', 'y'], 'M'].T
- In [412]: dny_ts.head()
- Out[412]:
- d n y
- year
- 1880 0.083055 0.153213 0.075760
- 1881 0.083247 0.153214 0.077451
- 1882 0.085340 0.149560 0.077537
- 1883 0.084066 0.151646 0.079144
- 1884 0.086120 0.149915 0.080405
有了这个时间序列的DataFrame之后,就可以通过其plot方法绘制出一张趋势图了(如图2-9所示):
- In [414]: dny_ts.plot()
图2-9:各年出生的男孩中名字以d/n/y结尾的人数比例
变成女孩名字的男孩名字(以及相反的情况)
另一个有趣的趋势是,早年流行于男孩的名字近年来“变性了”,例如Lesley或Leslie。回到top1000数据集,找出其中以"lesl"开头的一组名字:
- In [415]: all_names = top1000.name.unique()
- In [416]: mask = np.array(['lesl' in x.lower() for x in all_names])
- In [417]: lesley_like = all_names[mask]
- In [418]: lesley_like
- Out[418]: array([Leslie, Lesley, Leslee, Lesli, Lesly], dtype=object)
然后利用这个结果过滤其他的名字,并按名字分组计算出生数以查看相对频率:
- In [419]: filtered = top1000[top1000.name.isin(lesley_like)]
- In [420]: filtered.groupby('name').births.sum()
- Out[420]:
- name
- Leslee 1082
- Lesley 35022
- Lesli 929
- Leslie 370429
- Lesly 10067
- Name: births
接下来,我们按性别和年度进行聚合,并按年度进行规范化处理:
- In [421]: table = filtered.pivot_table('births', rows='year',
- ...: cols='sex', aggfunc='sum')
- In [422]: table = table.div(table.sum(1), axis=0)
- In [423]: table.tail()
- Out[423]:
- sex F M
- year
- 2006 1 NaN
- 2007 1 NaN
- 2008 1 NaN
- 2009 1 NaN
- 2010 1 NaN
现在,我们就可以轻松绘制一张分性别的年度曲线图了(如图2-10所示):
- In [425]: table.plot(style={'M': 'k-', 'F': 'k--'})
图2-10:各年度使用“Lesley型”名字的男女比例
译注6:如下链接可能不可用,读者可直接在本书的github上下载。