1880-2010年间全美婴儿姓名

1880-2010年间全美婴儿姓名
- 分析命名趋势

美国社会保障总署（SSA）提供了一份从1880年到2010年的婴儿名字频率数据。Hadley Wickham（许多流行R包的作者）经常用这份数据来演示R的数据处理功能。

In [4]: names.head(10)
Out[4]:
        name       sex     births     year
0       Mary       F       7065       1880
1       Anna       F       2604       1880
2       Emma       F       2003       1880
3       Elizabeth  F       1939       1880
4       Minnie     F       1746       1880
5       Margaret   F       1578       1880
6       Ida        F       1472       1880
7       Alice      F       1414       1880
8       Bertha     F       1320       1880
9       Sarah      F       1288       1880

你可以用这个数据集做很多事，例如：

·计算指定名字（可以是你自己的，也可以是别人的）的年度比例。

·计算某个名字的相对排名。

·计算各年度最流行的名字，以及增长或减少最快的名字。

·分析名字趋势：元音、辅音、长度、总体多样性、拼写变化、首尾字母等。

·分析外源性趋势：圣经中的名字、名人、人口结构变化等。

利用前面介绍过的那些工具，这些分析工作都能很轻松地完成，因此我会尽量多讲一些。我建议你下载这些数据并亲自试一试。如果你在这些数据中找到了某个有趣的模式，我将非常乐意听上一听。

到编写本书时为止，美国社会保障总署将该数据库按年度制成了多个数据文件，其中给出了每个性别/名字组合的出生总数。这些文件的原始档案可以在这里获取：^译注6

http://www.ssa.gov/oact/babynames/limits.html?

如果你在阅读本书的时候这个页面已经不见了，也可以用搜索引擎找找。下载"National data"文件names.zip，解压后的目录中含有一组文件（如yob1880.txt）。我用UNIX的head命令查看了其中一个文件的前10行（在Windows上，你可以用more命令，或直接在文本编辑器中打开）：

In [367]: !head -n 10 names/yob1880.txt
Mary,F,7065
Anna,F,2604
Emma,F,2003
Elizabeth,F,1939
Minnie,F,1746
Margaret,F,1578
Ida,F,1472
Alice,F,1414
Bertha,F,1320
Sarah,F,1288

由于这是一个非常标准的以逗号隔开的格式，所以可以用pandas.read_csv将其加载到DataFrame中：

In [368]: import pandas as pd
 
In [369]: names1880 = pd.read_csv('names/yob1880.txt', names=['name', 'sex', 'births'])
 
In [370]: names1880
Out[370]:
<class 'pandas.core.frame.DataFrame'>
Int64Index: 2000 entries, 0 to 1999
Data columns:
name      2000  non-null values
sex       2000  non-null values
births    2000  non-null values
dtypes: int64(1), object(2)

这些文件中仅含有当年出现超过5次的名字。为了简单起见，我们可以用births列的sex分组小计表示该年度的births总计：

In [371]: names1880.groupby('sex').births.sum()
Out[371]:
sex
F      90993
M     110493
Name: births

由于该数据集按年度被分隔成了多个文件，所以第一件事情就是要将所有数据都组装到一个DataFrame里面，并加上一个year字段。使用pandas.concat即可达到这个目的：

# 2010是目前最后一个有效统计年度
years = range(1880, 2011)
 
pieces = []
columns = ['name', 'sex', 'births']
 
for year in years:
     path = 'names/yob%d.txt' % year
     frame = pd.read_csv(path, names=columns)
 
     frame['year'] = year
     pieces.append(frame)
 
# 将所有数据整合到单个DataFrame中
names = pd.concat(pieces, ignore_index=True)

这里需要注意几件事情。第一，concat默认是按行将多个DataFrame组合到一起的；第二，必须指定ignore_index=True，因为我们不希望保留read_csv所返回的原始行号。现在我们得到了一个非常大的DataFrame，它含有全部的名字数据。

现在names这个DataFrame对象看上去应该是这个样子：

In [373]: names
Out[373]:
<class 'pandas.core.frame.DataFrame'>
Int64Index: 1690784 entries, 0 to 1690783
Data columns:
name      1690784  non-null values
sex       1690784  non-null values
births    1690784  non-null values
year      1690784  non-null values
dtypes: int64(2), object(2)

有了这些数据之后，我们就可以利用groupby或pivot_table在year和sex级别上对其进行聚合了，如图2-4所示：

In [374]: total_births = names.pivot_table('births', rows='year',
     ...:                                  cols='sex', aggfunc=sum)
 
In [375]: total_births.tail()
Out[375]:
sex         F        M
year
2006  1896468  2050234
2007  1916888  2069242
2008  1883645  2032310
2009  1827643  1973359
2010  1759010  1898382
 
In [376]: total_births.plot(title='Total births by sex and year')

下面我们来插入一个prop列，用于存放指定名字的婴儿数相对于总出生数的比例。prop值为0.02表示每100名婴儿中有2名取了当前这个名字。因此，我们先按year和sex分组，然后再将新列加到各个分组上：

def add_prop(group):
    # 整数除法会向下圆整
    births = group.births.astype(float)
 
    group['prop'] = births / births.sum()
　　 return group
names = names.groupby(['year', 'sex']).apply(add_prop)

注意：由于births是整数，所以我们在计算分式时必须将分子或分母转换成浮点数（除非你正在使用Python 3！）。

1880-2010年间全美婴儿姓名 - 图1

图2-4：按性别和年度统计的总出生数

现在，完整的数据集就有了下面这些列：

In [378]: names
Out[378]:
<class 'pandas.core.frame.DataFrame'>
Int64Index: 1690784 entries, 0 to 1690783
Data columns:
name      1690784  non-null values
sex       1690784  non-null values
births    1690784  non-null values
year      1690784  non-null values
prop      1690784  non-null values
dtypes: float64(1), int64(2), object(2)

在执行这样的分组处理时，一般都应该做一些有效性检查，比如验证所有分组的prop的总和是否为1。由于这是一个浮点型数据，所以我们应该用np.allclose来检查这个分组总计值是否足够近似于（可能不会精确等于）1：

In [379]: np.allclose(names.groupby(['year', 'sex']).prop.sum(), 1)
Out[379]: True

这样就算完活了。为了便于实现更进一步的分析，我需要取出该数据的一个子集：每对sex/year组合的前1000个名字。这又是一个分组操作：

def get_top1000(group):
    return group.sort_index(by='births', ascending=False)[:1000]
 
grouped = names.groupby(['year', 'sex'])
top1000 = grouped.apply(get_top1000)

如果你喜欢DIY的话，也可以这样：

pieces = []
for year, group in names.groupby(['year', 'sex']):
    pieces.append(group.sort_index(by='births', scending=False)[:1000])
top1000 = pd.concat(pieces, ignore_index=True)

现在的结果数据集就小多了：

In [382]: top1000
Out[382]:
<class 'pandas.core.frame.DataFrame'>
Int64Index: 261877 entries, 0 to 261876
Data columns:
name      261877  non-null values
sex       261877  non-null values
births    261877  non-null values
year      261877  non-null values
prop      261877  non-null values
dtypes: float64(1), int64(2), object(2)

接下来的数据分析工作就针对这个top1000数据集了。

分析命名趋势

有了完整的数据集和刚才生成的top1000数据集，我们就可以开始分析各种命名趋势了。首先将前1000个名字分为男女两个部分：

In [383]: boys = top1000[top1000.sex == 'M']
 
In [384]: girls = top1000[top1000.sex == 'F']

这是两个简单的时间序列，只需稍作整理即可绘制出相应的图表（比如每年叫做John和Mary的婴儿数）。我们先生成一张按year和name统计的总出生数透视表：

In [385]: total_births = top1000.pivot_table('births', rows='year', cols='name',
     ...:                                     aggfunc=sum)

现在，我们用DataFrame的plot方法绘制几个名字的曲线图：

In [386]: total_births
Out[386]:
<class 'pandas.core.frame.DataFrame'>
Int64Index: 131 entries, 1880 to 2010
Columns: 6865 entries, Aaden to Zuri
dtypes: float64(6865)
 
In [387]: subset = total_births[['John', 'Harry', 'Mary', 'Marilyn']]
 
In [388]: subset.plot(subplots=True, figsize=(12, 10), grid=False,
     ...:             title="Number of births per year")

最终结果如图2-5所示。从图中可以看出，这几个名字在美国人民的心目中已经风光不再了。但事实并非如此简单，我们在下一节中就能知道是怎么一回事了。

1880-2010年间全美婴儿姓名 - 图2

图2-5：几个男孩和女孩名字随时间变化的使用数量

评估命名多样性的增长

图2-5所反映的降低情况可能意味着父母愿意给小孩起常见的名字越来越少。这个假设可以从数据中得到验证。一个办法是计算最流行的1000个名字所占的比例，我按year和sex进行聚合并绘图：

In [390]: table = top1000.pivot_table('prop', rows='year',
     ...:                             cols='sex', aggfunc=sum)
 
In [391]: table.plot(title='Sum of table1000.prop by year and sex',
     ...:            yticks=np.linspace(0, 1.2, 13), xticks=range(1880, 2020, 10))

结果如图2-6所示。从图中可以看出，名字的多样性确实出现了增长（前1000项的比例降低）。另一个办法是计算占总出生人数前50%的不同名字的数量，这个数字不太好计算。我们只考虑2010年男孩的名字：

In [392]: df = boys[boys.year == 2010]
 
In [393]: df
Out[393]:
<class 'pandas.core.frame.DataFrame'>
Int64Index: 1000 entries, 260877 to 261876
Data columns:
name      1000  non-null values
sex       1000  non-null values
births    1000  non-null values
year      1000  non-null values
prop      1000  non-null values
dtypes: float64(1), int64(2), object(2)

1880-2010年间全美婴儿姓名 - 图3

图2-6：分性别统计的前1000个名字在总出生人数中的比例

在对prop降序排列之后，我们想知道前面多少个名字的人数加起来才够50%。虽然编写一个for循环确实也能达到目的，但NumPy有一种更聪明的矢量方式。先计算prop的累计和cumsum，然后再通过searchsorted方法找出0.5应该被插入在哪个位置才能保证不破坏顺序：

In [394]: prop_cumsum = df.sort_index(by='prop', ascending=False).prop.cumsum()
 
In [395]: prop_cumsum[:10]
Out[395]:
260877       0.011523
260878       0.020934
260879       0.029959
260880       0.038930
260881       0.047817
260882       0.056579
260883       0.065155
260884       0.073414
260885       0.081528
260886       0.089621
 
In [396]: prop_cumsum.searchsorted(0.5)
Out[396]: 116

由于数组索引是从0开始的，因此我们要给这个结果加1，即最终结果为117。拿1900年的数据来做个比较，这个数字要小得多：

In [397]: df = boys[boys.year == 1900]
In [398]: in1900 = df.sort_index(by='prop', ascending=False).prop.cumsum()
In [399]: in1900.searchsorted(0.5) + 1
Out[399]: 25

现在就可以对所有year/sex组合执行这个计算了。按这两个字段进行groupby处理，然后用一个函数计算各分组的这个值：

def get_quantile_count(group, q=0.5):
    group = group.sort_index(by='prop', ascending=False)
    return group.prop.cumsum().searchsorted(q) + 1
 
diversity = top1000.groupby(['year', 'sex']).apply(get_quantile_count)
diversity = diversity.unstack('sex')

现在，diversity这个DataFrame拥有两个时间序列（每个性别各一个，按年度索引）。通过IPython，你可以查看其内容，还可以像之前那样绘制图表（如图2-7所示）：

In [401]: diversity.head()
Out[401]:
sex    F   M
year
1880  38  14
1881  38  14
1882  38  15
1883  39  15
1884  39  16
 
In [402]: diversity.plot(title="Number of popular names in top 50%")

1880-2010年间全美婴儿姓名 - 图4

图2-7：按年度统计的密度表

从图中可以看出，女孩名字的多样性总是比男孩的高，而且还在变得越来越高。读者们可以自己分析一下具体是什么在驱动这个多样性（比如拼写形式的变化）。

“最后一个字母”的变革

2007年，一名婴儿姓名研究人员Laura Wattenberg在她自己的网站上指出（http://www.babynamewizard.com）：近百年来，男孩名字在最后一个字母上的分布发生了显著的变化。为了了解具体的情况，我首先将全部出生数据在年度、性别以及末字母上进行了聚合：

# 从name列取出最后一个字母
get_last_letter = lambda x: x[-1]
last_letters = names.name.map(get_last_letter)
last_letters.name = 'last_letter'
table = names.pivot_table('births', rows=last_letters,
                                cols=['sex', 'year'], aggfunc=sum)

然后，我选出具有一定代表性的三年，并输出前面几行：

In [404]: subtable = table.reindex(columns=[1910, 1960, 2010], level='year')
 
In [405]: subtable.head()
Out[405]:
sex               F                      M
year           1910    1960    2010   1910    1960    2010
last_letter
a            108376  691247  670605    977    5204   28438
b               NaN     694     450    411    3912   38859
c                 5      49     946    482   15476   23125
d              6750    3729    2607  22111  262112   44398
e            133569  435013  313833  28655  178823  129012

接下来我们需要按总出生数对该表进行规范化处理，以便计算出各性别各末字母占总出生人数的比例：

In [406]: subtable.sum()
Out[406]:
sex  year
F    1910     396416
     1960    2022062
     2010    1759010
M    1910     194198
     1960    2132588
     2010    1898382
In [407]: letter_prop = subtable / subtable.sum().astype(float)

有了这个字母比例数据之后，就可以生成一张各年度各性别的条形图了，如图2-8所示：

import matplotlib.pyplot as plt
fig, axes = plt.subplots(2, 1, figsize=(10, 8))
letter_prop['M'].plot(kind='bar', rot=0, ax=axes[0], title='Male')
letter_prop['F'].plot(kind='bar', rot=0, ax=axes[1], title='Female', legend=False)

1880-2010年间全美婴儿姓名 - 图5

图2-8：男孩女孩名字中各个末字母的比例

从图2-8中可以看出，从20世纪60年代开始，以字母"n"结尾的男孩名字出现了显著的增长。回到之前创建的那个完整表，按年度和性别对其进行规范化处理，并在男孩名字中选取几个字母，最后进行转置以便将各个列做成一个时间序列：

In [410]: letter_prop = table / table.sum().astype(float)
In [411]: dny_ts = letter_prop.ix[['d', 'n', 'y'], 'M'].T
 
In [412]: dny_ts.head()
Out[412]:
             d         n         y
year
1880  0.083055  0.153213  0.075760
1881  0.083247  0.153214  0.077451
1882  0.085340  0.149560  0.077537
1883  0.084066  0.151646  0.079144
1884  0.086120  0.149915  0.080405

有了这个时间序列的DataFrame之后，就可以通过其plot方法绘制出一张趋势图了（如图2-9所示）：

In [414]: dny_ts.plot()

1880-2010年间全美婴儿姓名 - 图6

图2-9：各年出生的男孩中名字以d/n/y结尾的人数比例

变成女孩名字的男孩名字（以及相反的情况）

另一个有趣的趋势是，早年流行于男孩的名字近年来“变性了”，例如Lesley或Leslie。回到top1000数据集，找出其中以"lesl"开头的一组名字：

In [415]: all_names = top1000.name.unique()
 
In [416]: mask = np.array(['lesl' in x.lower() for x in all_names])
 
In [417]: lesley_like = all_names[mask]
 
In [418]: lesley_like
Out[418]: array([Leslie, Lesley, Leslee, Lesli, Lesly], dtype=object)

然后利用这个结果过滤其他的名字，并按名字分组计算出生数以查看相对频率：

In [419]: filtered = top1000[top1000.name.isin(lesley_like)]
 
In [420]: filtered.groupby('name').births.sum()
Out[420]:
name
Leslee      1082
Lesley     35022
Lesli        929
Leslie    370429
Lesly      10067
Name: births

接下来，我们按性别和年度进行聚合，并按年度进行规范化处理：

In [421]: table = filtered.pivot_table('births', rows='year',
     ...:                             cols='sex', aggfunc='sum')
In [422]: table = table.div(table.sum(1), axis=0)
In [423]: table.tail()
Out[423]:
sex   F   M
year
2006  1 NaN
2007  1 NaN
2008  1 NaN
2009  1 NaN
2010  1 NaN

现在，我们就可以轻松绘制一张分性别的年度曲线图了（如图2-10所示）：

In [425]: table.plot(style={'M': 'k-', 'F': 'k--'})

1880-2010年间全美婴儿姓名 - 图7

图2-10：各年度使用“Lesley型”名字的男女比例

译注6：如下链接可能不可用，读者可直接在本书的github上下载。