哪些单词具有性别化

    很多社会理论学家考虑性别在语言中的不同显示的程度如何。我们的数据集使得可以从单词层次探索这一点:我们可以发现哪个标签是男性脸孔或者女性脸孔的最显著的特征。我们可以统计出对于男性出现最频繁的单词,以及对于女性出现最频繁的单词,但通常来说,这只能获取在任意地方出现频率都很高的单词。一种更好的方式是通过对性别间出现频率的标签进行打分。也就是说,为了确定标签T表示性别G的特征性,看以下表达式:

    哪些单词具有性别化 - 图1

    这个表达式有个缺陷:出现频率很低的标签会带来噪音数据。举个例子,任何只出现一次的标签,它表示的性别就得到满分1(这是由于样本数据量小造成的错误,我们称之为稀疏年龄桶)。解决该问题的一个简单的方法是设置词频阈值。在这种情况下,我们只查看出现次数大于100次的标签。

    计算这些分值——用统计学术语来说,它们是条件概率Pr(G|T)的最大可能估计——我们可以获得如下一些最大可能估计值表。

    最具有男性特征的单词如下表所示。

    哪些单词具有性别化 - 图2

    哪些单词具有性别化 - 图3

    最具有女性特征的单词如下表所示:

    哪些单词具有性别化 - 图4

    可能令人惊讶的是这些单词如“handsome”(英俊)、“gamer”(赌徒)、“Bubbly”(活泼的)和“slut”(骚货)是多么地具有性别化特征。它们几乎总是和它们所表示的性别一起出现。