4.1 一个示例
本人当前工作的研究主题之一是男性和女性在领导各自企业方式上的不同。典型的问题如下。
处于管理岗位的男性和女性在听从上级的程度上是否有所不同?
这种情况是否依国家的不同而有所不同,或者说这些由性别导致的不同是否普遍存在?
解答这些问题的一种方法是让多个国家的经理人的上司对其服从程度打分,使用的问题类似于:
这名经理在做出人事决策之前会询问我的意见。
1 2 3 4 5
非常不同意 不同意 既不同意也不反对 同意 非常同意
结果数据可能类似于表4-1。各行数据代表了某个经理人的上司对他的评分。 表4-1 领导行为的性别差异
经理人 | 日 期 | 国 籍 | 性 别 | 年 龄 | q1 | q2 | q3 | q4 | q5 |
---|---|---|---|---|---|---|---|---|---|
1 | 10/24/08 | US | M | 32 | 5 | 4 | 5 | 5 | 5 |
2 | 10/28/08 | US | F | 45 | 3 | 5 | 2 | 5 | 5 |
3 | 10/01/08 | UK | F | 25 | 3 | 5 | 5 | 5 | 2 |
4 | 10/12/08 | UK | M | 39 | 3 | 3 | 4 | ||
5 | 05/01/09 | UK | F | 99 | 2 | 2 | 1 | 2 | 1 |
在这里,每位经理人的上司根据与服从权威相关的五项陈述(q1到q5)对经理人进行评分。例如,经理人1是一位在美国工作的32岁男性,上司对他的评价是惯于顺从,而经理人5是一位在英国工作的,年龄未知(99可能代表缺失)的女性,服从程度评分较低。日期一栏记录了进行评分的时间。
一个数据集中可能含有几十个变量和成千上万的观测,但为了简化示例,我们仅选取了5行10列的数据。另外,我们已将关于经理人服从行为的问题数量限制为5。在现实的研究中,你很可能会使用10到20个类似的问题来提高结果的可靠性和有效性。可以使用代码清单4-1中的代码创建一个包含表4-1中数据的数据框。
代码清单4-1 创建
leadership
数据框
manager <- c(1, 2, 3, 4, 5)
date <- c("10/24/08", "10/28/08", "10/1/08", "10/12/08", "5/1/09")
country <- c("US", "US", "UK", "UK", "UK")
gender <- c("M", "F", "F", "M", "F")
age <- c(32, 45, 25, 39, 99)
q1 <- c(5, 3, 3, 3, 2)
q2 <- c(4, 5, 5, 3, 2)
q3 <- c(5, 2, 5, 4, 1)
q4 <- c(5, 5, 5, NA, 2)
q5 <- c(5, 5, 2, NA, 1)
leadership <- data.frame(manager, date, country, gender, age,
q1, q2, q3, q4, q5, stringsAsFactors=FALSE)
为了解决感兴趣的问题,我们必须首先解决一些数据管理方面的问题。这里列出其中一部分。
五个评分(q1到q5)需要组合起来,即为每位经理人生成一个平均服从程度得分。
在问卷调查中,被调查者经常会跳过某些问题。例如,为4号经理人打分的上司跳过了问题4和问题5。我们需要一种处理不完整数据的方法,同时也需要将99岁这样的年龄值重编码为缺失值。
一个数据集中也许会有数百个变量,但我们可能仅对其中的一些感兴趣。为了简化问题,我们往往希望创建一个只包含那些感兴趣变量的数据集。
既往研究表明,领导行为可能随经理人的年龄而改变,二者存在函数关系。要检验这种观点,我们希望将当前的年龄值重编码为类别型的年龄组(例如年轻、中年、年长)。
领导行为可能随时间推移而发生改变。我们可能想重点研究最近全球金融危机期间的服从行为。为了做到这一点,我们希望将研究范围限定在某一个特定时间段收集的数据上(比如,2009年1月1日到2009年12月31日)。
我们将在本章中逐个解决这些问题,同时完成如数据集的组合与排序这样的基本数据管理任务。在第5章,我们会讨论一些更为高级的话题。