探索英国性别薪酬差距数据

使用Python统计数据和图形

英国要求所有拥有250名员工的公司发布有关其工资差距的数据。

这不仅是一个非常重要的问题,而且是一个非常有趣的数据集,它可以告诉我们我们都在乎的东西-薪酬。

让我们来谈谈统计数据

平均薪酬差距为14.4%,而中位数差异为10%。 百分比并不高,但是这个中位数相当于一个女人不必休假就可以获得与中位数男人相同的薪水。 为什么均值高于中值(总之,就是离群值)。 薪资最高的职位使这一数据歪曲,而且非常多的人是男性。 当我们看足球俱乐部时,我们会看到更多。

那么数据是什么样的:

男人没有付出更多,只是高收入者是男人,对吧?

高收入者确实会扭曲结果。 但是中位数也很重要-普通人的工资是多少。 下图显示,平均薪酬差距(x轴)与中位数薪酬差距(y轴)密切相关:

除了平均工资和中位数工资之间的明显相关性外,上图有趣的是工资差异的巨大扩散。 但是大多数公司处于中间立场,如果我们用内核密度估计(或大量数据所在的深色)替换所有那些重叠的点,则更明显:

如上图所示,许多公司的中位数薪酬差距为0,但均值差距仍然很大。 但是,即使中位数的收入也偏向男性,中位数(中位数)的女性收入比中位数的男性低10%。

上方联合图两侧的直方图显示,平均薪资差距在公司之间相当正态分布,而中位数差距的形状则更为奇怪。 对我来说合理的是,中位数更紧密地聚集在0附近,随着差距的增加,薪资差距变得更糟-但我不明白为什么中位数分布是如此奇怪的形状- 假设很受欢迎。

按公司类型分类数据

细分我们公司部门的最粗略方法是使用自由文本搜索。 我在一家能源供应商工作,任何参加过Elexon或OFGEM会议的人都可以证明这不是一个多元化的竞技场。 所以我想看看Energy如何与其他公司类型抗衡。

在能源领域,最大的多样性领域之一是技术招聘,即程序员。 所以我比较了能源,科技,护理。

该分析基于数据中的自由文本搜索与公司名称。 显然,这种方法有缺陷,我想改进它,但是大多数结果看起来都是正确的,因为您可以检查交互式散点图,该散点图显示了公司的均值与中位数,并允许点击进入其多样性网站。 护理,技术,能源

足球俱乐部

探索数据,许多薪水异常值是足球俱乐部。 这是收入很高的人歪曲数据的一个极端例子。 例如,MCFC的出色报告概述了他们的一线男子将他们的平均薪资差距从87.7%倾斜到16%,仅低于全国平均水平。 对于拥有1000-5000名员工的企业来说,这是一个令人印象深刻的偏差,原因是大约有30名员工,但是足球运动员的薪水当然很高。

有关交互式图,请参见此处。

结论

最重要的是,探索此数据向我展示了此数据并不简单,到目前为止,政府要求提供的指标仅仅是开始。 诸如MCFC和Good Energy之类的公司对性别薪酬差距做出了非常合理的解释,这表明企业需要制定和显示跟踪和反馈性别薪酬问题的指标,而不是简单的平均值。

下一步是什么

在此数据集中还有很多要探索的内容,因此请密切注意下一篇文章。