我在哪里可以找到通过面孔识别同性恋者的AI’gaydar’实现?

对于那些不熟悉的人 :斯坦福大学的研究人员最近写了一篇论文,描述他们如何构建一个可以检测面部特征的性取向的分类器,其准确性(同性恋者为81%,女同性恋者为74%)在检测性取向方面甚至优于人类法官。 (同性恋者为57%,女同性恋者为58%)。 这成了一个巨大的争议 – 你可以想象为什么。

本文未提及公开的分类器代码。 为了确认,我已经通过电子邮件向其中一位研究人员发送了电子邮件,如果他回复,我会更新此答案 我确信他们已经被关于此事的电子邮件淹没了。

让我解释他们的47页论文(尽管问题没有问:P),但我不会涉及这种研究的利弊,道德和道德。 请随意评论您的意见。

第1步:数据和预处理

从美国约会网站获得36,630名男性和38,593名女性的公开图像。 其中一半是同性恋。 性取向是根据他们在网站上寻找的性别确定的。

使用名为Face ++的面部检测软件来查找图像上的面部特征的位置。 这样,具有多个面部,小面部,部分隐藏面部和未直接面向摄像机的面部的图像都被移除。

我们现在有35,326张脸部图像,都面向相机并且完全可见。

第2步:表示面部特征

简单来说,每张脸都被转换成代表面部特征的4,096个分数列表。 这是使用广泛使用的称为VGG-Face的神经网络完成的。 然而,这些分数是不可解释的,即,我们不能说第126分数对应于鼻子形状,依此类推。

现在,我们为35,326张图像中的一张都有4,096个数字。 最后,使用称为奇异值分解的降维技术,将每个图像的4096个数字减少到500个数字。 别担心,我们不会丢失很多信息。

第3步:训练分类器

我们现在有500个数字代表图像以及该图像的性取向。 因此,建立了一个名为Logistic回归的简单分类器,使用这500个数字作为特征来预测性取向。 这就是同性恋者81%的准确率和女同性恋者74%准确度的来源。

第4步:哪些面部区域很重要?

现在,我们需要弄清楚哪些面部特征对于分类器来说最“重要”。 请记住,这500个数字是不可解释的。 因此,该研究考察了当我们“掩盖”某些面部区域时分类结果的变化程度。 结果看起来像这样,红色代表最丰富的功能:

对于男性: 鼻子,眼睛,眉毛,脸颊,发际线和下巴。
对于女性: 鼻子,嘴角,头发和领口。

第五步:同性恋和直人之间的面部差异

这有点争议。 这项研究看起来像是一堆最有可能被贴上同性恋标签的面孔, 不容易被标记为同性恋 ,并为同性恋和男性和女性创造了一个“复合”面孔。

据观察,同性恋男性的下颚较窄,前额较大,鼻子较长,而女同性恋者的下颌较大,前额较小,而异性恋女性则较多。

结果表明同性恋面孔倾向于性别不典型,这与性取向的PHT(产前激素理论)一致,预测面部外观和性取向之间存在联系。

你可以在这里阅读全文:https://psyarxiv.com/hv28a/

该研究的一些局限性在本文作者中得到承认或解决(我强烈建议阅读)。

  • 图像是公开的同性恋者。 具有更明显的性别非典型面孔的同性恋者更有可能“脱颖而出”。
  • 图像不包括任何非白人,非美国人。
  • 来自约会网站的图像中的面部特征可能以研究人员未考虑的方式存在偏差。

PS请不要因为你不喜欢这项研究而报告我或者给出答案。 不要射击信使。 我和你们都很直接。 😛

请记住,它实际上不会像现实世界的gaydar一样好。

他们的分类器显示出一对面孔,其中一个确保是同性恋者的面孔。 所有它必须选择其中一个面孔。

在现实世界中,假设您想要弄清楚陌生人的性取向,那么您将拥有统计上非常不同且更困难的任务。

我已经根据’gaydar’paperper在GitHub上传了一个实现。 我已经包括数据,你癌症使用你自己的数据集。

OliverEdholm / VGG-脸部逻辑回归

以下是该论文的链接:深度神经网络在检测面部图像的性取向方面比人类更准确。

这是一个深度学习神经网络。 *实现*主要在用于训练的数据集中。