查看原文
其他

有个小哥哥用机器学习帮自己脱单,结果。。。

小神经 超神经HyperAI 2019-05-13

By 超神经


滑铁卢大学一位叫 Bai Li 的华裔小哥哥,在 Medium 上分享了自己「如何用 ML 中的逻辑回归方法帮自己找脱单」的神操作。


像这么实用的技术,必须学习一个。


滑铁卢大学是加拿大一所著名高校,是加拿大最好的大学之一,尤其数学、计算机科学等工程学科教学水平居世界前列,其中优势专业计算机科学名列 2017 年 usnews 世界大学排行榜第 18 位。


滑铁卢大学和所有的理工科学校一样,除了男女比例极不协调外,缺少社交活动,很难找到对象。



有些人觉得爱情这种东西是没法量化的,你只管「做你自己,顺其自然」就好了。


不过,作为滑铁卢大学的一个数据科学家,小哥哥对此持不同意见。他觉得自己既然是搞计算机的,干嘛不试试借助机器学习来帮助自己找女朋友呢?


撩妹方法论:武装自己


心动不如行动,马上着手研究如何用机器学习技术找女票。


这个研究的核心问题是:

具备哪些属性才能在众多男生中脱颖而出,受到妹纸们的青睐?


小哥哥就试着列出了男生上的特征属性,想找出哪些假设是可以有数据支撑。


约会

(目标变量)

有女朋友,或者过去5年内曾有过至少维持了半年感情的女朋友。

国籍

留学生

专业

CS,SE和ECE专业

事业

在学术上成功,

找到了薪水优渥的实习工作

有趣性

能说会道,总能找到有趣的谈资

社交性

外向性格,总想认识新朋友

自信

能说会道,总能找到有趣的谈资

时尚

注重外在形象,穿着有品位

加拿大

过去 5 年内基本生活在加拿大

亚洲人

来自东亚地区


在上面这些情况中,我按照是否符合标准会赋予 1 或 0 这两个值。所以,我们是在衡量人们的上述属性和能找到对象之间的关系。


上面有些属性非常主观,比如怎么证明一个人很有趣?所以,假如你是想看那种超硬核又严格统计的研究,那么后面的内容可能不是你的菜。


为了收集数据,我把自己能想到的每个人都列在表格里,在每个属性里会以 0 或 1 给他们打分。最终,数据集有 N=70 行。如果你过去两年和我同校,和我认识,多半这个表格上有你。


认真分析落单原因


首先,我们将精确概率法(Fisher’s Exact Test)对目标约会变量和所有的说明变量进行分析,发现其中有 3 个变量影响最为显著:


  • 健身:定期去健身房或运动的人有女朋友的概率会高出两倍以上(P值=0.02)


  • 眼镜:不戴眼镜的人有女朋友的概率比戴眼镜的人会高出 70%(P值=0.08)


  • 自信:有自信心的人有朋友的概率更高(P 值=0.09)


小哥哥对戴眼镜与否影响这么大感到很意外,好奇是不是因为戴眼镜一般会给人产生「书呆子」的印象。



所以小哥哥又查了些资料,发现还真有这么一回事,有篇研究论文讲到大多数人认为不管男性还是女性,戴眼镜会降低自身吸引力。


有些变量对于能否成功约会可能比较有预测力,不过很难确定,因为样本较小:


  • 留学生比加拿大本地学生的约会成功率要高

  • 亚洲人和其它人种相比约会机会更少

纵览其它因素,虽然女生很少,计算机专业的男生似乎并不处于劣势;剩下的变量(身高/事业/有趣性/社交性/时尚/居住地)这些和成功约会的关系不是很大,毕竟约会只是确认关系的第一步,很少有年轻人想得太远太复杂。


本次实验的完整结果:



接着我们检查各变量之间的关系,这可以帮我们识别出不正确的模型假设。


红色表示正相关,蓝色表示负相关


只展示统计显著性 <0.1 的相关性,因此大部分变量之间的关系为空白。


从图中看起来 { 有女朋友,看起来自信,去健身房,不戴眼镜 } 有相互关系。用这些数据训练后的模型也会反应这些偏差,未来我也会扩大调查范围,收集更多数据。


用逻辑回归预测找女票


如果有个算法能够预测你有多大几率可以找到女票,岂不美哉?


小哥哥训练了一个逻辑回归广义线性模型,根据我们前文列举的这些说明变量预测是否会有女票。


借助 R 语言中的 glmnet 和 caret 包,我用弹性网络正则化训练了这个广义线性模型。然后用标准网格搜索法优化了超参数,在每次迭代中使用留一交叉验证法,并优化 kappa 系数。



最终结论


最终模型的交叉验证 ROC AUC 分数为 0.673,也就是说模型在预测你找到女票的几率方面,比你凭感觉乱猜还是更靠谱些。


当然了,生活中总会有些偶然的不确定因素,人生也会有惊喜嘛。好了不说了,小哥哥要去健身房了,还要努力摘掉眼镜!


献上 Bai Li 小哥哥的真人近照


 

彩蛋:小哥哥现在怎么样了?


原文作者 Bai Li 小哥哥完成这项研究时,是在今年四月,他将文章发布在 Medium 之后也大受好评,小哥哥的项目可以通过他的 GitHub 了解更多。


关注公众号后回复「单身狗」,

即可获得小哥哥的 GitHub 地址


从文章发布到今天已经快四个月咯,小哥哥怎么样了呢,我们也是通过一个不存在的网站,也称脸书,联系到了小哥哥本哥,自己体会一下:




超神经小百科

单词

univariate

 [ju:nɪ'veərɪrt]    adj. 单变量的


multivariate

 [mʌltɪ'veərɪɪt]  adj. 多变量的


词组

ogistic regression 逻辑回归

历史文章(点击图片阅读)

几位程序员,开源了自己的 AI 项目

脑洞清奇的日本人,连搞 AI 都不正经

经过智商测试:你 100 ,AI 150

超神经HyperAI

换个姿势了解技术

关注

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存