Alfred数据室

其他

外卖骑手的困局,算法不背这个锅 | Alfred数据室

《人物》杂志发表了《外卖骑手,困在系统里》一文,文中从外卖骑手的视角出发,探究了目前外卖生态中外卖骑手送餐只能越来越快、越来越不顾自身安全的困局,引起大家对于外卖平台以及其所设计出来的算法的批判,并且在引言中发起一个思考:数字经济的时代,算法究竟应该是一个怎样的存在?[1]诚然,外卖平台作为这一切的最大利益获得者,是造成外卖骑手困局的重要因素;但是如果试图把责任推给算法,把解决外卖骑手困局的方法归结于“加强程序员的培训和价值导向”、“让外卖平台所有的产品经理和算法工程师都去当一个月骑手”,那么我们想说,数字经济时代的算法不背这个锅。为什么这么说呢?为了研究外卖平台所使用的算法,我们仔细阅读了一篇由阿里本地生活智慧物流团队发布的论文《Order
2020年9月9日
其他

被关注的独山县:400亿数字背后是什么? | Alfred数据室

◆《合租限女生是性别歧视吗?》《外国人眼里的李子柒难道不一样?》《9102年的数据泄漏,裸奔的不只是你的个人信息》《疫情后北上广深租房价格跌了吗?》《用大数据捋一捋肖战饭圈何以至此?》
2020年7月20日
其他

合租限女生是性别歧视吗? | Alfred数据室

小A是一名大四毕业生,在经历了疫情停课、找工作、写论文、云毕业之后,他终于毕业了。像很多刚踏入社会的毕业生一样,小A首先面临到的问题便是租房。他的预算并不高,打算通过合租的方式找到自己在大城市的落脚之处。然而在他浏览了很多租房信息发布平台之后发现,但凡是自己看中的个人合租房源,10条中有8条都清清楚楚地写着:限女生。一阵碰壁之后,小A发出了自己的不解:难道男生就不能租到好房子吗?合租限女生是性别歧视吗?确实很多男生在找合租时都遇到过这个问题。目前在租房信息发布平台上合租限女生的情况有多普遍呢?这是否属于性别歧视的范畴呢?合租限女生都是出于什么样的考虑?限女生的房源比不限女生的房源更为安全吗?大家在租房过程中还普遍遇到过哪些限制呢?一、限女生的情况有多普遍?招合租的个人房源中仅限女生的情况真的很普遍吗?为了回答这个问题,我们获取了豆瓣小组上北上广深等城市的租房小组个人合租房源发布信息数据,并根据是否限女生进行了统计。通过在豆瓣租房小组发布的个人合租房源文本信息来看,3149条数据中有1462条都写着“仅限女生”,占总数据的46.2%。也就是说,有将近一半的个人合租房源都在招租信息里要求仅限女生。仅有9.2%的个人合租房源在招租信息里说明“男女不限”,还有2.5%的个人合租房源“仅限男生”。另外有41.9%的个人合租房源在发布房源信息时并没有写明性别限制。不过根据可以统计到的数据来看,个人合租时限女生确实是一个普遍的现象。该现象除了豆瓣租房小组之外,在58同城、安居客等租房信息发布平台都普遍存在。二、合租限女生是性别歧视吗?当小A满怀希望地想要找一个合适的合租房源时,发现将近半数的房源都明确写着仅限女生而被排除在外,只好在剩余的半数房源中做选择,好不容易挑选出一个合适的房源,打过电话去联系的时候又被告知“仅限女生”。仔细想一下,我们其实也不难理解小A为什么觉得自己被性别歧视了,就像女生在找工作过程中遇到“仅限男生”的招聘要求一样。合租限女生属于性别歧视吗?性别歧视指的是基于他人性别差异而非优缺点所造成的歧视,也指因为性别造成的差别待遇。[1]单从性别歧视的本意上看,合租限女性确实有性别歧视的意思。不过目前法律上并没有对出租人在出租房屋时是否可以限定承租人的性别作出明确的规定。美国倒是在1968年发布了《Fair
2020年7月2日
其他

疫情后北上广深租房价格跌了吗? | Alfred数据室

去年3月份我们发布了《北上广深租房图鉴》(点击阅读),细数了北上广深租房的各种因素对租房价格的影响。一年过去了,在面临新冠疫情的后续影响、城市尚未完全恢复正常运转、学校还没开学等情况下,北上广深租房市场是否有什么变化呢?这几个老牌一线城市的租房价格受疫情的影响大吗?在北上广深租房是否仍跟以往一样困难呢?我们再一次来探索大家关心的北上广深的租房问题。一、各城市的待租房源分布老规矩,我们获取了北上广深四个城市的所有待租(整租)房源数据,并且把这些房源所在的地理位置以像素点的形式投射到了地图上。通过房源分布图我们可以清楚地看到各城市各区域的房源分布情况。北京的待租房源数据有44229条,比去年的18012条整整多出了近1.5倍。这些待租房源几乎都集中在五环之内,以及通州、大兴、顺义、昌平、房山等区中心周围。其中东城、西城、朝阳、海淀、丰台、石景山等“城六区”房源数量占了北京待租房源总数量的近70%。房源的地区分布与上一年并无太大差异。上海待租房源总数量为27645条,与上一年的27311条非常接近。这些待租房源也几乎都集中在黄浦、徐汇、长宁、杨浦、虹口、普陀、静安、浦东西部等上海中心市区(占了64.5%)。房源的地区分布与上一年并无太大差异。广州待租房源总数为71547条,比去年的39457条多出了3万2千多条。其中大部分房源集中于广州市区(荔湾、越秀、天河、海珠),除此之外,白云区南部、番禺区、增城区等也有大量待租房源分布。南沙新区的待租房源数量由去年的703套上升到3557套,是去年的5倍多。广州的待租房源从地区分布上看,与去年并没有太大差异。深圳待租房源总数量为33293条,比去年20054套多出了66%。其中房源主要分布在南山、龙岗、宝安、福田、龙华和罗湖各区(占了97.4%),光明、坪山、大鹏三个新区以及盐田的房源仅占总待租房源的2.6%。从房源的地区分布上看,与去年并无太大差异。从以上的数据来看,北上广深四个城市中,北京、广州、深圳的待租房源数量对比去年都有明显的上升。而上升的原因是受疫情影响城市未完全复工有些房子租不出去,还是平台扩张登记了更多的新房源,这个有待我们进一步探究。作为租房一族来说,我们更加关心的是各城市各区域的租房价格跟去年的对比如何。二、城市各区域的租金分布因此,我们根据各房源的租金和出租面积,计算了每个房源每平米每月的平均租金,并且根据这个指标绘制了热力地图。由北京市每平米租金热力图可以看到,五环内租房的每平米租金几乎都超过50元,东城、西城的城中心每平米租金均大于100元,有些区域每平米租金甚至大于250元。跟去年相比,各区域的每平米租金并没有太大差异。我们经过统计发现,2019年每平米租金最贵的30个商圈中,有9个平均租金上升了,有21个平均租金下降了。有上海市每平米租金热力图可见,上海市区的每平米租金都超过50元,其中中心市区每平米租金超过100元,中心区域每平米租金甚至超过300元。跟去年相比,热力图的颜色呈现由中心向外拓展的趋势,也就是说上海市的每平米租金有了肉眼可见的上升。经过统计,上海市2019年每平米租金最贵的30个商圈中,有20个平均租金上升,10个下降,支持了这一观察。从广州每平米租金热力图可见,广州市的每平米租金明显比北京、上海两个城市友好,市区的每平米租金大于50元,而每平米租金大于100元的区域仅分布于市中心周围,数量较少。与去年相比,2019年每平米最贵的20个商圈中有3个商圈每平米租金上升,有17个商圈每平米租金下降,因此,我们可以看到今年广州的每平米租金热力图颜色相比去年来说较浅。从深圳市每平米租金热力图可见,深圳地铁网内的待租房源每平米租金价格几乎都超过50元,而南山、福田、罗湖等关内地区的大部分房源每平米租金要大于100元。跟去年对比,2019年每平米租金最贵的20个商圈中,只有5个商圈每平米租金价格上升,有15个商圈每平米租金价格下降。因此,深圳的每平米租金热力图跟去年对比也呈现了肉眼可见的颜色变浅。三、疫情对于北上广深租房市场的影响对于整体的租房市场来说,我们已经知道北京、广州和深圳的待租房源总量都比去年有明显增加。是否受疫情影响而导致待租房源数量上上升,这点还有待进一步研究。从上面的图表可以看出,2020年相比于2019年,北京、广州、深圳的高端租房市场价格趋于下降,特别是广州和深圳,而上海趋于上升。而从整体租房市场来看,租金是否受到了疫情的影响呢?我们分别计算了各城市各行政区2019年和2020年的每平米平均租金。北京各区的2019年与2020年每平米租金变化并不大,除了房山、顺义、通州、亦庄和海淀之外,其它区的每平米平均租金都比2019年上升了,说明北京市租房市场的租金价格并没有受疫情影响出现明显的下跌。上海市各区2020年的每平米租金线明显在2019年之上,也就是说,上海市除了金山、虹口、静安区每平米租金出现下降之外,其他区每平米租金价格都上升了。其中浦东上升了6元,徐汇上升了18元,黄浦上升了13.8元,静安下降了9.4元。广州市各区2020年的每平米租金也几乎在2019年之上,也即是说,除了南沙和越秀两个区之外,其它区每平米租金价格都有上涨。其中番禺、白云、荔湾、海珠和天河价格每平米租金平均上涨2至4元。深圳市2020年除了宝安、盐田、龙岗和坪山每平米租金稍有上升之外,其它各区的每平米租金都出现了下降,特别是南山和福田,分别下降了12.8元和10.5元。综合上面来看,上海、北京、广州租房市场的总体平均租金并没有受疫情后续的太多影响,而深圳租房市场的总体平均租金受疫情影响稍大。四、北上广深整租一室已是轻奢消费按照以上各城市的租金变化,在深圳福田或南山整租一套30平米的一室一厅,平均可以省315到384元。而在上海的黄浦或徐汇租一套30平米的一室一厅,平均要多掏414元到540元。对于租房一族来说,在北上广深租房有多难呢?在这里,我们以整租一套一室一厅的房子带大家感受一下。对于独自在北上广深打拼的年轻人来说,如果考虑到自己的安全、自由和隐私不想要跟别人合租的话,那么整租一个一室一厅的小房子便是最理想的选择。那么北上广深可选择的一室一厅待租房源数量多吗?可见北京上海的整租房源都是以二室为主,广州的一室、二室、三室的整租房源分布比较均匀,而只有深圳的整租房源以一室为主。由上图可以看见,北京和上海的一室一厅平均每套房源面积比较大,为53平方米和45平方米,而广州和深圳一室一厅平均每套房源面积比较小,为别为40平方米和32平方米。北京一室一厅平均每套租金为5800元,相当于人均工资的46.5%;上海一室一厅平均每套租金为4800元,相当于人均每月工资的40%,占了相当大的比例。相对来说,广州和深圳一室一厅每套的平均为2500元和2800元,相对较低,其所占人均每月工资的比例也相对较低,为26.8%和30%。总体来说,在北上广深这几个一线城市先要租一房一厅的话,租金是很高的,租金所占工资比例也相当高。因此,能在北上广深租上一房一厅,已经相当于轻奢消费。这也是为什么年轻人普遍选择合租的原因。经过我们统计,北上广深合租平均每间房分别只需要2295、2147、1551和1783元,相比整租一室一厅来说省了一半左右。所以说,合租并不是年轻人崇尚的生活方式,而是在隐私和房租方面选择了为房租妥协而已。那么,如果不想合租只想要整租,又想要价格便宜的话怎么办呢?这时候只好放弃一室一厅一卫中可以放弃的东西,比如说客厅。经过我们统计,北上广深整租中放弃客厅平均分别可以省下100、600、200和645元。如果你觉得这个价格下降得并没有太明显的话,那么再放弃掉卫生间呢?数据显示,在广州整租一室零厅零卫的房源,每套平均价格为1250元,可以省掉一千多元。可是一室零厅零卫的整租房源,跟合租又有什么差别呢?说到这里,为什么每年都要来看一次租房数据呢?因为身处城市当中的我们,总是逃不开“租房”这个话题,工作变化、情感变化、不可抗力……总有一种理由让我们换房子,总会在换房子的过程中跟数据来回打交道。一年一次的租房数据观察,让我们一同来看见北上广深这些大城市的租房市场变化,同时也仿佛在这些数据里看见我们在城市中移动的身影。
2020年4月13日
其他

各城市一日内入境究竟有多少人? | Alfred数据室

在境外累计输入型病例数量中,北京以102人排名第一。除北京外,广东、上海、甘肃和浙江等省市也面临着境外输入的严峻挑战,特别是上海、广州、深圳等一线城市。
2020年3月22日
其他

为何部分外国网友对我们的援助并不待见? | Alfred数据室

3月份以来,由于欧洲各国对于疫情的忽视,新冠肺炎在欧洲爆发,意大利、西班牙、法国、德国、英国等欧洲国家确诊人数逐渐上升。其中意大利首当其冲,3月1日的累计确诊人数为1128人,到3月11日时累计确诊人数破万人,3月18日累计确诊人数已达31506之多。在欧洲各国自顾不暇、互相拦截医疗物资之际,我国向意大利伸出了援手:派出一线抗疫专家组和31吨医疗物资驰援意大利。面对我国的援助,外国网友是如何看待的呢?为何有部分外国网友对于我们的援助并不待见?外国网友更倾向于受哪些媒体的影响?在面对突发公共事件时,媒体的国际话语权和舆论战到底有多重要呢?为了研究这些问题,我们追踪了外国知名社交新闻网站Reddit的Coronavirus版块(新冠病毒版块,该版块截止于3月17日已有120万人关注)从3月7日到3月17日期间的6469条热门帖子,来一探究竟。一、外国网友到底怎么看待我们对意大利的援助?面对意大利新冠肺炎疫情的爆发,我们向意大利派出了9名抗疫专家、31吨的各类医疗物资,企业和民间各界也纷纷向意大利捐款捐物。因此,3月15日一则“罗马上空响起义勇军进行曲”、“居家隔离的意大利民众大喊感谢中国”的新闻登上了微博热搜,体现了意大利人对于我们援助的感谢之情。不过,外国网友普遍又是如何看待我们的援助的呢?我们获取了Reddit网站上与援助意大利相关的最热门的3条帖子下的3316条评论,并对每条评论做了情感极性分析。通过评论的情感极性分布图可以看到,大部分(60.1%)外国网友对于我们援助意大利表现出了中立的情感,有13.5%的外国网友表现出负面情感,仅有26.4%的外国网友表现出了正向的情感(对我们的援助表示肯定)。也就是说,我们对意大利捐钱捐物派专家得到了意大利官方的认可,却似乎并没有得到外国网友的普遍认可。一部分外国网友甚至对我们的援助毫不领情,这是为什么呢?仔细翻看这些负向的评论,我们发现这些评论里充斥着各种对中国的偏见。而造成这些偏见最直接的因素,便是日常媒体的耳濡目染。所以抛开其它的因素不谈,在这里我们想重点探究的就是:媒体的影响力和话语权。二、全球媒体对我国新冠肺炎疫情的报道负面大于正面外国网友日常能够接触到的新闻媒体,对我国新冠肺炎疫情的相关报道是否具有一定的预设立场呢?这些媒体是否会选择性、偏向性报道呢?我们从3月7日到3月17日中Reddit网站Coronavirus版块6469条热门帖子中,筛选出了271条跟我国有关的帖子(每个帖子都附有一个新闻来源),并且把这些帖子背后的新闻按照对我国产生不同的影响进行了区分(负面、中立和正面)。可以看到在Coronavirus版块跟我国相关的271条新闻中,有91条是负面新闻,占了33.6%,有123条是中立新闻,占了45.4%,只有57条是正面新闻,占21%。负面新闻的比例要大于正面新闻的比例。这就很容易可以理解为什么部分外国网友在谈论中国时带有偏见了:因为日常接触的媒体本身就是带有偏见的。在外国网友日常接触到的媒体中,哪些媒体在报道我国新冠肺炎疫情时更具有偏向性呢?我们筛选出了以上271条帖子中最常出现的10家媒体。图中透露出了两点信息:第一是从负面与正面新闻数量比例来看,大部分外国网友接触到的新闻媒体在对我国进行报道时都具有一定的负面偏向性;第二是在外国网友了解我国新冠肺炎疫情时,更多的新闻来源是香港(南华早报)、新加坡(亚洲新闻台、海峡时报)、英国、美国等地区的媒体报道,而不是作为新闻发源地的中国大陆的媒体报道。这里就透露出了一个很直接的问题:我国媒体的国际话语权不足,跟我国的经济地位严重不匹配。三、我们媒体的身影呢?我们知道,新闻媒体的报道对于国际舆论的引导相当重要。谁掌握了更加强大的媒体国际话语权,谁就能够在面对公共突发事件时产生更大的影响力,掌握更多的舆论空间。在国际媒体关于新冠肺炎的报道中,哪些媒体拥有更多的国际话语权呢?外国网友更倾向于引用哪些新闻媒体的报道呢?是否有我国新闻媒体的身影呢?我们统计了Reddit网站Coronavirus版块6469条热门帖子中最常出现的20家媒体。其中有12家媒体来源于美国,4家来自于英国,2家来自于新加坡,1家来自于日本,1家来自于我国的香港地区,并没有出现我国其它媒体的身影。我们又根据以上6469条帖子的新闻来源链接提取出了多个顶级域名,根据这些顶级域名可以判断新闻来源网站所在的国家或地区。除去4426条顶级域名为“.com”的帖子来源外,外国网友最经常引用来自于美国和欧洲各国的新闻来源。其中日本(顶级域名为.jp)排名第8,印度(顶级域名为.in)排名12,韩国(顶级域名为.kr)排名14,而我国(顶级域名为.cn)排名21。从这里可以知道,我们的媒体在国际上影响力相对较小,很难起到影响国际舆论的作用。这就造成了一个问题:我们在国际上,特别是在外国网友心中的形象其实是一个任由他人打扮的小姑娘。我们的正面形象得不到很好的宣传,而负面形象却被广为报道,被有国际话语权的媒体“双标”是家常便饭。四、舆论战至关重要从以上的分析可以看出,媒体的国际话语权至关重要。在面对公共突发事件时,如何利用媒体的国际话语权打赢舆论战也至关重要。这不,面对美国国内新冠肺炎疫情迅速发展,以及美国股市三熔断的情况下,美国总统特朗普又尝试污名化中国转移美国的国内矛盾,尝试制造对我们不利的舆论环境。如何在国际老牌新闻媒体牢牢掌控着国际话语权的情况下脱围而出,建立我们的国际话语权和应有的国际形象,在突发的新冠肺炎疫情下打好舆论战,是一个非常值得思考的问题。
2020年3月18日
其他

这届毕业生到底有多难? | Alfred数据室

突如其来的新冠肺炎疫情让全国的学生都放了一个超长寒假。目前,很多学生都在家里享受着“高效率”的网课,乐不思蜀不想开学。不过这个超长假期对于2020届毕业生来说却是几家欢喜几家愁:有的毕业论文还没动笔,有的工作还没着落,有的整日待在家里刷微博……这届毕业生到底有多难?微博博主“鸡蛋粥”发了一条吐槽微博,顿时引起了成千上万个毕业生的共鸣,该条微博评论区也成为了大型比难现场:有人受春招缩招的影响没找到工作,有人考研落榜错过了秋招,有人要写毕业设计必须回校做实验。部分毕业生甚至表达了这样的愿望:赶紧开学吧!2020届毕业生真的有那么难吗?他们目前面临着哪些方面的困难?新冠肺炎对于企业招聘和毕业生找工作影响大吗?在教育部宣布今年研究生扩招18.9万人之后,接着考研是不是一个好的选择呢?我们通过数据来看一看。一、当前毕业生的多重困境论文、工作、考研,哪个才是2020届毕业生目前面临的主要难题呢?通过毕业生发表的评论数据可以看出,毕业论文和找工作是大家目前面临的两座大山。两座大山势均力敌,成为该届毕业生觉得“太难了”的主要来源。在毕业设计/论文方面,有的人过年回家前把电脑放在学校了,有的人必须回校做实验才能完成论文,有的人天天被导师催改论文,大多数人都担心一个问题:毕业设计不能按时完成可能要面临延期毕业。在找工作方面,疫情打乱了大部分企业的招聘计划,而且部分企业缩招造成了毕业生找工作时竞争加大。就连在去年秋招时已经找好工作的毕业生也并不完全高枕无忧:怕用人单位毁约想要赶紧回学校签三方协议。在论文和工作的压力下,很多同学都有这样的担心:开学即毕业,毕业即失业。除此之外,部分毕业生由于这次寒假在家待的时间太长纷纷被家长嫌弃,天天挨骂受教育。可谓是屋漏偏逢连夜雨,难上加难。另外,很多考研的毕业生有的担心考研复试时间太晚,有的考研落榜面临找工作危机,有的已经在准备考研二战了。不仅大学生毕业生感觉难,高中毕业生也觉得难。离千军万马过独木桥的高考已经不到100天了,需要日夜在家中备考,心中的焦虑可想而知。他们用一副对仗很好地描述了自己生命里所遇到的囧境:生于非典,考于肺炎。二、这届毕业生目前的心情如何?面临这么多的困境,求问当前毕业生的心里阴影面积几何?我们统计了微博评论下毕业生吐槽到底有多难时使用最多的表情。评论中表情的使用最能反应这届毕业生的心情:在使用最多的10个表情中,“泪”、“允悲”、“笑cry”一定程度上代表了这届毕业生对于目前处境的悲观心情,“跪了”、“摊手”、“拜拜”一定程度上体现了大家心中的无奈,另外“doge”、“二哈”、“微笑”等表情更加耐人寻味。从这些表情中我们可以更加感受到:这届毕业生确实是难。三、这届毕业生找工作会更难吗?其实毕业生找工作难并不是今年才存在的,而是每年每届毕业生都需要面对的一道题目。是否可以成功完成从学生到社会人的转变,是对于毕业生踏入社会的第一个考验。然而这届毕业生找工作是否比往届更难了呢?我们来看看基本的供求关系。在供应方面,可以看出近10年普通高校(本科、专科)毕业生数一致在稳步增长,其中2019年毕业生数为758.5万人,组成了规模庞大的求职队伍。除此之外,研究生毕业人数也逐年稳步增长,2019年研究生毕业人数为64万人;越来越多的海外留学生回国发展,也加入到了求职队伍中。根据教育部和人社部的预计,2020年我国的毕业生数量将达到874万人,比去年增加40万人,数量庞大。在需求方面,根据“前程无忧”平台上应届生招聘数据,今年企业应届生春招(数据截止日:2020年3月9日)的职位数量大约是去年秋招(数据截止日:2020年11月9日)的67%。虽说秋招职位数量通常要比春招多,但从数据上看,今年的春招职位确实受新冠肺炎疫情影响有所减少。从行业上来看,“学术/科研”、“网络游戏”、“农/林/牧/渔”、“通信/电信/网络设备”、“原材料和加工”等行业2020年春招职位数量是去年秋招的90%以上,所受的影响不大。而包括“酒店/旅游”、“娱乐/休闲/体育”、“物业管理/商业中心”等行业在内的众多行业受疫情的影响较大,今年春招职位数量不足去年秋招的50%。“酒店/旅游”行业更是只有去年秋招的24.5%,可谓是受疫情影响最大的行业。从单位类型上看,“上市公司”、“国企”等实力雄厚的单位春招职位数量是秋招的75%左右,受影响不是太大,而
2020年3月13日
其他

用大数据捋一捋肖战饭圈何以至此? | Alfred数据室

近日娱乐圈大瓜相信各位路人都吃得津津有味:同人文章《下坠》由于以流量明星肖战为角色原型进行创作引起了肖战饭圈的不满,部分愤怒的肖战粉丝们把为同人文章(包括《下坠》)提供平台服务的国外网站AO3举报了。此举导致AO3网站被墙,众多同人文章作者人人自危,并引起包括同人圈子等众多圈子粉丝的反攻。各圈路人凭着对肖战粉丝召唤公权力处置AO3平台的不满以及对创作自由的支持,通过给肖战影视作品打低分、抵制肖战代言品牌等方式打反击战,导致肖战代言的品牌方下架相关产品,“肖战工作室”出来发表声明……目前以同人圈为核心的各圈路人和肖战饭圈的战斗仍处于胶着状态,你来我往。各圈路人希望当事人肖战站出来表态,而肖战饭圈找到了新的据点:同人作品涉嫌侵权,属于违法行为……在此,我们暂且不论孰对孰错,对于包括Alfred在内的吃瓜路人来说感到更加疑惑的是:肖战饭圈粉丝们是一群什么样的人?为何一个流量明星的部分粉丝就可以造成如此大的影响?肖战饭圈这个路人看起来只存在于网络中的概念又是怎样的一个存在?肖战需要为粉丝行为负责吗?我们获取了微博“肖战超话”中2020年2月14日到2月25日的微博110588条(包括微博相关信息及发博用户相关信息),来解答以上的疑问。【全文名词解释】◆
2020年3月6日
其他

外国人眼里的李子柒难道不一样? | Alfred数据室

Liziqi”频道上的所有101条短视频的播放量数据,并把这些数据根据短视频发布的时间绘制成图。自从第一支短视频以来,几乎每一支YouTube“李子柒
2019年12月19日
其他

9102年的数据泄漏,裸奔的不只是你的个人信息 | Alfred数据室

日前,疑似“陕西普通话成绩查询网(sxpth.cn)”由于网站的程序员把所有考生信息(包括照片、身份证、准考证号、院校等)通过硬编码的方式直接写进了网页源代码里,导致大量考生信息泄漏。该网站在之后被查明是一个假冒官方的网站。不过这种
2019年11月8日
其他

周杰伦根本不需要流量!!! | Alfred数据室

可以看到,他们有的专注于自己的公司,有的仍坚持最初的希望和梦想,有的关心世界,有的希望自己温柔且阳光。显然他们已经把重心放在了“努力生活”上,但是这些从不妨碍他们心中还是留有地方给自己喜欢的偶像。
2019年7月22日
其他

人手一份的中国城市道路名图鉴 | Alfred数据室

不知道大家出差或旅游的时候有没有发现,有些城市特别喜欢使用其它城市或者省份的名字作为道路名,特别是青岛市,这会儿还在徐州路,走过一个街区来到了南京路,右转再走一会儿来到了香港中路,沿着香港中路往前走来到了福州南路,在城市里行走像是在全国旅游。另外,是不是所有城市都有一条“中山路”、“建设路”呢?胡同只存在于北方吗?还有哪些具有地方特色的道路名?关于我国城市的道路名,有哪些有趣的知识点呢?我们获取了某城市信息网站全国282个城市的道路名数据共201386条,为你揭开关于城市道路取名的秘密。一、哪些省份/城市在道路名中出镜率最高?用省份或者城市名来为道路命名,在我国很多城市中都十分常见,比如说上海市的南京路、广州市的北京路、长春市的重庆路等,那么到底哪些省份或城市在各城市道路名中最受欢迎、出镜率最高呢?我们首先统计了排名前十的省级行政单位名。北京路和上海路是道路取名中最受欢迎的,其余两个直辖市重庆和天津也在前十的榜单内。另外还有河北、河南、吉林、陕西等,都是经常在各城市道路名中出现的种子选手。各城市道路名中出镜率最高的城市又有哪些呢?排名第一的是中山市,然而大家都知道,取名“中山路”的基本上都是为了纪念孙中山先生的,就连原来的“香山县”都是为了纪念孙中山先生才改名为“中山县”,后来才成为“中山市”的。同样,取名为“朝阳”(辽宁省朝阳市)、“大同”(山西省大同市)、“文昌”(海南省文昌市)、“东方”(海南省东方市)等的道路,要说都是取名于城市名,多少有些牵强。所以这样算下来,排名第一的应该是“长春市”。二、哪些城市热衷于使用其它城市名作为道路名?哪些城市热衷于使用其它城市名作为道路名,走在城市中好像走在一张摊开的中国地图里的呢?经过分析后发现,青岛市果然名列第一。你可以在青岛市的道路名中找到多达131个不同地级市的名字,这里还不算全国其他地方的县名、古地名等。排名第二的选手是上海市,其实上海市使用其它城市名来作为道路名的历史,从1862年就开始了。1865年,英美租界当局通过议案,决定在原英租界内实行“南北向的道路以省名来命名,东西向的道路以主要城市名来命名”的规则。另外值得一提的是,排名前15的城市中,台北市、桃园市、高雄市、台中市、屏东、台东、云林等都位于台湾省。在台北市,除了与“三民主义”、“中山”、“中正”、“忠孝仁爱信义和平”有关的路名之外,就是大陆的各个城市名。哪些省份(省级行政单位)使用了最多的其它省份名作为道路名的呢?山东省稳居第一,总共使用了全国全部的省、自治区、直辖市、特别行政区名共34个。台湾省排名第二。三、道、路、街、巷、胡同、里有何不同?道路名中,有“xx大道”、“xx路”、“xx街”、“xx巷”、“xx胡同”、“xx里”,这些路名有什么区别呢?其实我们在日常生活中也可以感受出来,在整体的街道网络体系中,存在着由低级到高级的路径等级。我们经由生活的“胡同/巷/里”到两边具有商铺的“街”,再到更大的“路”和“道”,道路越来越宽,空间形态感受也明显有变化。这份数据中,“xx路”是最多的,具有94788条,再者是“xx街”,具有36588条。也许你会好奇,为什么有些道路名取名叫“xx里”呢?还有胡同是不是只存在于北方?《说文解字》解释“里”为:里,居也,从田从土。说明“里”有以前居住单位的意思。“里”作为都城内的聚集单位出现在西周时期。东周时期(春秋战国)开始确立了里坊制。以“xx里”作为路名,一定程度上是受了其影响。比如广州有华佗里,郑州有燕乐里。里和胡同的分布,是否有南北差异呢?可见,“里”除了北京之外,更多的存在于南方的城市,而“胡同”基本上集中在北方的城市中。四、各城市都有“建设路”吗?位于成都的建设路因遍布美食,广为大家所知。不过在我们的印象中,好像每个城市都是有一条“建设路”、“人民路”的。除此之外,还有其它流行的具有时代特色的道路名吗?我们统计了排名前十的具有时代特色的道路名。“工业路”排名首位,另外还有文化路、人民路、和平路、光明路、复兴路、朝阳路、胜利路、自强路,正能量满满,无一不体现着一种积极向上的精神。我们把所有的“工业路”在地图上绘制了出来,发现“工业路”多分布于工业发达的粤港澳、长三角、京津冀地区。五、体现人们美好愿望的路名路名除了携带有时代特色之外,有些路名还体现了大家对于生活的美好愿望,比如说永兴街(希望街道永远兴旺)、平安路等。同样,我们统计了排名前十的体现人们美好愿望的路名。“太平路”排名第一。此外还有“幸福路”、“成功路”、“健康路”、“仁爱路”等。想想自己家在“幸福路”上,无形中就感觉到了幸福。这些道路都分布在哪里呢?太平路、幸福路均匀分布于全国的各个城市中,看来大家对于平安和幸福的追求都是普遍的。对比之下,成功路多分布于南方的城市。六、体现区域地理的路名除了按照心中的美好愿望为道路取名之外,很多道路名也可以体现周围的区域地理。根据周围的地理事物为道路命名,也是道路命名的一个习惯。比如说,在我国的道路名中,跟“水”有关的有:海、湖、江、河、涌、滘、潮、湾、港、溪、滨、洲、浦、洋、潭、沟、池等,跟“山、地”等有关的有:岭、峰、山、田、泉、坪、埔、堤、坑、坝、屯。跟“水”有关的路名中,江河湖海谁最多呢?“河”是最多的,再者是“江”、“海”、“湖”。带有“海”字的路名,集中分布在东部沿海城市中。带有“湖”字的路名,除了分布在沿海多湖的地区,还分布在长江中下游的洞庭湖、鄱阳湖、巢湖、太湖周围。另外,一些与“水”有关的路名还透露着我国地区的用字差异。比如说“涌”(读chōng,表示小河流的意思)字,主要分布在珠三角地区,其它地方很少见。例如广州的东涌路、佛山的沙涌口路。而另一个表示分支的河道的“滘”
2019年7月19日
其他

游戏直播行业真的如你想象般暴利? | Alfred数据室

最近几年游戏直播行业火了,各种直播平台雨后春笋般出现在这大浪潮里。虎牙、斗鱼、企鹅电竞、熊猫直播等,造就了一批月入千万的游戏主播。继虎牙赴美上市,斗鱼也要上市了。然而,眼看他起朱楼,眼看他宴宾客,眼看他楼塌了。熊猫直播在2019年3月份关停了服务器。游戏直播行业真的如我们想象般暴利吗?对于直播平台来说,作为主要收入来源的打赏收入究竟如何?哪款游戏是最吸金的?对于主播来说,收入最高的主播营收如何?收入分布如何?工作时长是否辛苦?为了解答这些问题,我们获取了西瓜直播(今日头条旗下APP)各类型游戏的主播直播数据107.5万条(时间:2019年4月30日0时至5月7日0时7天,平均每隔5分钟获取一次各类型游戏所有主播直播数据)。一、收入最高的一批主播打赏收入如何?都说游戏主播月入千万,那就先来看看我们最关心的一个问题:月入千万的游戏主播多吗?平台收入最高的一批主播打赏收入状况怎么样呢?首先来看历史打赏收入数据。(注:这里的收入由主播收获的钻石数转换得来,不讨论主播如何跟平台分成,下同)可见,截止到5月7日0时,“陈大白游戏解说”是西瓜视频历史总打赏收入最多的游戏主播,收入为1280.3万元。历史打赏收入大于100万的有10位主播,大于10万的有177位主播。虽然没有我们想象中的月入千万那么多,但是部分人气高的主播收入确实非常可观。再来看看我们获取数据的这7天里,日平均打赏收入最高的主播有哪些?“Dae小川”遥遥领先,7天内平均每日打赏收入为14.5万元(按此估算,月入435万元)。TOP10的其它9位主播,平均每日打赏收入为1万元(按此估算,月入30万元)。这些TOP10的主播,一天就赚到了普通人花一个月乃至1年才能赚到的收入,还是很可观的。二、所有主播的打赏状况如何?然而,我们不能仅仅看金字塔尖上的人气高的主播,还有很多人气不高的主播,那所有主播的收入状况究竟如何呢?我们把不同收入区间的主播人数进行了统计。全平台7天内出现的主播有4601人,其中有3266位主播具有打赏收入,有1335位主播是没有打赏收入的。在3266位有打赏收入的主播中,历史总打赏小于100元的有1143人,占总数的35%。历史总打赏小于1万元的有2491人,占总数的76%。历史总打赏大于10万元的有177人,占总数的5%。三、主播们的辛苦程度如何?收入和努力是成正比的吗?我们计算了每位主播在数据获取的7日内,平均每日的直播时长,看看这些游戏主播们都有多努力。单日平均打赏收入前10的主播,7日内平均每日直播6.58小时。时长最长的是“麦兜解说”,平均每日10.3小时!日平均收入第一的“Dae小川”,平均每日8小时!可能大家觉得这个时间不长,但是要知道玩游戏是一项需要全神贯注的游戏,主播要是走神了没玩好,人气就不在了,礼物也刷不上来。试想一下每日要全神贯注玩6个半小时的游戏,还要解说和互动,就知道辛苦程度如何了。那么努力和收获是成正比的吗?图表中的趋势告诉我们:是的。总收入一百元以内的直播,平均每日直播2.2小时,而总收入一百万到一千万的主播,平均每日直播5.7小时!四、西瓜视频的主播圈生态如何?我们对7日内出现的4601位主播的相关信息进行了爬取。可见,西瓜视频聚集了56位粉丝超过百万的游戏主播,277位粉丝超过10万的游戏主播。在这277位主播中,有252位都是经过认证的,有55位是西瓜视频的游戏达人团成员。这是一个相对庞大的主播圈,可以为平台持续带来用户和关注。五、平台的营收如何?看完了主播的收入,我们也关心从平台角度出发的平台营收。直播视频是赚得盆满钵满还是入不敷出呢?经过统计,4月30日0时至5月7日0时着7天时间内,平台的总营收大约为491万元。按照比例估计,一年总营收为2.56亿元。看看7天的每天营收状况如何。(注:由于数据采集的原因,实际营收会比统计的稍高一些)可见非节假日的营收大致在50万元左右。节假日(5月1日-4日)的营收都要高于非节假日的营收。最明显的是5月1日,总营收为163万元,是平时的3倍多!看来五一大家都休息了,打赏效果非常明显啊!话说回来,一天50万的收入,是高还是低呢?这取决于平台跟主播的分成机制,以及平台需要付出的成本。比如说,为了保证带宽,平台需要付给运营商巨额的带宽费用,比如说,平台为了留住知名的主播,需要跟主播进行签约并支付签约费。六、平台七天的观众人数趋势如何?平台7天内的在线观众有多少人呢?一日内的观众数是否会呈现规律性的变化?我们把7日内每日各个时间点的观众数画了出来。可以看到,节假日的观看人数要比非节假日高。每日观看人数从7点开始攀升,到12点达到小峰值(500万左右),再从下午的4点开始急剧攀升,下午6点的观众人数,是12点的3-4倍。说明观众习惯下午下班后打开APP观看直播。下午6点一直到晚上12点,都是直播的黄金时间。七、哪款游戏最受欢迎?平台的直播有多种游戏类型,包括网游、手游、主机单机等。究竟哪款游戏最受观众的欢迎呢?我们统计了最受欢迎的10种游戏。(注:数据有平台差异,仅供参考)刺激战场(现在改名为“和平精英”)一骑绝尘,是当下最火的手机游戏。排名第二的是迷你世界。而前几年很火的英雄联盟,现在排在第10名。最受主播欢迎的游戏中,刺激战场也是第一位的。英雄联盟排名第三,说明虽然观看人数没有那么高,但是还是有很多主播愿意玩的。八、哪款游戏最吸金?我们把各游戏的历史总打赏收入进行了统计。看看哪些游戏是目前最吸金的。刺激战场还是一骑绝尘,打赏收入为5413万元,占总收入的53.5%!排名第二的是“迷你世界”。这个数据,跟前面最受观众欢迎的数据比较重叠,说明收入是跟观众数量成正比的。九、主播一晚的打赏状况如何?为了了解主播具体的打赏状况和直播状况,我们获取了“老撕鸡”主播(粉丝数:676万)4月17日22时到4月18日01时的3小时的弹幕数据4万条。经过计算,这3小时里,“老撕鸡”收获了24406个钻石,折现成人民币是3486元(按比例预估,一个月是10.5万元);同时收获了31676个西瓜,10226条评论弹幕,平均一秒一条评论。由钻石总数时间变化图可见,钻石总数呈现阶梯式上升,说明在特定的时间里,观众会集中打赏,或者偶尔存在数额大的打赏。并不是一直都有大额打赏的。十、主播的弹幕舆论如何?直播的时候,弹幕里都在说些什么呢?是点赞的多还是抬杠的多?作为一位游戏主播,需要承受多少被骂的压力呢?我们把评论进行情感分析,获取到了每条评论的情感倾向值(越偏向于0表示越负面,越偏向于1表示越正面)。所有评论的情感倾向值平均数是0.51,但这并不代表大家的评论都是倾向于中性的。由分布图可以看到,偏向于0和偏向于1人数各一半,说明游戏主播在面对大家对自己点赞的同时,也要面对大量的负面评论。老规矩,还是把评论数据做成了词云图。可以看到,评论中有“好看666”的字眼,也有“打脸”、“凉凉”的字眼。十一、总结从主播角度来看,游戏直播产生了一小批收入颇高的游戏主播,但是大部分的主播收入是很低的。打赏收入跟每日直播时长存在着正相关的关系。知名主播在获得高收益的同时,也要面对很多负面的评论,以及付出长时间的精力高度集中的劳动。从平台角度来看,目前西瓜视频聚集了一批游戏直播的知名主播。节假日营收要明显高于非节假日,下午6点到凌晨都是直播的黄金时间。最受欢迎最吸金的都是“刺激战场”,不知道该名为“和平精英”后是否会有变化。至于平台的收益,其实并没有我们想象中的高。Alfred有话说1.
2019年5月10日
自由知乎 自由微博
其他

用大数据扒一扒蔡徐坤的真假流量粉 | Alfred数据室

在我们的印象中,转发100万+可是某些明星官宣结婚、或者某些明星吸毒出轨被爆等能让微博服务器奔溃的流量呀。蔡徐坤真的那么火吗?他的100万+转发里到底是否存在假流量?假流量所占比重有多少呢?
2019年3月14日
其他

【20G】Kaggle数据集强势分析“绝地求生”,攻略吃鸡!

小E最近迷上了吃鸡,整天捧着手机战战兢兢,一会儿激动地起飞、一会儿手抖地厉害。在尝到了落地3分钟就被毙、跑不过毒倒在半路上失血致死、站在草丛中被不明方向的子弹狙击而亡、出门舔箱被猪队友当作敌人干掉等100种死法之后。对我突发奇想:你个做数据分析的,怎么就不能给我弄个独家吃鸡攻略呢?!当
2018年5月11日