Giao数据

其他

醒醒吧年轻人,赶紧起来学做菜了,送你一份数字化菜谱!

摘要:利用下厨房菜谱等相关数据[1],我们首先比较了头部的不同菜谱App,接着对菜品的内容进行了文本挖掘,然后整理了新手做菜需备食材、不同菜品的评分情况以及最受欢迎的菜品名称。本文对于想学做饭的小白/宅男宅女有着劝退最起码消遣时光的重要意义。古罗马西塞罗曾说:“你应该为生存而食,不应为食而生存”,可惜时过境迁,人心不古,在新时代吃货脑海中:我活着就是为了吃,越好吃越好。出门下馆子,太贵;天天叫外卖,堕落;让对象来烧,做梦。年轻人们逐渐意识到,不掌握好做菜这门手艺不仅会变穷,更会饿死。为此,一向急人之所急的Giao数士,连续几晚肝出了这篇推文,从数据的角度帮助年轻人迈出成为带厨师的第一步。01
2020年8月8日
其他

分析完1908至2020百年飞机空难数据,我竟然发现了这几条“保命”小秘诀!

摘要:本文爬取了飞机失事网1908-2020年空难相关数据[1],包括空难发生次数、机组和乘客的死亡人数与死亡率、不同季节的空难发生次数、空难相关文本的关键词、空难高发地、空难高发航空公司、空难高发机型以及在空难中丧生的知名人物、知名事件。希望帮助大家全方位建立空难时空观、克服保命心理关、抛弃遇事不决就是玄学·观。本文对于飞机乘坐恐惧症患者具有心理疏导、战略藐视、战术重视的重要意义。(文末有红包!文末有福利!文末有惊喜!)友情提示,阅读本文前请扔掉出门前的黄历,高举《马克思主义基本原理概论》,跟着我大喊三声“真正的唯物主义者是无所畏惧的!真正的唯物主义者是无所,畏惧的!真正的唯物主义者是无所畏,惧的!”01
2020年8月1日
其他

想成为草根“投资人”或薅资本市场羊毛?帮你用数据初探众筹市场

摘要:利用京东众筹相关数据[1],本文回顾了中国众筹市场发展的整体历程,简要分析了中国众筹平台的生存局面。重点分析了京东众筹平台的类别分布、产品成功率以及各类别TOP类项目。本文对于希望骗到投资实现梦想的创业者和白嫖产品帮助他人的赞助者有着下饭开拓思路的重要意义。一天下午,我的朋友凑近我的耳边,基情激动的气息让我耳鬓渐红,说希望进入中小投行,接着转型做金融。我连忙扇了他四个巴掌,拽着头发向栏杆撞去,让他清醒清醒,接着询问原因。原来他羡慕西装革履、不断颠覆行业、和创始人谈笑风生的投资人生活。事实上,面对着从业人数仅千级的风险投资市场,很多人只能望而却步。于是,那些笃信自己投资眼光的“草根”投资人,把目光投向了新的目标——众筹市场。一同前往的还有喜欢新奇玩意儿的斜杠青年、偏好一定风险的收集家以及精打细算的生活达人。01
2020年7月25日
其他

什么地方的人结婚最容易离?这是一份值得你收藏的数字化离婚攻略

摘要:利用中国离婚状况相关数据[1],本文分析了离婚数量变化的总体趋势、离婚数量与地域分布的关联性以及再婚数量的变化情况,并试从思想观念、受教育程度、通讯技术发展等方面解释离婚率增长的原因。本文对于犹豫不决的待离婚人士具有数据与心理支撑的重要意义。“爱情总是以自欺开始,以欺人结束,这就是所谓的浪漫”。唯美主义作家的思潮引领着一代又一代的年轻人为民政局(结婚离婚)手续费做出了力所能及的贡献。今天,我们将带领大家越过爱情的开端,直奔爱情的坟墓,从数据的角度探索离婚问题。01
2020年7月21日
其他

“中美英日韩”五国热播剧大对比,我用数据分析发现国产剧迎来了巅峰?

摘要:本文爬取了豆瓣官网电视剧热播榜“中美英日韩”5国热播剧数据[1],共计2500条。首先,对比了5国电视剧的基本特征,如评分、集数和时长。其次,分析了总体上出现频次较高的热播剧类型。再次,梳理出不同国家Top热播剧类型及高分代表作。同时,筛选出分国家热度前5的电视剧榜单。接着,探究了近20年5国电视剧评分均值的整体走势。然后,统计出国产剧最脸熟导演、编剧和主演。最后对全文进行总结。最近,国产剧《隐秘的角落》火了,口碑和热度双丰收。这是否象征着国产剧的制作工艺和制作标准迈向了新台阶?国产剧普遍的现状是怎样的?和外国电视剧相比有什么差异和特点?为了解决上述问题,今天我们不“爬山”,我们爬数据,并从数据的角度重新认识一下国产剧和洋剧。01
2020年7月16日
其他

代码注解 |《数据分析唐诗三百首》

摘要:本文介绍了分析唐诗三百首数据的基本流程。首先,对数据进行了预处理。其次,利用玫瑰图分析了唐诗三百首体裁构成。接着,利用桑基图找出体裁全能型创作选手。然后,拟合诗人寿命与作品出产量的关系。最后总结并给出建议。很多时候,数据获取只是第一步,如何利用现有的数据挖掘信息,深入的了解数据对象更为重要。在利用爬虫获取古诗文网唐诗三百首数据后,今天我们来探讨一下如何利用python对唐诗数据进行预处理、分析和可视化。需要说明的是,本文只介绍数据分析代码,更偏技术,相关内容的深入分析见文章《我用数据分析了唐诗三百首,发现最秀的竟然不是李白?》。01
2020年7月16日
其他

我用数据分析了唐诗三百首,发现最秀的竟然不是李白?

摘要:本文爬取了古诗文网[1]《唐诗三百首》里唐诗相关数据。首先,分析了唐诗体裁的构成。其次,筛选出唐朝Top5高产诗人名单。然后,分析出不同诗人擅长创作的题材类型。接着,对古诗内容和古诗类型进行内容分析。最后,探讨了诗人寿命和作品产量的关系并给出总结。“熟读唐诗三百首,不会吟诗也会吟”。想必这句话大家都不陌生,其出自《唐诗三百首》编者蘅塘退士所作原序。出于义务教育教材的强力推荐,几乎所有人从小就和唐诗有着不解之缘,我说“床前明月光”,下一句你肯定知道是“李白睡得香”、“地上鞋两双”、“疑似地上霜”。但是今天,我们不复习韵律,也不品派别,就从数据的角度重新认识一下《唐诗三百首》!01
2020年7月8日
其他

分析完13067条数据,我才发现上海有这么多好吃的地儿!

摘要:本文爬取[1]了大众点评上海官网下13067条美食数据。首先,分析大众点评上海美食饭店分布。其次,按照出现频次研究上海美食的菜系构成,并分行政区探讨人均消费、推荐菜等内容。然后,分别以综合评分、评论量、口味、环境和服务为指标,筛选出不同指标下Top5美食饭店信息。最后给出总结。魔都上海,作为世界第6大一线城市[2]和中国金融中心,是每个人生命中必去或者将去之地。站在外滩哥特式、罗马式、巴洛克式、中西合壁式等“万国建筑博览群”中间,望着东方明珠塔直指苍穹,璀璨的光芒在梦幻的夜空闪耀,此情此景真的让人忍不住思考一个非常严肃的问题——今天吃什么好呢?那接下来我们用数据看看在上海能吃到啥美食吧。01
2020年6月29日
其他

给自己买或者送别人什么口红好呢?4353条口红数据帮你挑选品牌与色号

摘要:本文爬取[1]了淘宝4353条口红商品信息。首先,筛选出销售量大于20000的口红商品并取出其品牌。其次,将品牌划分为平价组和小资组,并以评论量为指标,筛选出每个口红品牌产品Top2。然后,进入这些Top2口红商品页选出商家推荐爆款色号。最后,找出对应品牌产品色号上色图供参考
2020年6月21日
其他

我爬了淘宝5000+口红商品数据,差点比女朋友更懂口红?

摘要:本文以“口红”为关键字,爬取[1]了淘宝与天猫官网下100页口红数据,经过去重,得到共计4353条口红商品信息。首先,在国际和国内两个层面上对口红发货地进行分析。其次,通过数据分析与可视化手段对口红商品进行价量分析与内容分析。然后,以评论量为指标,遍历与筛选出口红相关商品Top10榜单。最后,对文章进行总结。提起车表,大多男生们那是滔滔不绝、夸夸其谈、头头是道,对面女生们那是一脸懵X、漫不经心、无言以对;提到口红,双方角色立马互换。有人说如果“卡姿兰”是车界的“比亚迪”,“迪奥”、“圣罗兰”、“香奈儿”是BBA(宝马、奔驰、奥迪),那么“萝卜丁(Christian
2020年6月17日
其他

网易音乐里有哪些打动你的评论?110万+条数据告诉你答案

摘要:本文爬取[1]了网易音乐23个风格分类[2]下29922个歌单,遍历了播放量大于100万的歌单里所有歌曲(80w+),经过去重得到141264首歌曲里共计1131521条热门评论。首先,根据点赞数对热评进行排序,列出点赞数Top100的热评。其次,通过词云、词频统计和文本情感分析等手段对网易热评进行内容分析。然后,从时间、所在歌曲热度和评论者身份角度分析一条评论成为热评的影响因素。最后对文章进行总结。最近在知乎刷到几个蛮有趣的问题,诸如“网易云音乐里有哪些打动你的评论”之类,于是一时兴起,写了一个爬虫爬取热门评论来看看它们都传递了什么内容。01
2020年6月10日