数据森麟

其他

总结numpy中的ndarray,非常齐全

3)array_b是一个一维数组,数组中有三个数据。array_c是一个二维数组,数组中有2*3个数据。array_d是一个三维数组,数组中有2*2*3个数据。所以它们的形状分别是(3,)
2021年2月13日
其他

卧槽!原来爬取B站弹幕这么简单

"https://www.bilibili.com/video/BV1Z5411Y7or?from=search&seid=8575656932289970537",
2020年11月7日
其他

厉害了!麟哥新书登顶京东销量排行榜!

麟哥的新书登顶京东销量榜!新书上市以来,也得到了很多朋友们的好评,在此感谢读者们的认可,希望这本书未来能够帮助到更多的读者,顺利拿下数据分析师offer!也要感谢号主朋友们对这本书的认可,愿意将这本书推荐给了自己的读者,在此由衷感谢以下号主(排名不分先后):目前京东和当当都在举行新书优惠活动,其中京东正在进行半价购书活动,只需要5折的价格就可以买到:可以直接扫码购买:当当也在举行暑期满100-50的暑期优惠活动,同样相当于半价购书可以直接扫码购买:福利时间为了让已经购书的朋友能够进行更好的交流,我们成立了图书的读者群:今晚20:00将会在图书的读者群中发放红包福利,已经下单的朋友可以添加下方管理员微信,发送下单截图,让管理员帮忙拉进群:点击阅读原文,即可参与京东5折购书活动
2020年7月19日
其他

我写了本书:《拿下Offer-数据分析师求职面试指南》

我的第一本书《拿下Offer-数据分析师求职面试指南》跟大家见面了!为什么会写这本书经过了一年多的时间,自己的第一本书跟大家见面了,内心可以说是无比激动,自己一年多的努力有了成果。回想起为什么要写这本书,还要感谢公众号的读者们,日常与大家的交流中,最常被问到的问题就是“如何才能成为数据分析师?想要成为数据分析师需要做什么样的准备?”,这些读者有些是还在读书的学生,有些是想要转行的朋友们。通过与大家的沟通,会发现大家在日常的学习中,很难找到一套完整、成体系的资料来告诉大家想要成为数据分析师需要做哪些准备,包括知识储备和技能掌握。特别是随着互联网的快速发展,对数据分析师的要求发生了很大变化,在这样的背景下,很多朋友会感到更加的迷茫,不知道到底应该从何入手。随着时间的推移,会发现有非常多的朋友都会面临这个问题,之后就萌生了为想要成为数据分析师的朋友们写本书,帮助大家少走些弯路的想法。有了想法,下一步就是要找到书的切入点。这本书选择将数据分析师的面试作为切入点,通过告诉大家如何才能顺利通过数据分析师的面试,倒推所需要掌握的知识和技能,简而言之就是“结果导向”,这样做的效果往往会事半功倍。这本书是如何完成的前面提到了有了书的基本框架,下一步就是要开始真枪实弹地来完成这本书,大家现在看到的书框架是分成六章,用思维导图整理:这本书的内容围绕着面试的两部分能力展开,将其称之为“硬实力”和“软实力”第三到第五章节分别是基础知识考查,编程技能考查,数据分析实战技能,这三部分是将面试过程遇到的问题进行了拆解,属于面试中的“硬实力”考察。这部分写作的整体思路是“基于面试但不局限于面试”,将面试中会遇到的知识点进行延伸,能够让大家对于这些点有更深一步的理解,而不仅仅是为了应付一次两次的面试去准备。除了“硬实力”的部分,还有一些“软实力”也是需要分享给大家的,这些软实力往往会起到四两拨千斤的作用,帮助进一步提高面试的成功率。本书前两部分,一方面通帮助大家对数据分析师岗位职责有更深一步理解的,离你方面分享一些面试的技巧,包括了面试前如何准备和面试中如何表现。最后一部分是全书的一个补充,也是属于面试中的加分项,帮助大家拓宽视野。两个亮点除了内容部分之外,这本书在形式上有两个亮点:内容上以问答形式展开&全彩色印刷开始创作的时候,内容都是知识点的形式进行叙述,自己看的时候都会觉得有些缺少“眼前一亮”的点,更像是在平铺直叙。后来经过与编辑老师的讨论,将叙述的形式调整为问答的形式,这样一方面更加贴近于实战的场景,让读者有种代入感,另一方面也能够使得框架更加清晰,读者看起来也不“累”,因此就出现了以下的这种Q&A的形式:最后要说的是我自己对于这本书非常满意的一个点,作为一个比较“颜控”的人,当听说这本书最终会采取全彩色印刷时,内心非常激动,即使因此有很多的图片需要调整,也会感觉非常值得。当看到最终样书的时候,我觉得这本书颜值还是非常不错的:感谢一路上陪伴的人每一本书的完成,只有经历过才会知道有多么的不容易,即使没有经历九九八十一难,也差不多是要“脱一层皮”,没有周围朋友、亲人的支持鼓励,这本书也不会顺利完成。首先要感谢的就是出版社的老师们,慧敏老师和葛娜老师都是非常专业的老师,在策划和文字上都有着独到的见解,因为是第一次写书,很多的措辞都不是那么正规,有些表达不够书面化,要特别感谢葛娜老师耐心的检查和修改,让这本书的文字上更加严谨,整体规格大大提升。在写作的过程中,一些从事数据分析领域的朋友们给到了非常多的建议,从刘阳,张洁,蔡主希这些深耕于数据分析领域的好友中获得了非常多的建议,提高了全书的可读性。特别感谢数据管道公众号号主宝器,虽然他说话有时比较直接,但正是他的这种直接让本书在配图上破釜沉舟,给大家呈现出更高颜值的配图。也要感谢为这本书写推荐语的老师们,包括了胡晨川、胡淏、刘顺祥、李翔、梁勇、梁臻、苏克、宋天龙、沈仲强、谭金、魏子敏、杨庆麟、张俊红,老师们都是各自领域的大咖,能够邀请老师们写推荐语也是十分荣幸和感激。要特别感谢为本书写序的潘鹏举老师,也是我从事数据行业的引路人,非常幸运能遇到潘老师这样的良师益友。彩蛋本书已经在当当和京东上架了,想要一睹为快的朋友,可以直接下单购买,目前京东正在举行活动,大家可以用原价5折的价格购买,还是非常划算的:扫描下方二维码即可进入京东的购买链接(https://item.jd.com/12686131.html):除了京东之外,大家也可在当当购买哈,当当的链接如下:前面说了这么多关于这本书的内容,最后放出本文的彩蛋:我自己的签名赠书。这次的赠书会分为两个部分,一部分是给到数据森麟读者群中一直以来发言积极的朋友们,包括了欣姐,姜明松,梅破,明日世界,天人,小冯(具体名单我会一一私聊哈)以及知识星球“数据分析师成长日记”中的两位幸运读者王小美吖和杜杜。另外也准备了5本签名书通过抽奖的方式送出,预祝大家好运奥:点击阅读原文,即可参与京东5折购书活动
2020年7月8日
其他

用Python扒出B站那些“惊为天人”的阿婆主!

作者:徐麟,某互联网公司数据分析狮,个人公众号数据森麟(id:shujusenlin)前言近期B站的跨年晚会因其独特的创意席卷各大视频网站,给公司带来了极大的正面影响,股价也同时大涨,想必大家都在后悔没有早点买B站的股票:然而今天我们要讨论的不是B站的跨年晚会,而是B站的核心资源:“惊为天人”的阿婆主们,文章的灵感来自于知乎热榜上的一个问题:数据获取上面的问题一共获得了859个回答,本文的数据也正来源于此,由于很多回答都会将带有阿婆主ID的链接在回答中体现,如下图所示:我们可以将问题中出现的阿婆主空间id进行了爬取,但考虑到并不是所有回答都会带有这样的ID,于是将一些加粗的字体进行了提取,从中获得一些阿婆主的名称,作为数据的补充:上面的这个回答就是一个典型的案例,其中提到了之前非常火的获得库克生日祝福的小学生,提取数据的一些代码如下:#
2020年1月6日
其他

笑死人不偿命的知乎沙雕问题排行榜

(图片来自于网络)作者:徐麟,某互联网公司数据分析狮,个人公众号数据森麟(id:shujusenlin)前言这两天偶然上网的时候,被知乎上一个名为“玉皇大帝住在平流层还是对流层”的问题吸引,本以为只是小打小闹,殊不知这个问题却在知乎上引发了强烈共鸣,浏览次数500W+,7000+关注:于是乎就激发了去探索知乎上“沙雕”问题的想法,也参照了shenzhongqiang强哥之前的知乎神回复文章爬了下知乎神回复,笑死人了~,通过Python爬取这些问题的内容,浏览次数,关注人数,总结一份权威(搞笑)的“沙雕”问题排行榜数据来源知乎非常“贴心”地专门有一个问题可以满足我们的需求,出人意料的是这个问题居然有243个回答,并且陶飞同学获得了3W+的赞同我们从中爬取了所有回答中出现的问题链接,共用400多个问题,其中陶飞就提供了200+,在此向陶飞同学表示感谢,帮助我们构建了“沙雕数据库”,这部分代码如下:import
2019年10月31日
其他

我用Python纪念了那些被烂片收割的智商税!

41今日的留言话题是尽情交流(吐槽)被烂片收割智商税的经历,关于留言打卡的规则可以参考数据森麟公众号留言打卡第二季开启!,请按照昵称+天数(请以自己实际打卡的天数为准,如day1
2019年10月25日
其他

互联网大佬学历&背景大揭秘,看看是你的老乡还是校友

作者:徐麟,某互联网公司数据分析狮,个人公众号数据森麟(id:shujusenlin)前言
2019年7月30日
其他

上万条数据撕开微博热搜的真相!

我们此次并没有直接去爬取微博的原始数据,而是从一个专门记录微博热搜历史数据的网站获取,网站界面如下:通过网站的数据接口,我们获取到了今天1月1日至今的2W多条数据,爬取代码如下:resou
2019年7月15日
其他

数据森麟公众号留言打卡第二季开启!

数据森麟公众号第一季留言打卡活动此前顺利结束,得到了大家的支持,也得到了很多不错的反馈,为了进一步提高大家与我们的互动,我们从7月15日开始第二季的留言打卡活动,关于活动的一些详细规则如下:时间:7月15日-10月30日打卡方式:与第一季相同,我们会在一些文章的最后出现于推文相关的留言打卡话题讨论,如图:参与者需要按照:昵称+自己打卡的天数+留言内容,如数据森麟+DAY2+留言内容,留言内容正文超过15字,与话题相关并且留言时间在推文发布24小时内视为有效(以是否上墙为依据)重要事情说三遍:不需要连续打卡,不需要连续打卡,不需要连续打卡,只要最终总的有效天数符合要求即可打卡奖品:累积50天:100%获得书籍一本(100元书籍池中选择1本)如果最终累积天数到达50天的少于50人,则会从打卡超过25天的读者中按照天数降序,自动补齐至10名获奖者另外,累积天数排名靠前的读者会获得额外的奖励,数量待定,并且最终可能会调整奖品(只多不少),可以参考第一季最终的奖品情况:第一季留言打卡活动圆满结束,看百元大奖花落谁家(附中奖名单)欢迎大家积极参与!本活动最终解释权归数据森麟公众号所有,明天是第二季打卡的第一天,敬请期待!
2019年7月14日
其他

第一季留言打卡活动圆满结束,看百元大奖花落谁家(附中奖名单)

数据森麟公众号第一季的文章留言打卡活动圆满结束,最终能够坚持一直打卡的朋友说实话比想象中少了很多,看来坚持真的是一件非常不容易的事情。私下也与一些坚持打卡的朋友有过沟通,都是在各自的领域有着非常不错的成绩,也不乏很多“潜力股”,能够坚持这么久把一件小事做好,想必在其他的事情上也会有不错的成绩。下面进入正题,宣布一下这些朋友们的奖品和中奖名单,所有打卡20以上的读者都有奖品,现金形式发放,取代之前提到的送书形式,更加直接明了:昵称打卡天数奖品(现金形式发放)小涛机智51102+30=132梅破知春近50100+20=120记忆的鱼4998+10=108李沛欣4998+10=108为人民服务3468+5=73FLOCN2958孔夫子家的湫2448lodan2244恭喜以上中奖的朋友,可以直接添加微信xulinlucas领奖另外要说一下,第二季的公众号留言打卡即将于7月底开启,形式会有所改变,更加灵活,奖品也会升级,期待更多朋友的参与,也欢迎大家在留言区与我们分享第一季的一些想法或者是对第二季的一些建议
2019年7月7日
其他

数说那些年我们一起经历的高考

可以看到,不同省份的985和211录取率有着比较明显的差距,12个省份的985录取率低于1.5%,安徽,河南,江苏和贵州更是低于1.2%,作为山东考生的作者也不由得表示“自愧不如”。
2019年6月3日
其他

你相信逛B站也能学编程吗?

tag_count[tag_count['type']=='语言']coding_stat.sort_values('play',ascending=False,inplace=True)attr
2019年5月13日
自由知乎 自由微博
其他

如果只有1小时学Python,看这篇就够了

除了爬虫,分析数据也是Python的重要用途之一,Excel能做的事,Python究竟怎么实现呢;Excel不能做的事,Python又是否能实现呢?利用电影票房数据,我们分别举一个例子说明:
2019年5月8日
其他

看完这篇买车不用坐引擎盖哭啦

今日的留言话题是谈谈你对这次奔驰车维权事件的看法,关于留言打卡的规则可以参考数据森麟公众号第一季留言打卡活动开启!,请按照昵称+天数(请以自己实际连续打卡的天数为准,如day1
2019年4月18日
其他

大数据解读B站火过蔡徐坤的“鬼畜“区巨头们

=0,is_splitline_show=False,label_text_size=12,is_label_show=True)bar.render('2018人物弹幕数量TOP10.html')
2019年4月15日
其他

盘盘“杨超越杯编程大赛”中那些脑洞大开的项目

通过今天的文章,我们不禁被杨超越的粉丝们所折服,这应该才是“追星“的正确姿势,希望大家都能多多努力,因为再不努力连追星的机会都没有了,想要参与赛事的朋友,可以通去下面的赛事github主页一探究竟
2019年3月11日
其他

数据森麟公众号第一季留言打卡活动开启!

各位读者,为了感谢大家对于公众号的支持,同时也为了增加大家与我们的互动,我们从3月11日开始第一季的留言打卡活动,关于活动的一些详细规则如下:
2019年3月10日
其他

数说奥斯卡女神们 : “惊艳了时光 , 温柔了岁月”

driver.find_element_by_xpath('//*[@id="personDetailRegion"]/div[1]/span/a').get_attribute('href')
2019年3月7日
其他

Python一键爬取你所关心的书籍信息

10:#bdf.sort_values(by='评分',ascending=False).head(10).loc[:,['书名','作者','阅读时间','阅读情况','出版社','评分']]
2019年3月5日
其他

数据解读京东上最受欢迎的面包

request.build_opener(handler)print(opener)except:time.sleep(6)req
2019年2月27日
其他

深度学习哪家强?用数据来一较高下吧

数据来自Github上这些框架的repo。上面Star数等数据,虽然不是框架好坏的直接反应,但肯定体现了潮流。跟着潮流走总不会有大错,就算学艺不精,总还能和别人谈笑风生。
2019年2月21日
其他

豆瓣已玩烂,来爬点有逼格的 ——IMDB 电影提升你的品位

detail.find('div',attrs={'class':'title_wrapper'}).find_all('div',attrs={'class':'subtext'})
2019年2月18日
其他

“史上最强春节档”来袭!数据解读值得看的影片是......

除此之外,每年的春节档电影都会如约而至与大家见面,春节档诞生了许多的经典电影,2019的春节档电影也是佳片云集,被称作“史上最强春节档”,今天我们就带大家一起用数据去解读其中最值得看的影片。
2019年1月28日
其他

一文入门Python + Selenium动态爬虫——从了解房价开始

我提前把数据表建好了的,表名为lianjie_data,数据库名是lianjie,这里根据个人情况。你可以写一个data_save的方法,我这里简单粗暴点从上到下直接写完了。好了运行程序
2019年1月24日
其他

准备考试?python也能帮你划重点,上考场

我:“这个分析确实有用,看着这些词我就联想到了,在1840—1919年的中国,清政府面对外敌的屈辱,以及孙中山先生为代表的有识之士的努力。但是考试不是单考这些对象,关键要考和它们有关的知识点啊。”
2019年1月23日
其他

实用干货!周播节目《数据有坑》S01E01---地图消失之谜

成为“坑友”:每期节目结束后针对于当期提供的“坑”进行留言,我们会从中选取部分留言(数量暂定为10条左右)作为“走心”留言,并在下期节目开始前公布上期的“走心”留言。
2019年1月13日
其他

用python分析《三国演义》中的社交网络

成功地把指称统一到标准的实体名以后,我们就可以着手挖掘三国的社交网络了。具体的建立方式是利用邻近共现关系。每当一对实体在两句话内同时出现,就给它们加一条边。那么建立网络的整个流程就如同下图所示:
2019年1月4日
其他

数据版"吐槽大会": 国产综艺节目年终盘点

恭喜李诞“蛋总”荣膺最常出现面孔,对于喜欢他的人应该会感到幸福,而对不怎么认可他的人来说,估计会是场灾难,好多节目会因此而被弃。不过数据表明,你喜欢或者不喜欢,蛋总就在那里,看一下蛋总今年的节目:
2019年1月2日
其他

一份来自数据森麟的2018年终总结

同时也要感谢机械工业出版社的旺财哥,旺财哥多次赞助我们的送书活动,并且每次都立刻就会将书籍寄给我们的读者,目前已经赞助了我们公众号10本非常不错的书籍,其中一次活动的链接:【送书活动】实用机器学习
2018年12月31日
其他

如何成为数据分析师系列(二):可视化图表进阶

需要说明的是,这次演示的图表几乎都是用Tableau制作的「因自身学习的原因」,不再是Excel制作的图表。其中有部分图,仍旧能用Excel制作,有部分已经不适合使用Excel制作了。
2018年12月26日
其他

如何成为数据分析师系列(一):可视化图表初阶

对比多个指标,尤其是对比指标与指标的增长率上非常适用,使得一个图表可以表现两个层次的信息。(当然要尽可能避免信息的重复。如下图,折线图含义如果换成团队签约数占公司总签约数比例,则意义不大)
2018年12月25日
其他

腾讯系企鹅杏仁(上海)数据分析工程师岗位部门直聘机会

2018年8月9日,腾讯系企鹅医生与杏仁医生签订战略合并协议,新集团公司命名为企鹅杏仁,将继续布局线上线下一体的大健康服务体系,致力于用科技使高品质的健康与医疗服务,变得人人可及。
2018年12月19日
其他

数据解读广大“钢铁直男”眼中的女神评判标准(文末有彩蛋)

懂球帝目前的女神大会做到了90期,并没有十分完整地囊括广大女神,比如“四旦双冰”就都没有出现,使得这次的数据并不能完全地表述广大“钢铁直男”心中的女神标准,未来随着期数的增加,相信会有更加完善的分析
2018年12月17日
其他

美团网美食数据爬取

问题来了!纠结半天后发现这个token是有时效的,而且是js生成的。。。这也不是问题,get请求行不通我们还有selenuim。悲催的是美团真的是大厂直接封杀selenuim
2018年12月11日
其他

互联网公司中,数据分析师是如何帮助公司创收的

作为公司的“现金牛”业务,风控一直是公司创收的核心能力。我是大数据风控模块“玉衡”服务的数据分析和模型建立工作项目组中的一员,就简单地从信贷风控角度给大家分享下数据分析师是如何帮助公司创收的。
2018年11月30日
其他

想要在互联网公司AI 岗位校招中脱颖而出,听听面试官怎么说

第一个是京东集团内部,各部门面试官对于校招简历都是抢的,面试官不仅要筛选简历,还要自己打电话给候选人约定面试时间,因为如果等到HR统一联系候选人,自己选中的候选人可能就被其他部门捷足先登了。
2018年11月25日
其他

当当网双十一全品类图书五折封顶,附赠满200减30优惠券

双十一之际,估计很多人的购物车里塞满了宝贝,为了感谢大家对公众号的一路支持,今天提前给大家送一波福利,当当19周年庆图书5折封顶(活动时间到11.11
2018年11月10日
其他

中超大战来袭!一文看懂评论里的中超风云

除了关注球队的热度,球迷对球队的褒贬评价也十分重要。不过球迷们对球队的评价常常会随着球队的表现而起伏波动,即使是对于当今联赛最出色的两支球队——上港和恒大也是一样,让我们来看看他们的情感度变化趋势。
2018年11月3日
其他

60行代码爬取知乎神回复

大家看出什么规律了么?短小精辟有没有?赞同很多有没有?所以爬取知乎神回复我们只要爬取那些赞同多又字数少的回答就可以。简单的两个步骤就能实现,第一步爬取知乎回答,第二部筛选回答。是不是很easy?
2018年11月2日
其他

数据森麟公众号文章征集令来袭!

数据分析、挖掘、可视化理论&实战性文章:只要您的文章内容与数据分析、挖掘、可视化相关,无论是理论讲解或者实战操作,都请与我们联系。使用的编程语言没有限制:Python
2018年10月31日
其他

纵观30年5000多部国产电视剧,豆瓣评分最低的演员原来是……

不出意外,北京和上海两大中心城市的演员数量也是最多的,而第三名就是小编的家乡青岛了。之前每当小编提及青岛,总是会提起青岛的明星多,这次的数据更加使得小编未来有了交流(chuixu)的底气。
2018年10月26日
其他

今日头条(北京)数据运营岗位内推机会

薪资待遇高于业界期望薪酬,提供租房补贴,一日三餐,简历发送至tangxiaotong@bytedance.com,直达负责人。
2018年10月12日
其他

爬了下知乎神回复,笑死人了~

你可以给她送个锦旗。。。以上是精选的80条,这次一共爬了285条神回复,公众号后台回复【神回复】可以获取全部的内容,也欢迎大家留言与我们分享你所见到过的神回复。◆
2018年10月9日
其他

揭开互联网公司的神秘面纱,数据解读那些slay整个行业的互联网公司

在面试难度偏低的一些公司中,有许多非常不错的公司,该数据仅仅是一个参考,真正的面试还是要取决于求职者的实际能力,所谓会者不难,难者不会。真正的大牛无论是面对多么困难的面试,依然可以slay全场。
2018年9月29日
其他

【送书活动】实用机器学习

感谢机械出版社对公众号送书活动的支持,近期有许多朋友在交流群中表达了对于机器学习的兴趣,也有志于入坑机器学习,而《实用机器学习》一书可以帮助初学者快速入门机器学习,并且解决初学者的以下痛点:
2018年9月10日
其他

统计思维如何帮助大数据应用从人工走向智能?(下)

通常银行或者大型互金公司的全量数据集在百万条左右,考虑到数据质量、成熟度、安全性等问题,可供训练模型的数据集就更少了。基于有限的训练集,深度学习等复杂网络算法容易产生过拟合,导致模型的泛化能力不强。
2018年9月4日
其他

【送书活动】全景式讲解Python 3理论与实战

本书结合机器学习数据分析的过程,以实际案例问题为驱动,深入浅出地介绍常用的机器学习算法及数据分析方法:数据预处理、分类问题、预测分析、关联分析、网络爬虫、集成学习、深度学习、数据降维和压缩等。
2018年9月3日
其他

统计思维如何帮助大数据应用从人工走向智能?(上)

数据森麟公众号的交流群建立一周以来,得到了许多小伙伴的支持,目前的交流群人数比较多,为了提高大家的交流效果,我们现在开设了2群,可以扫描添加管理员微信号,让管理员帮忙加入。
2018年8月29日
其他

Python or Java?大数据解读学什么语言最赚钱

browser.find_element_by_xpath('//*[@id="order"]/li/div[4]/div[2]').click()
2018年8月28日