突发!员工跳楼!只拿低保工资!央企设计院集体罢工!

突发!北京某院集体罢工!

淄博向东,惠泊向西:在人民与人民币之间,惠泊停车选择了人民币

【少儿禁】马建《亮出你的舌苔或空空荡荡》

10部适合女性看的唯美情色电影

生成图片,分享到微信朋友圈

自由微信安卓APP发布,立即下载! | 提交文章网址
查看原文

这有一份今日头条数据分析面经

The following article is from DataGo数据狗 Author 夏芷

哈喽大家好,我是可乐

今天给大家分享一篇今日头条数据分析岗位面试题解析的文章

基础题
头条倾向于考查概率论相关的基础题。无论校招还是社招,基本上这类题目答不上的话,就不会继续问其他问题,面试也到此结束。
问题1:
两组抛硬币实验,没有先验,考虑两种情况:
1.共抛了5次,得到了两次正面,三次反面;下次一抛,是正面的概率是多少?
2.共抛了50次,得到了二十次正面,三十次反面;下一次抛,是正面的概率是多少?
解析:
这题比较巧妙的是,如果只问了第一个问题,那可以直接采用极大似然估计,得出来硬币的参数。但是这里同种情境,问了两次,只是改变了实验次数。解法如下:
问题一,试验次数太少,假设为均匀分布,那么参数为0.5。
问题二,用极大似然估计求解,采用伯努利分布。具体见图:
问题2:
F检验的作用
解析:
1)F检验是检验两个正态分布的样本的方差是否存在显著差异
2)也可以用于对多组样本之间比较
3)计量中,F检验原假设所有自变量对因变量都没有影响,排除原假设说明至少有一个自变量对因变量有影响
问题3:
P值的意义
解析:
P值(P value)就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。
P值,碰巧的概率,对无效假设的统计意义
P>0.05 碰巧出现的可能性大于5% 不能否定无效假设 两组差别无显著意义
P<0.05 碰巧出现的可能性小于5% 可以否定无效假设 两组差别有显著意义
P<0.01 碰巧出现的可能性小于1% 可以否定无效假设 两者差别有非常显著意义
问题4:
在一个重男轻女的国家里,每家每户都想生男孩。若一户人家生了一个女孩,便会再生一个,直到生下的是男孩为止。请问这个国家的男女比例是多少?
解析:
一对夫妻生的每个孩子都是相互独立的,因此这是独立的N个事件问题。每个孩子是男孩是女孩的概率都是0.5,因此生N个小孩时男孩个数的期望为1/2N。

技能题
问题1:
SQL题:表 Cost: date | cname(customer's name) | cost
找出每天花费最大的客户。
解析:
SELECT date,cnameFROM Cost a INNER JOIN (SELECT date,max(cost) as maxcost FROM Cost GROUP BY date) bON a.cost=b.maxcost and a.date=b.date
问题2:
一个日志表,有两列 date,cid(customer id),添加一列is_new表示当天这个用户是否是新用户,基本逻辑是当天用户id不在之前日期的id集合中,那么就是新用户
解析:
ALTER TABLE LogADD COLUMN is_new Boolean
UPDATE LogSET is_new = 1 WHERE date,cid in (SELECT min(date),cid from Log GROUP BY cid)

业务题
问题1:
如果次日用户留存率下降了 5%该怎么分析?
解析:
留存率=新增用户中登录用户数/新增用户数 * 100%(一般统计周期为天)
次日留存率:(当天新增的用户中,在注册的第2天还登录的用户数)/第一天新增总用户数;
先判断这个下降是否合理,然后从各个方向头脑风暴。某公司做了很多拉新、推广的活动,用户是带来了很多,但是留下来或经常返回来的客户不一定增长,他们有可能是在减少,只不过是拉新过来的人太多了而掩盖了流失率居高不下的问题,实际上客户的留存是在逐渐降低的。用户进入时来源于不同的渠道,通过不同的营销手段拉入游戏,这样我们交叉分析,通过用户的后期留存情况就能从一个层面把握渠道质量。
1)首先采用“两层模型”分析:对用户进行细分,包括新老、渠道、活动、画像等多个维度,然后分别计算每个维度下不同用户的次日留存率。通过这种方法定位到导致留存率下降的用户群体是谁,按照获取客户渠道进行分析,按照获取客户时间进行分析,按照用户行为进行分析,不同群组对产品不同模块使用状况的分析。
2)分析留下来用户的核心需求和流失用户的流失原因
内部因素:分为获客(渠道质量低、活动获取非目标用户)、满足需求(新功能改动引发某类用户不满)、提活手段(签到等提活手段没打成目标、产品自然使用周期低导致上次获得的大量用户短期内不需要再使用等);
外部因素采用PEST分析,政治(政策影响)、经济(短期内主要是竞争环境,如对竞争对手的活动)、社会(舆论压力、用户生活方式变化、消费心理变化、价值观变化等偏好变化)、技术(创新解决方案的出现、分销渠道变化等)。
问题2:
用户刚进来APP的时候会选择属性,怎样在保证有完整用户信息的同时让用户流失减少
解析:
采用技术接受模型(TAM)来分析,影响用户接受选择属性这件事的主要因素有:
1)感知有用性:
    a. 文案告知用户选择属性能给用户带来的好处
2)感知易用性:
    a. 关联用户第三方账号(如微博),可以冷启动阶段匹配用户更有可能选择的属性,推荐用户选择
    b. 交互性做好
3)使用者态度:用户对填写信息的态度
    a. 这里需要允许用户跳过,后续再提醒用户填写
    b. 告知用户填写的信息会受到很好的保护
4)行为意图:用户使用APP的目的性,难以控制
5)外部变量:如操作时间、操作环境等,这里难以控制
问题3:
男生点击率增加,女生点击率增加,总体为何减少
解析:
典型的辛普森悖论问题,考虑用户群体比例的变化
因为男女的点击率可能有较大差异,同时此时低点击率群体的占比增大。
如原来男性20人,点击1人;女性100人,点击99人,总点击率100/120。
现在男性100人,点击6人;女性20人,点击20人,总点击率26/120。
即那个段子“A系中智商最低的人去读B,同时提高了A系和B系的平均智商。
问题4:
抖音跟bilibili的区别,长视频跟短视频有什么区别。
解析:
长、短视频的商业逻辑完全不同,长短视频并驾齐驱、相互结合,似乎成为了视频平台们通用的布局策略。

长视频平台,其实做的是“内容”的生意。长视频内容讲究质量,讲究独特,长视频平台则是一个综合实力的比拼,讲究片库的丰富度,内容的新颖度,爆款内容的持续性。同时,随着长视频平台的竞争日益引到自制内容层面,这又涉及到IP积累、内容创意机制、人才储备、行业关系等多方面的实力。

短视频平台,做的则是“流量”的生意。依靠流量来变现的产品,前期通过买量来收获第一批用户完成冷启动,之后再通过不断的资源、流量扶持来吸引更多创作者,让创作者生产内容,内容再吸引更多用户,由此便构成了由内容创作者(MCN、UGC、PGC)、平台、用户三方组成的完整生态。而在积累了流量之后,平台就可以快速通过广告来变现,之后还可以通过为创作者提供工具、渠道、生意来从中抽成。


猜你喜欢:

我的pandas数据清洗小工具箱(文末送书)


都2020年了,还在迷信啤酒与尿布!数据分析的真相是……


18个常见的数据分析面试题-概率统计类


文章有问题?点此查看未经处理的缓存