数据分析笔试题大题及答案
数据分析笔试题大题及答案
1、好评率是会员对平台评价的重要指标。现在需要统计2018年1月1日到2018年1月31日,用户'小明'提交的母婴类目"花王"品牌的好评率(好评率=“好评”评价量/总评价量):
用户评价详情表:a
字段:id(评价id,主键),create_time(评价创建时间,格式'2017-01-01'),
user_name(用户名称),goods_id(商品id,外键) ,
sub_time(评价提交时间,格式'2017-01-01 23:10:32'),sat_name(好评率类型,包含:“好评”、“中评”、“差评”)
商品详情表:
b 字段:good_id(商品id,主键),bu_name(商品类目), brand_name(品牌名称)
select sum(case when sat_name ='好评' then count(sat_name) end) / count(sat_name) as "好评率"
from a join b on a.good_id = b.good_id
where a.user_name ='小明'
and b.bu_name = '母婴'
and b.brand_name ='花王'
and a.sub_time between to_date('2018-1-1','yyyy-mm-dd') and to_date('2018-1-31','yyyy-mm-dd')
[/code]
--2、考拉运营"小明"负责多个品牌的销售业绩,请完成:--
--(1)请统计小明负责的各个品牌,在2017年销售最高的3天,及对应的销售额。--
--销售表 a:--
--字段:logday(日期,主键组),SKU_ID(商品SKU,主键组),sale_amt(销售额)--
--商品基础信息表 b:--
--字段:SKU_ID(商品SKU,主键),bu_name(商品类目),brand_name(品牌名称),user_name(运营负责人名称)--
--(2)请统计小明负责的各个品牌,在2017年连续3天增长超过50%的日期,及对应的销售额。--
```code(注意下面的※代表的是星号)
select a.logday. bbrand_name, a.sale_amt
from a join b on a.sku_id = b.sku_id
where year(a.logday)='2017' and b.user_name = '小明'
group by b.brand_name
oerder by a.sale_amt desc limit 3;
cte_2
as
(select A.logday,B.sale_amt,B.brand_name,
COUNT(※) over (partition by A.logday) AS qty,
1.5※lag(sale_amt,1,0) over (partition by A.logday order by B.logday) as last_amt
from cte_1 A
join cte_1 B on A.brand_name=B.brand_name and B.logday between A.logday and DATEADD(DAY,3,A.logday))
select ※ from cte_2 A
where qty=4
and not exists (select 1 from cte_2 where A.logday=logday and A.brand_name=brand_name and sale_amt<last_amt)
3、考拉海购始终以用户为中心,为用户提供高品质的商品,帮助用户“用更少的钱,过更好的生活”。为了满足不同用户的需求(比如新客户的要求可能跟老客户不同,流失客户需要特殊的关怀)
,请你设计一套具体的方案,合理划分不同用户,并能给出相应的建议。
针对用户类型进行划分。
1、新用户——引导性信息收集
任何电商品牌都有一套属于自己的推荐算法,但是对于新用户和新商品这种冷启动问题一般还是没有很好的解决方法。实际上,新商品有很多性能参数,可以根据相近商品进行预测,而新用户对于算法来说是一个完全空白的样本,不利于探测客户需求,所以建议在新用户注册时设计一套能够捕捉购买方向和趋势的问卷,并配合问卷选择发放一些对应的优惠券,这样一方面可以引导新用户在情愿的情况下给出真是的购买意愿,另一方面也能够在最快的时间内捕捉到该用户的一些信息,再一方面促进了用户购买商品的几率。
2、规律用户——捕捉规律行为
大部分用户的购买行为存在周期性,比如优惠周期,使用周期,系统可以根据用户在过去的购买和浏览行为探索用户购买周期,然后预测下一个购买周期,并且发送优惠信息,这样既让用户享受到了优惠,又实现了营销。
3、流失用户——捕捉细节
万事皆有原因,一个用户流失要么是在这里吃过亏,要么是觉得买不到想要的,要么是别的平台更便宜,无非这三大类原因,所以应该捕捉用户最后的浏览信息,浏览表明有购买意愿,针对这些商品基于一些优惠,吸引用户再次浏览,根据一次次吸引浏览来判断不购买原因,再对症下药。
注:要区分流失用户和规律用户,这两类行为存在很大的相似性,但是后者其实并不需要太多优惠或行为进行挽留。
数据分析笔试题
一、编程题
有一个计费表表名jifei 字段如下:phone(8位的电话号码),month(月份),expenses(月消费,费用为0表明该月没有产生费用)
下面是该表的一条记录:64262631,201011,30.6 这条记录的含义就是64262631的号码在2010年11月份产生了30.6元的话费。
按照要求写出满足下列条件的sql语句:
1、查找2010年6、7、8月有话费产生但9、10月没有使用并(6、7、8月话费均在51-100元之间的用户。
2、查找2010年以来(截止到10月31日)所有后四位尾数符合AABB或者ABAB或者AAAA的电话号码。(A、B 分别代表1—9中任意的一个数字)
3、删除jifei表中所有10月份出现的两条相同记录中的其中一条记录。
4、查询所有9月份、10月份月均使用金额在30元以上的用户号码(结果不能出现重复)
二、逻辑思维题
1、某人卖掉了两张面值为60元的电话卡,均是60元的价格成交的。其中一张赚了20%,另一张赔了20%,问他总体是盈利还是亏损,盈/亏多少?
2、有个农场主雇了两个小工为他种小麦,其中A是一个耕地能手,但不擅长播种;而B
耕地很不熟练,但却是播种的能手。农场主决定种10亩地的小麦,让他俩各包一半,于是A从东头开始耕地,B从西头开始耕。A耕地一亩用20分钟,B却用40分钟,可是B播种的速度却比A快3倍。耕播结束后,庄园主根据他们的工作量给了他俩600元工钱。他俩怎样分才合理呢?
数据分析题目选择题
1. 为什么说均方误差不是一个衡量模型的好指标?你建议用哪个指标替代?
2. 你如何证明你带来的算法改进是真的有效的与不做任何改变相比?你对A/B测试熟吗?
3. 什么是敏感性分析?拥有更低的敏感性(也就是说更好的强壮性)和低的预测能力还是正好相反好?你如何使用交叉验证?你对于在数据集中插入噪声数据从而来检验模型的敏感性的想法如何看?
4. 对于一下逻辑回归、决策树、神经网络。在过去15年中这些技术做了哪些大的改进?
5. 除了主成分分析外你还使用其它数据降维技术吗?你怎么想逐步回归?你熟悉的逐步回归技术有哪些?什么时候完整的数据要比降维的数据或者样本好?
6. 你如何建议一个非参数置信区间?
7. 你熟悉极值理论、蒙特卡罗逻辑或者其它数理统计方法以正确的评估一个稀疏事件的发生概率?
8. 什么是归因分析?如何识别归因与相关系数?举例。
9. 如何定义与衡量一个指标的预测能力?
10. 你觉得下一个20年最好的5个预测方法是?
11. 你怎么马上就知道在一篇文章中(比如报纸)发表的统计数字是错误,或者是用作支撑作者的论点,而不是仅仅在罗列某个事物的信息?例如,对于每月官方定期在媒体公开发布的失业统计数据,你有什么感想?怎样可以让这些数据更加准确?
12. 从阿里数据分析师笔试看职业要求
13. 以下试题是来自阿里巴巴招募实习生的一次笔试题,从笔试题的几个要求我们一起来看看数据分析的职业要求。
14. 一、异常值是指什么?请列举1种识别连续型变量异常值的方法?
15. 异常值(Outlier)是指样本中的个别值,其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。
16. Grubbs’ test(是以Frank E. Grubbs命名的),又叫maximum normed residual test,是一种用于单变量数据集异常值识别的统计检测,它假定数据集来自正态分布的总体。
17. 未知总体标准差σ,在五种检验法中,优劣次序为:t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。
18. 点评:考察的内容是统计学基础功底。
19. 什么是cron任务?
20. 你是怎么开始对数据科学感兴趣的?
21. 什么是效率曲线?他们的缺陷是什么,你如何克服这些缺陷?
22. 什么是推荐引擎?它是如何工作的?
23. 什么是精密测试?如何及什么时候模拟可以帮忙我们不使用精密测试?
24. 你认为怎么才能成为一个好的数据科学家?
25. 你认为数据科学家是一个艺术家还是科学家?
26. 什么是一个好的、快速的聚类算法的的计算复杂度?什么好的聚类算法?你怎么决定一个聚类的聚数?
27. 给出一些在数据科学中“最佳实践的案例”。
28. 什么让一个图形使人产生误解、很难去读懂或者解释?一个有用的图形的特征?
29. 你知道使用在统计或者计算科学中的“经验法则”吗?或者在商业分析中。
30. 你是一个独身的编码人员?还是一个开发人员?或者是一个设计人员?
31. 是假阳性好还是假阴性好?
32. 你熟悉价格优化、价格弹性、存货管理、竞争智能吗?分别给案例。
33. Zillow’s算法是如何工作的?
34. 如何检验为了不好的目的还进行的虚假评论或者虚假的FB帐户?
35. 你如何创建一个新的匿名数字帐户?
36. 你有没有想过自己创业?是什么样的想法?
37. 你认为帐号与密码输入的登录框会消失吗?它将会被什么替代?
38. 你用过时间序列模型吗?时滞的相关性?相关图?光谱分析?信号处理与过滤技术?在什么样的场景下?
39. 哪位数据科学有你最佩服?从哪开始?
40. 如何为欺诈检验得分技术发现最好的规则集?你如何处理规则冗余、规则发现和二者的本质问题?一个规则集的近似解决方案是否可行?如何寻找一个可行的近似方案?你如何决定这个解决方案足够好从而可以停止寻找另一个更好的?
41. 如何创建一个关键字分类?
42. 什么是僵尸网络?如何进行检测?
43. 你有使用过API接口的经验吗?什么样的API?是谷歌还是亚马逊还是软件即时服务?
44. 什么时候自己编号代码比使用数据科学者开发好的软件包更好?
45. 可视化使用什么工具?在作图方面,你如何评价Tableau?R?SAS?在一个图中有效展现五个维度?
46. 什么是概念验证?
47. 你主要与什么样的客户共事:内部、外部、销售部门/财务部门/市场部门/IT部门的人?有咨询经验吗?与供应商打过交道,包括供应商选择与测试。
48. 你熟悉软件生命周期吗?及IT项目的生命周期,从收入需求到项目维护?