数据分析师常见的面试问题集锦(2)

学人智库 时间:2018-02-09 我要投稿
【www.unjs.com - 学人智库】

  36、给出一个不符合高斯分布与不符合对数正态分布的数据案例。给出一个分布非常混乱的数案例。

  37、为什么说均方误差不是一个衡量模型的好指标?你建议用哪个指标替代?

  38、你如何证明你带来的算法改进是真的有效的与不做任何改变相比?你对A/B测试熟吗?

  39、什么是敏感性分析?拥有更低的敏感性(也就是说更好的强壮性)和低的预测能力还是正好相反好?你如何使用交叉验证?你对于在数据集中插入噪声数据从而来检验模型的敏感性的想法如何看?

  40、对于一下逻辑回归、决策树、神经网络。在过去15年中这些技术做了哪些大的改进?

  41、除了主成分分析外你还使用其它数据降维技术吗?你怎么想逐步回归?你熟悉的逐步回归技术有哪些?什么时候完整的数据要比降维的数据或者样本好?

  42、你如何建议一个非参数置信区间?

  43、你熟悉极值理论、蒙特卡罗逻辑或者其它数理统计方法以正确的评估一个稀疏事件的发生概率?

  44、什么是归因分析?如何识别归因与相关系数?举例。

  45、如何定义与衡量一个指标的预测能力?

  46、如何为欺诈检验得分技术发现最好的规则集?你如何处理规则冗余、规则发现和二者的本质问题?一个规则集的近似解决方案是否可行?如何寻找一个可行的近似方案?你如何决定这个解决方案足够好从而可以停止寻找另一个更好的?

  47、如何创建一个关键字分类?

  48、什么是僵尸网络?如何进行检测?

  49、你有使用过API接口的经验吗?什么样的API?是谷歌还是亚马逊还是软件即时服务?

  50、什么时候自己编号代码比使用数据科学者开发好的软件包更好?

  51、可视化使用什么工具?在作图方面,你如何评价Tableau?R?SAS?在一个图中有效展现五个维度?

  52、什么是概念验证?

  53、你主要与什么样的客户共事:内部、外部、销售部门/财务部门/市场部门/IT部门的人?有咨询经验吗?与供应商打过交道,包括供应商选择与测试。

  54、你熟悉软件生命周期吗?及IT项目的生命周期,从收入需求到项目维护?

  55、什么是cron任务?

  56、你是一个独身的编码人员?还是一个开发人员?或者是一个设计人员?

  57、是假阳性好还是假阴性好?

  58、你熟悉价格优化、价格弹性、存货管理、竞争智能吗?分别给案例。

  59、Zillow’s算法是如何工作的?

  60、如何检验为了不好的目的还进行的虚假评论或者虚假的FB帐户?

  61、你如何创建一个新的匿名数字帐户?

  62、你有没有想过自己创业?是什么样的想法?

  63、你认为帐号与密码输入的登录框会消失吗?它将会被什么替代?

  64、你用过时间序列模型吗?时滞的相关性?相关图?光谱分析?信号处理与过滤技术?在什么样的场景下?

  65、哪位数据科学有你最佩服?从哪开始?

  66、你是怎么开始对数据科学感兴趣的?

  67、什么是效率曲线?他们的缺陷是什么,你如何克服这些缺陷?

  68、什么是推荐引擎?它是如何工作的?

  69、什么是精密测试?如何及什么时候模拟可以帮忙我们不使用精密测试?

  70、你认为怎么才能成为一个好的数据科学家?

  71、你认为数据科学家是一个艺术家还是科学家?

  72、什么是一个好的、快速的聚类算法的的计算复杂度?什么好的聚类算法?你怎么决定一个聚类的聚数?

  73、给出一些在数据科学中“最佳实践的案例”。

  74、什么让一个图形使人产生误解、很难去读懂或者解释?一个有用的图形的特征?

  75、你知道使用在统计或者计算科学中的“经验法则”吗?或者在商业分析中。

  76、你觉得下一个20年最好的5个预测方法是?

  77、你怎么马上就知道在一篇文章中(比如报纸)发表的统计数字是错误,或者是用作支撑作者的论点,而不是仅仅在罗列某个事物的信息?例如,对于每月官方定期在媒体公开发布的失业统计数据,你有什么感想?怎样可以让这些数据更加准确?

https://www.unjs.com/