【招聘海外留学生】谷歌微软等科技巨头数据科学面试107道真题：你能答出多少？.docx

下载文档 降价啦

18
0
约4.41千字
约 7页
2017-08-16 发布于浙江
举报
版权申诉
保障服务

【招聘海外留学生】谷歌微软等科技巨头数据科学面试107道真题：你能答出多少？.docx

1、本文档共7页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

【招聘海外留学生】谷歌微软等科技巨头数据科学面试107道真题：你能答出多少？

【招聘海外留学生】谷歌微软等科技巨头数据科学面试107道真题：你能答出多少？来自 Glassdoor 的必威体育精装版数据可以告诉我们各大科技公司最近在招聘面试时最喜欢向候选人提什么问题。首先有一个令人惋惜的结论：根据统计，几乎所有的公司都有着自己的不同风格。由于 Glassdoor 允许匿名提交内容，很多乐于分享的应聘者向大家提供了 Facebook、谷歌、微软等大公司的面试题。我们把其中的一部分列出以供大家参考。通用问题苹果1. 如果你有几百万用户，每个用户都会发生数百笔交易，这些交易存在于数十种产品中。你该如何把这些用户细分成有意义的几类？微软1. 描述一个你曾经参与的项目，以及它的优点。2. 如何处理具有高基数（high-cardinality）的类属特征？3. 如果想要给 Twitter feed 写 summarize，你要怎么办？4. 在应用机器学习算法之前纠正和清理数据的步骤是什么？5. 如何测量数据点之间的距离？6. 请定义一下方差。7. 请描述箱形图（box plot）和直方图（histogram）之间的差异，以及它们的用例。Twitter1. 你会使用什么功能来为用户构建推荐算法？Uber1. 选择任何一个你真正喜欢的产品或应用程序，并描述如何改善它。2. 如何在分布中发现异常？3. 如何检查分布中的某个趋势是否是由于异常产生的？4. 如何估算 Uber 对交通和驾驶环境造成的影响？5. 你会考虑用什么指标来跟踪 Uber 付费广告策略在吸引新用户上是否有效？然后，你想用什么办法估算出理想的客户购置成本？领英（LinkedIn）1.（对大数据工程师）请解释 REST 是什么。机器学习问题谷歌1. 为什么要使用特征选择（feature selection）？2. 如果两个预测变量高度相关，它们对逻辑回归系数的影响是什么？系数的置信区间是什么？3. 高斯混合模型（Gaussian Mixture Model）和 K-Means 之间有什么区别？4. 在 K-Means 中如何拾取 k？5. 你如何知道高斯混合模型是不是适用的？6. 假设聚类模型的标签是已知的，你如何评估模型的性能？微软1. 你有哪些引以为豪的机器学习项目？2. 随便找一个机器学习算法，然后描述它。3. 请解释 Gradient Boosting 是如何工作的。4.（对数据挖掘工程师）请解释决策树模型。5.（对数据挖掘工程师）什么是神经网络？6. 请解释偏差方差权衡（Bias-Variance Tradeoff）。7. 如何处理不平衡二进制分类？8.L1 和 L2 正则化之间有什么区别？Uber1. 你会通过哪种特征来预测 Uber 司机是否会接受订单请求？你会使用哪种监督学习算法来解决这个问题，如何比较算法的结果？领英1. 点出及描述三种不同的内核函数，在哪些情况下使用哪种？2. 随意解释机器学习里的一种方法。3. 如何应付稀疏数据？IBM1. 如何防止过拟合（overfitting）？2. 如何处理数据中的离群值？3. 如何评估逻辑回归与简单线性回归模型预测的性能？4. 监督学习和无监督学习有什么区别？5. 什么是交叉验证（cross-validation），为什么要使用它？6. 用于评估预测模型的矩阵的名称是什么？7. 逻辑回归系数和胜算比（Odds Ratio）之间存在什么关系？8. 主成分分析（PCA）和线性和二次判别分析（LDA 和 QDA）之间的关系是什么？9. 如果你有一个因变量分类，又有一个连续自变量的混合分类，你将使用什么算法，方法或工具进行分析？10.（对行业分析师）逻辑与线性回归有什么区别？如何避免局部极小值？Salesforce1. 你会使用哪些数据和模型来测量损耗/流失？如何测试模型性能？2. 假设我是一名非技术人员，请向我解释一种机器学习算法。Capital One（一家美国银行）1. 如何构建一个模型来预测信用卡诈骗？2. 如何处理丢失或不良数据？3. 如何从已存在的特征中导出新的特征？4. 如果你试图预测客户的性别，但只有 100 个数据点，可能会出现什么问题？5. 在拥有两年交易历史的情况下，哪些特征可以用来预测信用风险？6. 请设计一个用来下井字棋的人工智能程序。Zillow1. 请解释过拟合，以及如何防止过拟合。2. 为什么 SVM 需要在支持向量之间最大化边缘？HadoopTwitter1. 如何使用 Map/Reduce 将非常大的图形分割成更小的块，并根据数据的快速/动态变化并行计算它们的边缘？2.（对数据工程师）给定一个列表：123, 345234, 678345, 123…其中第一列是粉丝的 ID，第二列是被粉者的 ID。查找所有相互后续对（上面的示例中的对是 123，345）。当列表超出内存时，如何使用