2017校招数据分析岗笔试#92;/面试知识点总结
|
2017校招正在火热的进行,后面会不断更新涉及到的相关知识点。 尽管听说今年几个大互联网公司招的人超少,但好像哪一年都说是就业困难,能够进去当然最好,不能进去是不是应该也抱着好的期望去找自己满意的呢? 最近笔试了很多家公司校招的数据分析和数据挖掘岗位,今天(9.18r)晚上做完唯品会的笔试题,才忽然意识过来,不管题目简单也好、难也好,都要去切切实实的去掌握。毕竟不能永远眼高手低,否则最后吃亏的一定是自己。 知识点1:贝叶斯公式 贝叶斯公式:P(B|A)=P(A|B)*P(B)/P(A) 其中P(A)可以展开为 P(A)=P(A|B1)P(B1)+P(A|B2)P(B2)+…+P(A|Bn)*P(Bn) (这在很多问答题或者选择题中都有用到) 知识点2:关联规则分析 主要考的是支持度和置信度。
知识点3:聚类 聚类之间类的度量是分距离和相似系数来度量的,距离用来度量样品之间的相似性(K-means聚类,系统聚类中的Q型聚类),相似系数用来度量变量之间的相似性(系统聚类中的R型聚类)。 最常用的是K-means聚类,适用于大样本,但需要事先指定分为K个类。 处理步骤: 1)、从n个数据对象中任意选出k个对象作为初始的聚类中心 2)、计算剩余的各个对象到聚类中心的距离,将它划分给最近的簇 3)、重新计算每一簇的平均值(中心对象) 4)、循环2-3直到每个聚类不再发生变化为止。 系统聚类适用于小样本。 知识点4:分类 有监督就是给的样本都有标签,分类的训练样本必须有标签,所以分类算法都是有监督算法。 监督机器学习问题无非就是“minimizeyour error while regularizing your parameters”,也就是在规则化参数的同时最小化误差。最小化误差是为了让我们的模型拟合我们的训练数据,而规则化参数是防止我们的模型过分拟合我们的训练数据,提高泛化能力。 1.朴素贝叶斯1)基础思想: 对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此分类项属于哪个类别。 2)优点: 可以和决策树、神经网络分类算法相媲美,能运用于大型数据库中。 方法简单,分类准确率高,速度快,所需估计的参数少,对于缺失数据不敏感。 3)缺点: 假设一个属性对定类的影响独立于其他的属性值,这往往并不成立。(喜欢吃番茄、鸡蛋,却不喜欢吃番茄炒蛋)。 需要知道先验概率。 2.决策树决策树是一种简单但广泛使用的分类器,它通过训练数据构建决策树,对未知的数据进行分类。决策树的每个内部节点表示在一个属性上的测试,每个分枝代表该测试的一个输出,而每个叶结点存放着一个类标号。 在决策树算法中,ID3基于信息增益作为属性选择的度量,C4.5基于信息增益比作为属性选择的度量,CART基于基尼指数作为属性选择的度量。 2)优点 :
3)缺点:
3.支持向量机支持向量机把分类问题转化为寻找分类平面的问题,并通过最大化分类边界点距离分类平面的距离来实现分类。
可以解决小样本下机器学习的问题。 提高泛化性能。 可以解决文本分类、文字识别、图像分类等方面仍受欢迎。 避免神经网络结构选择和局部极小的问题。
缺失数据敏感。 内存消耗大,难以解释。 4.K近邻通过计算每个训练样例到待分类样品的距离,取和待分类样品距离最近的K个训练样例,K个样品中哪个类别的训练样例占多数,则待分类样品就属于哪个类别。 2)优点 : 适用于样本容量比较大的分类问题
计算量太大 对于样本量较小的分类问题,会产生误分。 5.逻辑回归(LR)回归模型中,y是一个定型变量,比如y=0或1,logistic方法主要应用于研究某些事件发生的概率。
速度快,适合二分类问题。 简单易于理解,直接看到各个特征的权重。 (编辑:安卓应用网_ASP源码网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |

