搜索引擎网站的搜素结果有何区别,深圳企业网站制作推广运营,阿里云网站搭建,上海企业营销策划机器学习100道经典面试题库#xff08;31-60#xff09;
在大规模的语料中#xff0c;挖掘词的相关性是一个重要的问题。以下哪一个信息不能用于确定两个词的相关性。
A、互信息
B、最大熵
C、卡方检验
D、最大似然比
答案#xff1a;B
解析#xff1a;最大熵代表了…机器学习100道经典面试题库31-60
在大规模的语料中挖掘词的相关性是一个重要的问题。以下哪一个信息不能用于确定两个词的相关性。
A、互信息
B、最大熵
C、卡方检验
D、最大似然比
答案B
解析最大熵代表了整体分布的信息通常具有最大熵的分布作为该随机变量的分布不能体现两个词的相关性但是卡方是检验两类事务发生的相关性。所以选B【正解】
基于统计的分词方法为
A、正向最大匹配法
B、逆向最大匹配法
C、最少切分
D、条件随机场
答案D
解析第一类是基于语法和规则的分词法。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来进行词性标注,以解决分词歧义现象。因为现有的语法知识、句法规则十分笼统、复杂,基于语法和规则的分词法所能达到的精确度远远还不能令人满意,目前这种分词系统还处在试验阶段。 第二类是机械式分词法即基于词典。机械分词的原理是将文档中的字符串与词典中的词条进行逐一匹配,如果词典中找到某个字符串,则匹配成功,可以切分,否则不予切分。基于词典的机械分词法,实现简单,实用性强,但机械分词法的最大的缺点就是词典的完备性不能得到保证。据统计,用一个含有70000个词的词典去切分含有15000个词的语料库,仍然有30%以上的词条没有被分出来,也就是说有4500个词没有在词典中登录。 第三类是基于统计的方法。基于统计的分词法的基本原理是根据字符串在语料库中出现的统计频率来决定其是否构成词。词是字的组合,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映它们成为词的可信度。
在下面的图像中哪一个是多元共线multi-collinear特征
A、图 1 中的特征
B、图 2 中的特征
C、图 3 中的特征
D、图 1、2 中的特征
E、图 2、3 中的特征
F、图 1、3 中的特征
答案D
解析多个变量高度相关时称为多元共线性图1特征之间高度正相关图 2特征之间高度负相关所以这两个图的特征是多元共线特征所以答案选D。
线性回归的基本假设不包括哪个
A、随机误差项是一个期望值为0的随机变量
B、对于解释变量的所有观测值随机误差项有相同的方差
C、随机误差项彼此相关
D、解释变量是确定性变量不是随机变量与随机误差项之间相互独立
E、随机误差项服从正态分布
答案C
解析线性回归基本假设: 1、随机误差项期望值或平均值为0 2、随机误差项服从正态分布; 3、随机误差项彼此不相关 4、对于解释变量的所有观测值随机误差项有相同的方差 5、解释变量是确定性变量不是随机变量与随机误差项彼此之间相互独立 6、解释变量之间不存在精确的(完全的)线性关系, 即解释变量的样本观测值矩阵是满秩矩阵。
下面哪些对「类型 1Type-1」和「类型 2Type-2」错误的描述是错误的
A、类型 1 通常称之为假正类类型 2 通常称之为假负类
B、类型 2 通常称之为假正类类型 1 通常称之为假负类
C、类型 1 错误通常在其是正确的情况下拒绝假设而出现
答案B
解析在统计学假设测试中I 类错误即错误地拒绝了正确的假设即假正类错误II 类错误通常指错误地接受了错误的假设即假负类错误。
给线性回归模型添加一个不重要的特征可能会造成
A、增加 R-squar
B、减少 R-square
答案A
解析线性回归中R-squared描述的是输入变量特征对输出变量的解释程度。在单变量线性回归中R-squared 越大说明拟合程度越好而在多变量的情况下无论增加的特征与输出是否存在关系即是否重要R-squared 要么保持不变要么增加。故本题中可能的选项只有A。本题中增加一个特征后至少有两个特征所欲属于多特征范畴 多变量线性回归使用adjusted R-squared评估模型效果。并且增加一个特征变量如果这个特征有意义Adjusted R-Square 就会增大若这个特征是冗余特征Adjusted R-Squared 就会减小。 单变量线性回归中R-squared和adjusted R-squared是一致的即重要特征使R-squared增大冗余特征使R-squared减小。
关于 ARMA 、 AR 、 MA 模型的功率谱下列说法正确的是
A、MA模型是同一个全通滤波器产生的
B、MA模型在极点接近单位圆时MA谱是一个深谷
C、AR模型在零点接近单位圆时AR谱是一个尖峰
D、RMA谱既有尖峰又有深谷
答案D
解析MA模型滑动平均模型模型参量法谱分析方法之一也是现代谱估中常用的模型。用MA模型法求信号谱估计的具体作法是①选择MA模型在输入是冲激函数或白噪声情况下使其输出等于所研究的信号至少应是对该信号一个好的近似。②利用已知的自相关函数或数据求MA模型的参数。③利用求出的模型参数估计该信号的功率谱。 AR 模型(auto regressive model)自回归模型模型参量法高分辨率谱分析方法之一也是现代谱估计中常用的模型。用AR模型法求信具体作法是①选择AR模型在输入是冲激函数或白噪声的情况下使其输出等于所研究的信号至少应是对该信号的一个好的近似。②利用已知的自相关函数或数据求模型的参数。③利用求出的模型参数估计该信号的功率谱。 ARMA模型(auto regressive moving average model)自回归滑动平均模型模型参量法高分辨率谱分析方法之一。
符号集 a 、 b 、 c 、 d 它们相互独立相应概率为 1/2 、 1/4 、 1/8/ 、 1/16 其中包含信息量最小的符号是
A、a
B、b
C、c
D、d
答案A
解析由信息量公式 I(X) - log[p(X)] 知概率越大信息量越小选A I(a) 1bit I(b) 2bit I© 3bit I(d) 4bit
下列哪个不属于常用的文本分类的特征选择算法
A卡方检验值
B互信息
C信息增益
D主成分分析
答案D
解析主成分分析是特征转换算法特征抽取而不是特征选择
在数据清理中下面哪个不是处理缺失值的方法?
A、估算
B、整例删除
C、变量删除
D、成对删除
答案D
解析数据清理中处理缺失值的方法有两种 一、删除法 1删除观察样本 2删除变量当某个变量缺失值较多且对研究目标影响不大时可以将整个变量整体删除 3使用完整原始数据分析当数据存在较多缺失而其原始数据完整时可以使用原始数据替代现有数据进行分析 4改变权重当删除缺失数据会改变数据结构时通过对完整数据按照不同的权重进行加权可以降低删除缺失数据带来的偏差 二、查补法均值插补、回归插补、抽样填补等
关注我不定时更新机器学习面试题库
统计模式分问题中当先验概率未知时可以使用
A、最小最大损失准则
B、最小误判概率准则
C、最小损失准则
D、N-P判决
E、选项A和D
答案E
解析最小最大损失规则主要是解决在使用最小损失规则时先验概率未知或难以计算的问题的选A 最小误判概率准则就是判断p(w1|x)和p(w2|x)哪个大x为特征向量w1和w2为两分类根据贝叶斯公式需要用到先验知识不选B 最小损失准则中需要用到先验概率不选C 在贝叶斯决策中对于先验概率未知时可以使用聂曼-皮尔逊决策(N-P决策)来计算决策面选D。 综上所述答案选E。
决策树的父节点和子节点的熵的大小关系是什么
A. 决策树的父节点更大
B. 子节点的熵更大
C. 两者相等
D. 根据具体情况而定
答案D
解析假设一个父节点有2正3负样本进一步分裂情况1两个叶节点2正3负情况2两个叶节点1正1负1正2负。分别看下情况1和情况2分裂前后确实都有信息增益但是两种情况里不是每一个叶节点都比父节点的熵小。
语言模型的参数估计经常使用MLE最大似然估计。面临的一个问题是没有出现的项概率为0这样会导致语言模型的效果不好。为了解决这个问题需要使用
A、平滑
B、去噪
C、随机插值
D、增加白噪音
答案A
解析A拉普拉斯平滑假设将分子和分母各加上一个常数项。
逻辑回归与多元回归分析有哪些不同
A、逻辑回归预测某事件发生的概率
B、逻辑回归有较高的拟合效果
C、逻辑回归回归系数的评估
D、以上全选
答案D
解析逻辑回归是用于分类问题我们能计算出一个事件/样本的概率一般来说逻辑回归对测试数据有着较好的拟合效果建立逻辑回归模型后我们可以观察回归系数类标签(正类和负类)与独立变量的的关系。
过拟合是有监督学习的挑战而不是无监督学习以上说法是否正确
A、正确
B、错误
答案B
解析监督学习和非监督学习都存在过拟合的问题。
中文同义词替换时常用到Word2Vec以下说法错误的是
A、Word2Vec基于概率统计
B、Word2Vec结果符合当前预料环境
C、Word2Vec得到的都是语义上的同义词
D、Word2Vec受限于训练语料的数量和质量
答案C
解析Word2vec为一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络用来训练以重新建构语言学之词文本。网络以词表现并且需猜测相邻位置的输入词在word2vec中词袋模型假设下词的顺序是不重要的。 训练完成之后word2vec模型可用来映射每个词到一个向量可用来表示词对词之间的关系。该向量为神经网络之隐藏。 Word2vec依赖skip-grams或连续词袋CBOW来建立神经词嵌入。
假定你用一个线性SVM分类器求解二类分类问题如下图所示这些用红色圆圈起来的点表示支持向量
如果移除这些圈起来的数据决策边界即分离超平面是否会发生改变
A、Yes
B、No
答案B
解析一般来说移除支持向量决策边界会发生变化移除非支持向量决策边界不会发生变化。 但就本题的数据分布来说移除支持向量后新的决策边界和旧的决策边界是一样的。
如果将数据中除圈起来的三个点以外的其他数据全部移除那么决策边界是否会改变
A、会
B、不会
答案B
解析决策边界只会被支持向量影响跟其他点无关。
关于SVM泛化误差描述正确的是
A、超平面与支持向量之间距离
B、SVM对未知数据的预测能力
C、SVM的误差阈值
答案B
解析统计学中的泛化误差是指对模型对未知数据的预测能力。
如果惩罚参数C趋于无穷下面哪项描述是正确的
A、若最优分离超平面存在必然能够将数据完全分离
B、软间隔分类器能够完成数据分类
C、以上都不对
答案A
解析如果误分类惩罚很高软间隔不会一直存在因为没有更多的误差空间
关注我不定时更新机器学习面试题库
以下关于SVM软间隔描述正确的是
A、允许一定量的样本分类错误
B、不允许样本分类错误
答案A
解析硬间隔完全分类准确其损失函数不存在其损失值为0只要找出两个异类正中间的那个平面 软间隔允许一定量的样本分类错误优化函数包括两个部分一部分是点到平面的间隔距离一部分是误分类的损失个数C是惩罚系数误分类个数在优化函数中的权重值权重值越大误分类的损失惩罚的越厉害。误分类的损失函数可分为hinge损失指数损失对率损失。而经常使用的或者说默认的是使用了损失函数为hinge损失的软间隔函数。
训练SVM的最小时间复杂度为O(n2)那么一下哪种数据集不适合用SVM?
A、大数据集
B、小数据集
C、中等大小数据集
D、和数据集大小无关
答案A
解析A 由题干前半句话训练SVM的最小时间复杂度为O(n2)可知大数据集不适合训练SVM。
SVM的效率依赖于
A、核函数的选择
B、核参数
C、软间隔参数
D、以上所有
答案D
解析SVM的效率依赖于以上三个基本要求它能够提高效率降低误差和过拟合
在线性可分的情况下支持向量是那些最接近决策平面的数据点
A、对
B、错
答案A
解析A 在线性可分的情况下支持向量在间隔边界上在线性不可分的情况下支持向量或者在间隔边界上或者在间隔边界与分离超平面之间或者在分离超平面误分一侧。
SVM在下列那种情况下表现糟糕
A、线性可分数据
B、清洗过的数据
C、含噪声数据与重叠数据点
答案C
解析当数据中含有噪声数据与重叠的点时要画出干净利落且无误分类的超平面很难
假定你使用了一个很大γ值的RBF核这意味着
A、模型将考虑使用远离超平面的点建模
B、模型仅使用接近超平面的点来建模
C、模型不会被点到超平面的距离所影响
D、以上都不正确
答案B
解析B γ 越大模型对训练数据的拟合效果越好当 γ 很大时模型会对数据过拟合即分类超平面波动较大几乎是贴着训练数据的如图所示
综上所述如果使用了一个很大 γ 值的RBF核这意味着模型仅使用接近超平面的点来建模答案选B。
SVM中的代价函数的参数表示
A、交叉验证的次数
B、使用的核
C、误分类与模型复杂性之间的平衡
D、以上均不是
答案C
解析代价参数决定着SVM能够在多大程度上适配训练数据。 如果你想要一个平稳的决策平面代价会比较低如果你要将更多的数据正确分类代价会比较高。可以简单的理解为误分类的代价。
假定你使用SVM学习数据X数据X里面有些点存在错误。现在如果你使用一个二次核函数多项式阶数为2使用惩罚参数C作为超参之一。当你使用较大的CC趋于无穷时对于训练集数据
A、仍然能正确分类数据
B、不能正确分类
C、不确定
D、以上均不正确
答案A
解析C是惩罚参数它的值越大对误分类的惩罚就越大分类的正确率就越高对训练数据的拟合效果越好当C趋于无穷大时模型过拟合对于训练集数据可以实现正确分类答案选A。 补充若题目问的是对于测试数据集的分类效果则应该选C。因为模型过拟合时往往在测试集数据上的分类误差会变大即一部分分对一部分分错。
如果我使用数据集的全部特征并且能够达到100%的准确率但在测试集上仅能达到70%左右这说明
A、欠拟合
B、模型很棒
C、过拟合
答案C
解析如果在训练集上模型很轻易就能达到100%准确率就要检查是否发生过拟合。
下面哪个属于SVM应用
A、文本和超文本分类
B、图像分类
C、新文章聚类
D、以上均是
答案D
解析SVM广泛应用于实际问题中包括回归聚类手写数字识别等。