当前位置:凯发k8一触即发首页 » 会计类答案 » 正文

871 人参与  2023-09-22 09:41:03  分类 :会计类答案
第一讲 深度学习概述

第一讲测验

1、机器学习(深度学习)系统中通常将数据集划分为训练集和测试集,其中被用来学习得到系统的参数取值的是
    a、训练集(training set)
    b、测试集(testing set)
    c、训练集(training set)和测试集(testing set)
    d、其它答案都不对

2、k折交叉验证通常将数据集随机分为k个子集。下列关于k折交叉验证说法错误的是
    a、每次将其中一个子集作为测试集,剩下k-1个子集作为训练集进行训练
    b、每次将其中一个子集作为训练集,剩下k-1个子集作为测试集进行测试
    c、划分时有多种方法,例如对非平衡数据可以用分层采样,就是在每一份子集中都保持和原始数据集相同的类别比例
    d、k折交叉验证相对于留出法,其性能评价结果通常要相对更稳定一些

3、roc (受试者工作特征曲线, receiver operating characteristic curve)描绘了分类器在 fp rate (错误的正例,横轴) 和tp rate(真正正例,纵轴) 间的trade-off(权衡)。 下面说法正确的是:
    a、(纵轴)敏感性高=漏诊率低, 而(横轴)特异性低=误诊率高
    b、(纵轴)敏感性高=漏诊率高, 而(横轴)特异性低=误诊率高
    c、(纵轴)敏感性高=漏诊率高, 而(横轴)特异性低=误诊率低
    d、(纵轴)敏感性高=漏诊率低, 而(横轴)特异性低=误诊率低

4、关于 cohen' s kappa取值的含义,下列错误的是:
    a、其取值通常在-1和 1之间
    b、其取值为 1,说明一致性最好
    c、其取值越大,说明一致性越好
    d、其取值越小,说明一致性越好

5、下列关于验证集(validation set)的描述错误的是
    a、某些情况下,可以对训练集做进一步划分,即分为训练集和验证集
    b、验证集与测试集类似,也是用于评估模型的性能。且可以用于报告模型的最终评价结果
    c、验证集与测试集之间的区别是,验证集主要用于模型选择和调整超参数,因而一般不用于报告最终结果
    d、验证集的数据规模通常小于训练集的数据规模

6、下面关于机器学习与深度学习的描述错误的是:
    a、深度学习是机器学习的重要分支
    b、深度学习来源于人工神经网络
    c、深度学习是多层的人工神经网络,典型的模型包括卷积神经网络等
    d、其它答案都不对

7、下面关于有监督学习、无监督学习的描述错误的是
    a、有监督学习是从有正确答案的样本集合中学习,即每个样本的分类标签(classification label)或者目标值(target value)已知
    b、无监督学习的训练学习过程中也利用到了每个样本的分类标签(classification label)或者目标值(target value)
    c、有监督学习中样本的ground truth指的是每个样本的真实分类标签(classification label)或者真实目标值(target value)
    d、为了获得有监督学习中样本的真实分类标签(classification label)或者真实目标值(target value),某些情况下,可以采用人工专家标注的方法获得

8、假设测试数据集中共计有70个正类样本,30个负类样本。且某次分类结果如下表所示(表中各项的含义如表下方的注释所示)。则其roc曲线的横轴fp rate 和纵轴tp rate 的坐标值是多少? 实 际 类 别 预测类别 正例 负例 总计 正例 tp=40 fn=30 p(实际为正例)=70 负例 fp=10 tn=20 n(实际为负例)=30 表中数据项的含义: true positives(tp): 被正确地划分为正例的个数,即实际为正例且被分类器划分为正例的实例数(样本数); false negatives(fn):被错误地划分为负例的个数,即实际为正例但被分类器划分为负例的实例数; false positives(fp): 被错误地划分为正例的个数,即实际为负例但被分类器划分为正例的实例数; true negatives(tn): 被正确地划分为负例的个数,即实际为负例且被分类器划分为负例的实例数。
    a、横轴fp rate=0.57; 纵轴tp rate=0.33
    b、横轴fp rate=0.33; 纵轴tp rate=0.57
    c、横轴fp rate=0.57; 纵轴tp rate=0.57
    d、横轴fp rate=0.80; 纵轴tp rate=0.33

9、下面的一段python程序是对iris数据集进行训练集合测试集的拆分,已知该数据集中样本的个数为150个,特征为4个。则下面的程序执行完毕后,print语句的输出结果应该为: from sklearn import cross_validation from sklearn import datasets iris = datasets.load_iris() x_train, x_test, y_train, y_test = cross_validation.train_test_split\ (iris.data, iris.target, test_size=0.2 ) print ("x_train.shape:", x_train.shape, "y_train.shape:", y_train.shape)
    a、('x_train.shape:', (150, 4), 'y_train.shape:', (150,))
    b、('x_train.shape:', (90, 4), 'y_train.shape:', (90,))
    c、('x_train.shape:', (30, 4), 'y_train.shape:', (30,))
    d、('x_train.shape:', (120, 4), 'y_train.shape:', (120,))

10、下面的一段python程序是使用支持向量机在iris数据集上进行训练的例子,且该程序已经导入了必要的模块(用省略号表示)。则程序中空格处应该填充的拟合函数是: …… iris = datasets.load_iris() x_train, x_test, y_train, y_test = cross_validation.train_test_split\ (iris.data, iris.target, test_size=0.2 ) clf = svm.svc(kernel='linear', c=1). (x_train, y_train)
    a、train
    b、fit
    c、learn
    d、ml

11、下面的一段程序是标签二值化的示例程序,则最后的print语句的输出应该为: from sklearn.preprocessing import label_binarize y=[0, 1, 2] print (y) y = label_binarize(y, classes=[0, 1, 2]) print (y)
    a、[[0 0 1] [0 1 0] [1 0 0]]
    b、[[1 0 0] [1 0 0] [1 0 0]]
    c、[[0 0 1] [0 0 1] [0 0 1]]
    d、[[1 0 0] [0 1 0] [0 0 1]]

12、f值的定义为准确率和召回率的调和平均。如果二者(即准确率和召回率)同等重要,则为
    a、f1
    b、f2
    c、f0.5
    d、f3

13、超参数和参数的区别。参数一般是模型需要根据训练数据可以自动学习出的变量。超参数一般就是根据经验确定预设的变量。下面哪些是超参数?
    a、深度学习模型的权重,偏差
    b、深度学习的学习速率、人工神经网络的层数
    c、深度学习的迭代次数
    d、深度学习的每层神经元的个数

14、关于roc (受试者工作特征曲线, receiver operating characteristic curve)中auc(area under curve)说法正确的是
    a、定义为roc曲线下的面积
    b、auc值提供了分类器的一个整体数值。通常auc越大,分类器更好
    c、取值范围为[0,1]
    d、其它答案都不对

15、关于 cohen' s kappa 和fleiss' kappa的区别:
    a、cohen’s kappa主要用于衡量两个评价者( raters )之间的一致性(agreement)
    b、如果评价者多于2人时,可以考虑使用fleiss' kappa
    c、二者没有本质区别,可以等价
    d、其它答案都不对

16、下面关于使用网格搜索进行超参数的调优的描述正确的是:
    a、假设模型中有两个超参数(a, b)。则网格搜索的基本原理就是尝试各种可能的(a, b)对值,并找到其中最好的(a, b)对值
    b、为了使用网格搜索进行超参数的调优,通常可以进行交叉验证的方式,并找出使交叉验证性能最高的超参数取值的组合
    c、假设模型中某个超参数b的可能取值为连续的,如在区间[0-1]。由于b值为连续,通常进行离散化,如变为{0, 0.5, 1.0}
    d、其它答案都不对

17、下面关于分类(classification)和回归(regression)的区别和联系的描述正确的是:
    a、分类的目的是预测出新样本的类型、种类或标签,即其输出值是离散的
    b、分类和回归问题通常都是有监督学习的范畴
    c、回归问题需要预测连续变量的数值:比如预测新产品的销量等
    d、可以将回归的输出值通过设定阈值等方式进行离散化处理,从而用于分类

18、下列关于scikit-learn的描述正确的是
    a、scikit-learn包括许多知名的机器学习算法的实现,包括svm等
    b、scikit-learn封装了其他的python库,如自然语言处理的nltk库
    c、scikit-learn内置了大量数据集,如iris数据集等
    d、scikit-learn实现了多种分类的评估方法,如准确率、精确率、召回率等

19、已知如下定义: true positives(tp): 被正确地划分为正例的个数,即实际为正例且被分类器划分为正例的实例数(样本数); false negatives(fn):被错误地划分为负例的个数,即实际为正例但被分类器划分为负例的实例数; false positives(fp): 被错误地划分为正例的个数,即实际为负例但被分类器划分为正例的实例数; true negatives(tn): 被正确地划分为负例的个数,即实际为负例且被分类器划分为负例的实例数。 则下面定义正确的是:
    a、分类准确率 accuracy=(tp tn)/(p n)
    b、精确率 precision=tp/(tp fp)
    c、召回率 recall=tp/p
    d、召回率 recall=tn/p

20、测试集(testing set)用于最终报告模型的评价结果,因此在训练阶段测试集中的数据一般可以出现在训练集中.

21、假设测试数据集中共计有70个正类样本,30个负类样本。且某次分类结果如下表所示(表中各项的含义如表下方的注释所示)。则分类的精确率是 (要求:用小数表示,且保留小数点后两位)? 实 际 类 别 预测类别 正例 负例 总计 正例 tp=40 fn=30 p(实际为正例)=70 负例 fp=10 tn=20 n(实际为负例)=30 表中数据项的含义: true positives(tp): 被正确地划分为正例的个数,即实际为正例且被分类器划分为正例的实例数(样本数); false negatives(fn):被错误地划分为负例的个数,即实际为正例但被分类器划分为负例的实例数; false positives(fp): 被错误地划分为正例的个数,即实际为负例但被分类器划分为正例的实例数; true negatives(tn): 被正确地划分为负例的个数,即实际为负例且被分类器划分为负例的实例数。

22、假设测试数据集中共计有70个正类样本,30个负类样本。且某次分类结果如下表所示(表中各项的含义如表下方的注释所示)。则分类的召回率是 (要求:用小数表示,且保留小数点后两位)。 实 际 类 别 预测类别 正例 负例 总计 正例 tp=40 fn=30 p(实际为正例)=70 负例 fp=10 tn=20 n(实际为负例)=30 表中数据项的含义: true positives(tp): 被正确地划分为正例的个数,即实际为正例且被分类器划分为正例的实例数(样本数); false negatives(fn):被错误地划分为负例的个数,即实际为正例但被分类器划分为负例的实例数; false positives(fp): 被错误地划分为正例的个数,即实际为负例但被分类器划分为正例的实例数; true negatives(tn): 被正确地划分为负例的个数,即实际为负例且被分类器划分为负例的实例数。

23、下面的一段python程序是计算并输出y_true和y_pred之间的平均绝对误差,即mae,则其中print语句的输出结果为 (要求:用小数表示,且保留小数点后两位)。 from sklearn.metrics import mean_absolute_error y_true = [3, -0.5, 2, 7] y_pred = [2.5, 0.0, 2, 9] print (mean_absolute_error(y_true, y_pred))

24、下面的一段python程序是使用支持向量机在iris数据集上进行训练的例子,请补全导入的模块名称(用小写字母) from sklearn import cross_validation from sklearn import from sklearn import datasets iris = datasets.load_iris() x_train, x_test, y_train, y_test = cross_validation.train_test_split\ (iris.data, iris.target, test_size=0.2 ) clf = svm.svc(kernel='linear', c=1).fit(x_train, y_train)

第二讲 特征工程概述

第二讲测验

1、为了在python程序中进行英文自然语言的处理,如词语切分(tokenization)词干提取(stemming)等工作,需要使用的导入模块语句通常为:
    a、import matplotlib.pyplot as plt
    b、import nltk
    c、import numpy as np
    d、from sklearn import svm, datasets

2、关于停用词(stop words),下列说法错误的是
    a、停用词是指在信息检索中,为节省存储空间和提高处理效率,在处理自然语言文本之前或之后需要被过滤掉的某些字或词
    b、停用词通常是非常常见的词,几乎可能出现在所有场合,因而对于信息检索、文本分类等应用区分度不大
    c、在某些特殊应用如短语搜索 phrase search中,停用词可能是重要的构成部分,过滤掉会引起副作用,因此要避免进行停用词过滤
    d、停用词是指比较古老的词汇,在当代已经几乎无人使用了

3、为了进行中文的分词或者词性标注等处理,可以使用的导入模块语句为:
    a、import matplotlib.pyplot as plt
    b、import numpy as np
    c、import jieba
    d、from sklearn import svm, datasets

4、关于文档向量之间的欧氏距离和余弦相似度,错误的是
    a、欧氏距离指在m维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离)
    b、余弦相似度,又称为余弦相似性,是通过计算两个向量的夹角余弦值来评估他们的相似度
    c、余弦值越接近0,就表明两个向量越相似
    d、两个向量之间的欧氏距离越大,则通常其余弦相似度越小

5、关于tf-idf(term frequency–inverse document frequency),下面的说法错误的是
    a、tf-idf是一种用于信息检索与数据挖掘的常用加权技术。tf意思是词频(term frequency),idf意思是逆文本频率指数(inverse document frequency)。
    b、tf-idf的背景是:特征向量里高频词的权重更大,这些词在文集内其他文档里面也经常出现。它们往往太普遍,对区分文档起的作用不大。因此有必要抑制那些在很多文档中都出现了的词条的权重。
    c、采用tf-idf模式,词条t在文档d中的权重计算与词条在在文档d中的频率无关
    d、其它答案都不对

6、下面关于特征缩放(feature scaler)的描述错误的是
    a、特征缩放主要是对特征矩阵中每个列,即同一特征维度的数值进行规范化处理
    b、其应用背景包括不同特征(列)不属于同一量纲等场合
    c、常用特征缩放方法有标准化法、区间缩放法等
    d、特征缩放主要是对特征矩阵中每个行,即每个样本的数值进行规范化处理

7、下面关于特征矩阵的归一化(normalizer)的描述错误的是
    a、归一化是依照特征矩阵的行,即每个样本进行处理
    b、其目的是使样本向量在进行点乘运算或计算相似性时,拥有统一的标准,即都转化为“单位向量”,使每个样本的范式等于 1。
    c、归一化是主要是对特征矩阵中每个列,即同一特征维度的数值进行规范化处理
    d、常见的归一化公式为l1 范式和l2 范式等

8、关于特征降维方法有线性判别分析(lda)和主成分分析法(pca),错误的是
    a、lda和pca的共同点是,都可以将原始的样本映射到维度更低的样本空间
    b、lda是为了让映射后的样本有最好的分类性能。即lda是一种有监督的降维方法
    c、pca是为了让映射后的样本具有最大的发散性,即pca是一种无监督的降维方法
    d、lda和pca都是有监督的降维方法

9、下面是对数据进行二值化处理的python程序 from sklearn.preprocessing import binarizer data = [[0, 0], [50, 0], [100, 1], [80, 1]] print (binarizer(threshold=60).fit_transform(data)) 则print语句的输出结果为
    a、[[0 0] [0 0] [1 1] [0 1]]
    b、[[1 0] [1 0] [0 1] [1 1]]
    c、[[0 0] [0 0] [0 0] [0 0]]
    d、[[0 0] [0 0] [1 0] [1 0]]

10、下面是一段文档的向量化的程序,且未经停用词过滤 from sklearn.feature_extraction.text import countvectorizer corpus = [ 'jobs was the chairman of apple inc., and he was very famous', 'i like to use apple computer', 'and i also like to eat apple' ] vectorizer =countvectorizer() print(vectorizer.vocabulary_) print(vectorizer.fit_transform(corpus).todense()) #转化为完整特征矩阵 已知print(vectorizer.vocabulary_)的输出结果为: {u'and': 1, u'jobs': 9, u'apple': 2, u'very': 15, u'famous': 6, u'computer': 4, u'eat': 5, u'he': 7, u'use': 14, u'like': 10, u'to': 13, u'of': 11, u'also': 0, u'chairman': 3, u'the': 12, u'inc': 8, u'was': 16}. 则最后一条print语句中文档d1,即'jobs was the chairman of apple inc., and he was very famous'的向量为
    a、[0 1 1 1 0 0 1 1 1 1 0 1 1 0 0 1 2]
    b、[0 0 1 0 1 0 0 0 0 0 1 0 0 1 1 0 0]
    c、[1 1 1 0 0 1 0 0 0 0 1 0 0 1 0 0 0]
    d、其它答案都不对

11、对于下面的一段python程序,计算的是向量之间的 import numpy as np x=np.random.random(5) y=np.random.random(5) sim=np.dot(x,y)/(np.linalg.norm(x)*np.linalg.norm(y))
    a、欧氏距离
    b、余弦相似度
    c、欧式相似度
    d、马修相关系数

12、对于下面的一段python程序,sim中保存的是向量之间的: import numpy as np x=np.random.random(5) y=np.random.random(5) from scipy.spatial.distance import pdist x=np.vstack([x,y]) sim=1-pdist(x,'cosine')
    a、欧氏距离
    b、余弦相似度
    c、余弦距离
    d、马修相关系数

13、下面的一段python程序的目的是利用皮尔逊相关系数进行iris数据集特征选择 import numpy as np from scipy.stats import pearsonr from sklearn import datasets iris = datasets.load_iris() print ("pearson's correlation coefficient between column #1 and target column", pearsonr(iris.data[:,0], iris.target )) print ("pearson's correlation coefficient between column #2 and target column", pearsonr(iris.data[:,1], iris.target )) print ("pearson's correlation coefficient between column #3 and target column", pearsonr(iris.data[:,2], iris.target )) print ("pearson's correlation coefficient between column #4 and target column", pearsonr(iris.data[:,3], iris.target )) 其输出结果为: ("pearson's correlation coefficient between column #1 and target column", (0.7825612318100814, 2.890478352614054e-32)) ("pearson's correlation coefficient between column #2 and target column", (-0.4194462002600275, 9.159984972550002e-08)) ("pearson's correlation coefficient between column #3 and target column", (0.9490425448523336, 4.1554775794971695e-76)) ("pearson's correlation coefficient between column #4 and target column", (0.9564638238016173, 4.775002368756619e-81)) 则如果去掉一个特征,应该选择哪一个特征去掉?
    a、#1
    b、#2
    c、#3
    d、#4

14、下面的一段python程序中有两条print语句,则下面哪一种选项更有可能是其实际的输出结果? import numpy as np from scipy.stats import pearsonr x = np.random.uniform(-1, 1, 100000) print (pearsonr(x, x*2)[0] ) print (pearsonr(x, x**2)[0] )
    a、1.0, -1.0
    b、1.0, 1.0
    c、1.0, -0.0020496310421256546
    d、-0.0020496310421256546, -0.0020496310421256546

15、下面的一段python程序的目的是对样本特征矩阵进行归一化处理,则空格处应该填充的函数是? from sklearn import datasets iris = datasets.load_iris() from sklearn.preprocessing import normalizer print (normalizer(norm='l1'). (iris.data))
    a、fit
    b、fit_transform
    c、transform
    d、normalizer

16、下面的一段python程序的目的是使用主成分分析法(principal component analysis) 对iris数据集进行特征降维,以便于数据的二维平面可视化。则其中空格处应该填充的数字为? import matplotlib.pyplot as plt from sklearn.decomposition import pca from sklearn.datasets import load_iris data = load_iris() x = data.data y = data.target pca = pca(n_components= ) reduced_x = pca.fit_transform(x)
    a、1
    b、2
    c、3
    d、4

17、下面的一段python程序的目的是使用区间缩放法对矩阵的列数据进行量纲缩放,则两处空格应该分别填入什么? from sklearn.preprocessing import minmaxscaler data = [[0, 0], [0, 78], [80, 1], [100, 89]] scaler = minmaxscaler() scaler. (data) results=scaler. (data) print (results)
    a、fit, fit
    b、transform, transform
    c、transform, fit
    d、fit, transform

18、下面的一段python程序的目的什么? import scipy.sparse as sp from sklearn.preprocessing import imputer x = sp.csc_matrix([ [1, 2], [0, 3], [7, 6]]) imp = imputer(missing_values=0, strategy='mean', verbose=0) imp.fit(x) x_test = sp.csc_matrix([ [0, 2], [6, 0], [7, 6]])
    a、样本特征矩阵的量纲的缩放
    b、缺失值补齐,将0视为缺失值
    c、样本特征矩阵的归一化
    d、多项式特征的生成

19、关于下面的python程序的描述错误的是? from sklearn.feature_extraction.text import countvectorizer corpus = [ 'jobs was the chairman of apple inc., and he was very famous', 'i like to use apple computer', 'and i also like to eat apple' ] vectorizer =countvectorizer(ngram_range=(1,2)) print("n-gram mode: ",vectorizer.fit_transform(corpus).todense()) print("n-gram mode: ",vectorizer.vocabulary_)
    a、用n-gram模式进行文档向量化
    b、vocabulary_中既包括unigram,也包括bigram
    c、countvectorizer没有考虑到idf,即倒排文档频率
    d、vocabulary_中只包括bi-gram

20、为了使用主成分分析法(principal component analysis) 对iris数据集进行特征降维,以便于数据的二维平面可视化。 则下面哪一条import语句不是必须的?
    a、import matplotlib.pyplot as plt
    b、from sklearn.decomposition import pca
    c、from sklearn.datasets import load_iris
    d、from sklearn.feature_extraction.text import countvectorizer

21、下图是使用主成分分析法对iris数据集进行特征降维并进行二维平面可视化的结果。则为了绘图,需要使用的导入语句是下面哪一种?
    a、import matplotlib.pyplot as plt
    b、from sklearn.decomposition import pca
    c、from sklearn.lda import lda
    d、import numpy as np

22、下面哪一条语句是用于导入nltk中的英文词性标注的模块?
    a、from nltk import word_tokenize
    b、from nltk.stem import porterstemmer
    c、from nltk import pos_tag
    d、from nltk.corpus import treebank

23、自然语言处理中为了计算文档之间的相似度,往往需进行文档的量化表示,下面关于bow(即bag-of-words model)和vsm(vector space model)的描述正确的是:
    a、bow,即词袋模型。即为了计算文档之间的相似度,假设可以忽略文档内的单词顺序和语法、句法等要素,将其仅仅看作是若干个词汇的集合
    b、vsm,即向量空间模型。是一种表示文本文档的数学模型。将每个文档表示成同一向量空间的向量
    c、在vsm,即向量空间模型中,所有文档的向量维度的数目都相同
    d、其它答案都不对

24、对于文本“i like to eat apple”,则下列关于n-gram的描述正确的是
    a、其uni-gram为“i”,“like”, “to”,“eat”,“apple”
    b、其bi-gram为“i like”,“like to”, “to eat”,“eat apple”
    c、其tri-gram为“i like to”,“like to eat”, “to eat apple”
    d、其它答案都不对

25、关于特征选择,下列说法正确的是
    a、每个样本往往具有多个特征,特征选择是指从中选择对于学习任务,例如分类问题有帮助的若干特征
    b、特征减少了,维度就下降了,可以提升模型的效率。因为在实际应用尤其是在文本处理中,经常会出现维度灾难问题
    c、剔除了无关特征,有利于降低学习任务的难度,也可以增加模型的可解释性
    d、通常可从两个方面来进行特征选择:1)特征是否发散;2)特征与目标的相关性

第三讲 回归问题及正则化

第三讲测验

1、关于线性模型,下列说法错误的是
    a、狭义线性模型通常是指自变量与因变量之间呈按比例、成直线的关系。一阶导数不为常数
    b、线性通常表现为1次曲线
    c、广义线性是线性模型的扩展,主要通过联结函数,使预测值落在响应变量的变幅内
    d、非线性一般指不按比例、不成直线的关系,一阶导数不为常数

2、下列关于梯度下降(gradient descent )法的描述错误的是
    a、梯度下降是利用一阶的梯度信息找到代价函数局部最优解的一种方法
    b、通常会先初始化一组参数值, 在这个值之上,用梯度下降法去求出下一组的值。由于是梯度下降的,所以损失函数的值在下降。当迭代到一定程度, 损失函数取值趋于稳定,此时的参数取值即为要求得的值
    c、学习速率的选取很关键,如果学习速率取值过大,容易达不到极值点甚至会发散,学习速率太小容易导致收敛时间过长
    d、其中的学习速率是模型参数,而不是超参数

3、下面的一段python程序是使用scikit-learn来构建线性回归模型,其中最后一条语句的目的是得到x_test的预测结果,则空格内应该填入的函数为 from sklearn.linear_model import linearregression x = [[6, 2], [8, 1], [10, 0], [14, 2], [18, 0]] y = [[7], [9], [13], [17.5], [18]] model = linearregression() model.fit(x, y) x_test = [[8, 2], [9, 0], [11, 2], [16, 2], [12, 0]] y_test = [[11], [8.5], [15], [18], [11]] predictions = model. (x_test)
    a、predict
    b、get
    c、pred
    d、learn

4、下列关于逻辑回归的描述错误的是
    a、线性回归的结果输出通常是一个连续值,值的范围是无法限定的。逻辑回归通过使用sigmoid函数将其转为(-1,1) 的一个概率值,从而能够完成对事件发生的概率进行预测
    b、逻辑回归可以被理解为是一个被logistic方程归一化后的线性回归
    c、逻辑回归属于连接函数为sigmoid函数的广义线性模型
    d、sigmoid 函数有个很漂亮的“s”形,特点是一开始变化快,逐渐减慢,最后饱和

5、scikit-learn中的逻辑回归凯发娱乐官网的解决方案“liblinear”使用的是cd优化(即coordinate descent,坐标下降)算法,则下面的描述错误的是:
    a、cd是一种梯度优化算法
    b、在每次迭代中,该方法在当前点处沿一个坐标方向进行一维搜索以求得一个函数的局部极小值。在整个过程中循环使用不同的坐标方向
    c、该方法从一个初始的猜测值以求得函数的局部最优值。该方法需要迭代进行
    d、如果在某次迭代中,函数得不到优化,说明一个驻点已经达到。但是对于非平滑函数,坐标下降法可能会在在非驻点中断执行

6、在scikit-learn中,如何处理多类分类(multi-class classification)问题?
    a、scikit-learn无法实现多类分类
    b、scikit-learn只能用one-vs.-all实现多类分类
    c、scikit-learn只能用one-vs.-the-rest方法实现多类分类
    d、scikit-learn可以使用one-vs-one或one-vs.-the-rest方法实现多类分类,即将多类分类问题转化为构建若干个两类的分类器

7、下图中的三条曲线是分别是线性回归、二次回归以及100次多项式的回归的曲线,则为了实现生成多项式特征,需要使用的import语句是?
    a、import matplotlib.pyplot as plt
    b、import numpy as np
    c、from scipy.stats import norm
    d、from sklearn.preprocessing import polynomialfeatures

8、下图是哪种函数的曲线?
    a、sigmoid
    b、tanh
    c、elu
    d、relu

9、下面的一段python程序,其目的是显示下面的哪一种函数的图形? import numpy as np import matplotlib.pyplot as plt plt.figure() plt.axis([-6, 6, 0, 1]) plt.grid(true) x = np.arange(-6,6,0.1) y = 1 / (1 np.e ** (-x)) plt.plot(x, y, 'b-') plt.show()
    a、tanh
    b、elu
    c、sigmoid
    d、relu

10、下面关于岭(ridge)回归的描述正确的是
    a、岭回归使用l1正则化
    b、岭回归使用l2正则化
    c、岭回归使用l1 l2正则化
    d、岭回归不使用正则化

11、下面关于lasso回归的描述正确的是
    a、lasso回归使用l1正则化
    b、lasso回归使用l2正则化
    c、lasso回归使用l1 l2正则化
    d、lasso回归不使用正则化

12、下面关于弹性网(elastic net)的描述正确的是
    a、弹性网使用l1正则化
    b、弹性网使用l2正则化
    c、弹性网使用l1 l2正则化
    d、弹性网不使用正则化

13、图为使用 matplotlib.pyplot 绘制的图形,则其中的五个数据点是采用哪个函数绘制的?
    a、scatter
    b、plot
    c、draw
    d、point

14、下图为使用 matplotlib.pyplot 绘制的图形,则其中的两条线是采用哪个函数绘制的?
    a、scatter
    b、plot
    c、draw
    d、point

15、对于下面的一段python程序,其目的是生成x_train的二次多项式特征,则空格内应该填入的内容为? from sklearn.preprocessing import polynomialfeatures x_train = [[3], [4], [5]] quadratic_featurizer = polynomialfeatures( ) x_train_quadratic = quadratic_featurizer.fit_transform(x_train) print (x_train_quadratic)
    a、degree=1
    b、degree=2
    c、poly=2
    d、poly=1

16、下面的自定义函数可以绘制出类似下面左边的图形。为了在图形中加入网格(如右图所示),则需要在空格处加入哪一条语句? def runplt(): plt.figure() plt.title(u'披萨的价格和直径',fontproperties=font_set) plt.xlabel(u'直径(inch)',fontproperties=font_set) plt.ylabel(u'价格(美元)',fontproperties=font_set) plt.axis([0, 25, 0, 25]) return plt
    a、plt.grid(false)
    b、plt.grid(true)
    c、grid(true)
    d、grid(false)

17、下列哪些是非线性回归模型?
    a、2次以上的多项式
    b、双曲线模型
    c、幂函数模型
    d、指数函数模型

18、为了求解使得线性回归误差平方和最小的参数,则下列说法中正确的是
    a、只能用矩阵解法
    b、只能用梯度下降法
    c、梯度下降法是一种迭代求解方法
    d、常见的解法有矩阵解法和梯度下降方法等。

19、对某数据集进行高次多项式的回归,逐渐增加多项式的次数,如采用七次多项式回归拟合,曲线经过了所有训练集中的点,但在测试集上的r方值却变得更低了。则以下表述正确的是
    a、发生了过拟合较为严重(overfitting)的情况
    b、发生了欠拟合较为严重(underfitting)的情况
    c、学习得到了一个非常好的模型,其在测试集上的表现最好
    d、r方值越大,则模型性能越好

20、线性回归中计算损失函数时加入正则化项后的表达式为 则下列说法正确的有
    a、等号右边第一项的目标是使模型能更好地拟合训练数据
    b、等号右边第二项是正则化项,目的是控制过拟合现象
    c、λ 是正则化参数(regularization parameter),用于控制等号右边两项的平衡
    d、过拟合是指学习到的模型在训练集上也许误差较小,但是对于测试集中之前未见样本的预测却未必有效。或者通俗地说,模型过度学习了训练数据。

第四讲 信息熵及梯度计算

第四讲测验

1、下面关于信息熵的描述中错误的是:
    a、热力学中的热熵是表示分子状态混乱程度的物理量。信息熵概念的提出受到了热力学中的热熵的概念的启发
    b、信息熵由shannon提出,信息熵的概念可以用来描述信源的不确定度
    c、信息熵是通信领域的概念,和机器学习以及深度学习无关
    d、在深度学习中,经常使用交叉熵来表征两个变量概率分布p, q(假设p表示真实分布, q为模型预测的分布)的差异性。

2、下面关于相对熵(relative entropy) 的说法不正确的是
    a、相对熵又称为kl散度(kullback–leibler divergence)
    b、相对熵又称为信息散度(information divergence)
    c、相对熵又称为信息增益(information gain)
    d、相对熵又被称之为kl距离,因此满足对称性

3、下面关于js散度和kl散度的区别的说法错误的是
    a、kl散度不具对称性
    b、js散度具备对称性
    c、js散度在kl散度的基础上进行了改进
    d、二者都不具备对称性

4、关于感知机(perceptron),下列说法错误的是
    a、感知机由rosenblatt于1957年提出,是神经网络的基础
    b、感知机是二分类的线性分类模型,属于有监督学习算法
    c、感知机是二分类的线性分类模型,属于无监督学习算法
    d、感知机的预测是用学习得到的感知机模型对新的实例进行预测的,因此属于判别模型

5、感知机通过使用激励函数(activation function )处理解释变量和模型参数的线性组合对样本分类。rosenblatt最初的感知器用的激励函数是
    a、sigmoid函数
    b、阶跃函数
    c、tanh函数
    d、relu函数

6、下列哪种概念表达了在已知随机变量y的条件下随机变量x的不确定性?
    a、交叉熵
    b、互信息
    c、条件熵
    d、相对熵

7、下图是信息熵相关概念的文氏图解,其中左侧圆 (既包括红色也包括紫色的区域)为变量x自身的熵h(x)。其中红色区域为条件熵conditional entropy h(x|y)。右侧圆(既包括蓝色也包括紫色的区域)为变量y自身的熵h(y), 其中蓝色区域为条件熵conditional entropy h(y|x)。则中间的紫色的区域为?
    a、交叉熵
    b、联合熵
    c、互信息
    d、相对熵

8、对于下面的一段python程序,下面的说法错误的是 import numpy as np p=np.asarray([0.65,0.25,0.07,0.03]) q=np.array([0.6,0.25,0.1,0.05]) kl1=np.sum(p*np.log(p/q)) kl2=np.sum(q*np.log(q/p))
    a、程序最后两行的计算结果是相等的
    b、程序最后两行的计算结果是不相等的
    c、程序最后两行的的目的是计算相对熵,其是交叉熵与信息熵的差值
    d、程序的目的是计算相对熵,其不具备对称性

9、下列关于反向传播(backpropagation)算法的描述中,错误的是
    a、反向传播算法的学习过程由正向传播过程和反向传播过程组成,不存在迭代过程
    b、在正向传播过程中,输入信息通过输入层经隐含层,逐层处理并传向输出层
    c、如果经过正向传播,在输出层得不到期望的输出值,则利用输出与期望计算目标函数(损失函数),转入反向传播
    d、反向传播需要逐层求出目标函数对各神经元权值的偏导数,构成目标函数对权值向量的梯度,作为修改权值的依据。在机器学习中,训练数据通常是给定和固定的,而权重参数等是作为变量并进行更新的

10、对于下面的一段python程序,下面的说法正确的是 import numpy as np p=np.asarray([0.65,0.25,0.07,0.03]) q=np.array([0.6,0.25,0.1,0.05]) m=(p q)/2 result=0.5*np.sum(p*np.log(p/m)) 0.5*np.sum(q*np.log(q/m))
    a、最后一行是计算p和q之间的kl散度
    b、最后一行是计算p和q之间的js散度
    c、最后一行是计算p和q之间的条件熵
    d、最后一行是计算p和q之间的交叉熵

11、对于下面的一段python程序,下面的说法正确的是 import numpy as np import scipy.stats p=np.asarray([0.65,0.25,0.07,0.03]) q=np.array([0.6,0.25,0.1,0.05]) m=(p q)/2 result=0.5*scipy.stats.entropy(p, m) 0.5*scipy.stats.entropy(q, m)
    a、最后一行是计算p和q之间的kl散度
    b、最后一行是计算p和q之间的js散度
    c、最后一行是计算p和q之间的条件熵
    d、最后一行是计算p和q之间的交叉熵

12、对于下面的一段python程序,下面的说法正确的是 import numpy as np predicted=np.array([11.2, 2.5, 7.9, 7.2]) label=np.array([1, 0, 0, 0]) def softmax(x): return np.exp(x)/np.sum(np.exp(x),axis=0) print (softmax(predicted)) loss=-np.sum(label*np.log(softmax(predicted)))
    a、最后一行是计算predicted和label之间的互信息
    b、最后一行是计算predicted和label之间的js散度
    c、最后一行是计算predicted和label之间的条件熵
    d、最后一行是计算predicted和label之间的交叉熵

13、对于给定的下面的一段python程序及其输出,下面的说法正确的是 import numpy as np a=np.asarray([0.5,0.5]) #假设a为实际分布 b=np.array([0.25,0.75]) c=np.array([0.125,0.875]) kl1=np.sum(a*np.log(a/b)) print ("b,a",kl1) kl2=np.sum(a*np.log(a/c)) print ("c,a",kl2) 其输出结果为 b,a 0.143841036226 c,a 0.413339286592
    a、程序的输出是计算了条件熵
    b、程序的输出是计算了互信息
    c、b和c相比,更接近实际分布a
    d、c和b相比,更接近实际分布a

14、对于给定的下面的一段计算香农信息熵的python程序(已知x1和x2的概率分布),则其输出结果应该为下面的哪个选项? import numpy as np def calc_ent(x): x_value_list = set([x[i] for i in range(x.shape[0])]) ent = 0.0 for x_value in x_value_list: p = float(x[x == x_value].shape[0]) / x.shape[0]#概率 logp = np.log2(p) ent -= p * logp return ent x1=np.array([0.25, 0.25, 0.25, 0.25]) x2=np.array([0.1, 0.2, 0.3, 0.4]) print ("entropy of x1:", calc_ent(x1)) print ("entropy of x2: ", calc_ent(x2))
    a、entropy of x1: 0.0; entropy of x2: 2.0
    b、entropy of x1: 2.0; entropy of x2: 0.0
    c、entropy of x1: 2.0; entropy of x2: 2.0
    d、entropy of x1: 1.0; entropy of x2: 2.0

15、对于给定的下面的一段python程序,则程序最后,result中保存的是? from math import log def calcshannonent(dataset): length,datadict=float(len(dataset)),{} for data in dataset: try:datadict[data] =1 except:datadict[data]=1 return sum([-d/length*log(d/length) for d in list(datadict.values())]) ent_x1=calcshannonent(['3', '4', '5', '5', '3', '2', '2', '6', '6', '1']) ent_x2=calcshannonent(['7', '2', '1', '3', '2', '8', '9', '1', '2', '0']) ent_x1x2=calcshannonent(['37', '42', '51', '53', '32', '28', '29', '61', '62', '10']) result=ent_x1 ent_x2-ent_x1x2
    a、交叉熵
    b、联合熵
    c、互信息
    d、相对熵

16、对于给定的下面的一段python程序。已知d是w与x的点乘,且w为参数矩阵,x为样本矩阵,则空格中应该填入的数值是 import numpy as np # 正向传播 w = np.random.randn(5, ) x = np.random.randn(10, 2) d = w.dot(x)
    a、10
    b、5
    c、2
    d、1

17、为了在sklearn中使用感知机模型进行20新闻组的文本分类,则下面的导入模块语句中不是必要的是
    a、from sklearn.datasets import fetch_20newsgroups
    b、from sklearn.naive_bayes import gaussiannb
    c、from sklearn.feature_extraction.text import tfidfvectorizer
    d、from sklearn.linear_model import perceptron

18、假设多层感知机中输入层中的节点数为10,隐藏层中的节点数目为5,则从输入层到隐藏层的连接数是
    a、50
    b、10
    c、5
    d、可以取任意值

19、下面关于梯度下降法描述正确的是
    a、梯度下降法作为机器学习中较常使用的优化算法,其有着三种不同的形式:批量梯度下降(batch gradient descent)、随机梯度下降(stochastic gradient descent)以及小批量梯度下降(mini-batch gradient descent)
    b、批量梯度下降法是最原始的形式,它是指在每一次迭代时使用所有样本来进行梯度的更新
    c、随机梯度下降法不同于批量梯度下降,是每次迭代使用一个样本来对参数进行更新
    d、小批量梯度下降法是对批量梯度下降以及随机梯度下降的一个折中办法。更新参数时使用一部分训练样本。一般将训练样本集分成若干个batch,每个batch包含m个样本。每次更新都利用一个batch的数据,而非整个训练集

20、下列关于条件熵的描述正确的是
    a、两个随机变量x,y的联合分布的熵
    b、条件熵h(x|y)表示在已知随机变量y的条件下随机变量x的不确定性
    c、h(x|y)= h(x, y) - h(y),即条件熵h(x|y)是(x, y)的联合熵,减去y单独发生包含的熵
    d、用于表征两个变量概率分布的差异性 。

第五讲 循环神经网络及其变体

第五讲测验

1、下列关于循环神经网络rnn (recurrent neural networks)说法错误的是
    a、隐藏层之间的节点有连接
    b、隐藏层之间的节点没有连接
    c、隐藏层的输入不仅包括输入层的输出,还包括上一时刻隐藏层的输出
    d、网络会对之前时刻的信息进行记忆并应用于当前输出的计算中

2、下列关于长短期记忆网络lstm和循环神经网络rnn的关系描述正确的是:
    a、lstm是简化版的rnn
    b、lstm是双向的 rnn
    c、lstm是多层的rnn
    d、lstm是rnn的扩展,其通过特殊的结构设计来避免长期依赖问题

3、标准rnn (循环神经网络) 无法处理更长的上下文间隔,即长期依赖问题。为此hochreiter & schmidhuber (1997) 提出一种特殊的rnn类型,其通过特殊的结构设计来避免长期依赖问题。并被 alex graves进行了改良和推广。这种改进的模型是
    a、长短期记忆网络lstm
    b、卷积神经网络cnn
    c、多层感知机mlp
    d、受限玻尔兹曼机

4、下列说法错误的是
    a、标准rnn隐藏层只有一个状态h,对短期输入敏感,但难以捕捉长期上下文
    b、lstm在隐藏层上增加了一个长期状态c (cell state),用于保存长期状态。c也被称为单元状态或细胞状态
    c、lstm只有长期状态,没有隐藏状态
    d、lstm既有长期状态,也有隐藏状态

5、lstm 通过“门”结构来去除或者增加信息到细胞状态(长期状态)。为了让信息选择性通过,
    a、一般需要一个 sigmoid 神经网络层和一个 pointwise 乘法操作
    b、一般需要一个 sigmoid 神经网络层和一个 pointwise 加法操作
    c、一般需要一个 tanh 神经网络层和一个 pointwise 乘法操作
    d、一般需要一个 tanh 神经网络层和一个 pointwise 加法操作

6、下列关于gru(gated recurrent unit cho, et al. 2014) 的哪个描述是错误的?
    a、gru混合了长期状态和隐藏状态
    b、和lstm相同的是, gru也有三个门,即忘记门、更新门和输出门
    c、在gru中,取消了lstm中的输出门
    d、如果reset门为1,而update门为0的话,则gru完全退化为一个rnn

7、下图给出了循环神经网络rnn的三个时间步,即的计算关系图。 则下列说法中错误的是
    a、分别表示t-1时刻,t时刻,以及t 1时刻的隐藏层节点向量
    b、分别表示t-1时刻,t时刻,以及t 1时刻的隐藏层节点向量
    c、分别表示t-1时刻,t时刻,以及t 1时刻的输出层节点向量
    d、与的关系通常为通过 公式计算。这里的softmax函数,或称归一化指数函数,目的是将一个含任意实数的k维向量“压缩”到另一个k维实向量中,使得每一个元素的取值范围都在0和1之间,并且所有元素的和为1

8、下列关于注意力机制的描述正确的是
    a、注意力机制只能应用于计算机视觉领域,目前在文本处理中没有应用案例
    b、注意力机制只能应用于文本分类,无法应用在计算机视觉等领域
    c、注意力机制是一种通用的思想,本身并不依赖于特定框架
    d、注意力机制只能应用在循环神经网络框架中,无法在其它深度学习框架中应用

9、下图给出了lstm中各个状态及其三种门的关系。则其中需要用到乘法门的是
    a、lstm中忘记门和输入门要用到乘法门
    b、lstm中输入门和输出门要用到乘法门
    c、lstm中只有输出门要用到乘法门
    d、lstm中忘记门和输出门要用到乘法门

10、下图给出了lstm中各个状态及其三种门的关系。则其中需要用到加法门的是
    a、lstm中的输入门要用到加法门
    b、lstm中的输出门要用到加法门
    c、lstm中的忘记门要用到加法门
    d、lstm中的输入和输出门要用到加法门

11、下面关于计算lstm中的忘记门的描述错误的是:
    a、忘记门层 的任务是从当前输入中“忘记”信息
    b、忘记门的输入为ℎ−1 和 ,输出的矩阵中每个元素为 0 到 1 之间的数值
    c、忘记门的输出要与长期状态矩阵−1中的每个对应位置元素相乘
    d、忘记门的输出中1 表示“完全保留”,0 表示“完全舍弃”

12、下面关于计算lstm中的输入门层的计算的描述中错误的是
    a、输入门层的目的是确定什么样的新信息被存放在长期状态中
    b、使用sigmoid 层决定什么值将要更新
    c、使用一个 tanh 层创建一个新的候选值向量,被加入到状态中。在创建新的候选值向量时,只会利用到当前的输入
    d、之前的长期状态ct-1将被更新为ct。在这个更新过程中要用到加法门

13、下面关于计算lstm中的输出ht 的描述中错误的是
    a、输出门的输入是 和 。并经过sigmoid层处理得到
    b、把长期状态通过 tanh 层进行处理(得到一个在 -1 到 1 之间的值),并将它和sigmoid 门的输出相乘,目的是对输出的信息加以控制
    c、长期状态通过 tanh 层进行处理,然后经输出门过滤,得到要输出的
    d、从图中可见,输出的信息为 与当前的输入 无关

14、下列关于lstm中用到的乘法门和加法门的描述正确的是
    a、乘法门是点乘运算
    b、乘法门是哈达玛乘积(hadamard product)运算
    c、忘记门要用到加法门
    d、输出门要用到加法门

15、下列哪种模型更适合序列建模与预测
    a、循环神经网络rnn
    b、卷积神经网络cnn
    c、多层感知机
    d、长短时记忆网络lstm

16、循环神经网络rnn (recurrent neural networks)可以处理哪些情况?
    a、多对多的同步序列输入输出。如词性标注等
    b、多对一的处理,如判断一段文字的情感分类
    c、多对多的非同步序列输入和序列输出,如机器翻译中输入英文语句然后翻译为法语形式输出
    d、一对多的序列输出。如输入一张图片,生成输出一段文字序列

17、下列关于lstm说法正确的是
    a、lstm用三个控制门记忆长期状态
    b、忘记门控制保存之前的长期状态
    c、输入门控制更新长期状态
    d、输出门控制是否把长期状态作为当前的lstm的输出

18、下列关于双向rnn的说法正确的有
    a、双向网络假设当前步的输出只与前面的序列有关,而与后面的序列无关
    b、双向网络假设当前步的输出与前面的序列无关,而与后面的序列有关
    c、双向网络假设当前步的输出既与前面的序列有关,也与后面的序列有关
    d、bidirectional rnns由两个rnns上下叠加组成。输出由这两个rnns的隐藏层的状态决定

19、下图给出了循环神经网络rnn的三个时间步,即的计算关系图。则下列说法中正确的有
    a、在rnns中,每一步(每一层)都共享参数u, v, w
    b、在rnns中,每一步(每一层)都不共享参数u, v, w
    c、在计算当前时间步 时,只是利用到了上一时间步的信息,不会利用当前步的输入
    d、在计算当前时间步 时,既利用到了上一时间步的信息,也用到了当前步的输入

20、下列关于长短期记忆网络lstm的描述正确的是
    a、既然有了长期状态c,就不再需要隐藏状态h了
    b、长期状态c和隐藏状态h都需要被用到
    c、在计算当前时刻的输出时,直接利用到的是隐藏状态h
    d、在计算当前时刻的输出时,直接利用到的是长期状态c

第六讲 卷积神经网络

第六讲测验

1、对一个灰度图像应用如下的过滤器会达到什么效果? 1 0 -1 1 0 -1 1 0 -1
    a、实现水平方向边缘检测
    b、实现竖直方向边缘检测
    c、实现45度边缘检测
    d、实现图像对比度检测

2、对一个灰度图像应用下面的过滤器会达到什么效果? 1 1 1 0 0 0 -1 -1 -1
    a、实现水平方向边缘检测
    b、实现竖直方向边缘检测
    c、实现45度边缘检测
    d、实现图像对比度检测

3、假设输入的图像为100*100像素(rgb)的图像,并且没有使用卷积神经网络。如果第一个隐藏层有50个神经元,每个神经元与输入图像是全连接的关系,则这个隐藏层需要多少参数(包括偏置参数)?
    a、1, 500, 000
    b、1, 500, 050
    c、500, 000
    d、1, 500, 001

4、假设输入的图像为100*100像素(rgb)的图像, 且使用了卷积层进行处理,其包括100个过滤器,每个的尺寸为5*5,则这个隐藏层需要多少参数(包括偏置参数)?
    a、2500
    b、2600
    c、7500
    d、7600

5、下列关于卷积神经网络的描述正确的是
    a、卷积神经网络的层与层之间都是全连接网络
    b、卷积神经网络的层与层之间都是部分连接网络
    c、卷积神经网络的层与层之间既有可能是全连接,也有可能是局部连接。通常是开始的若干层是局部连接,最后的层是全连接
    d、卷积神经网络的层与层之间既有可能是全连接,也有可能是局部连接。通常是开始的若干层是全连接,最后的层是局部连接

6、关于卷积神经网络的说法正确的是
    a、从开始的层到后面的层,经过变换得到的特征图的尺寸逐渐变大
    b、从开始的层到后面的层,经过变换得到的特征图的尺寸逐渐变小
    c、从开始的层到后面的层,经过变换得到的特征图的尺寸大小不变
    d、从开始的层到后面的层,经过变换得到的特征图的尺寸开始变小,后来变大

7、关于采用卷积神经网络进行图像分类和文本分类的比较,下列说法错误的是
    a、卷积神经网络只能用于图像分类,不能用于文本分类,没有相关文献
    b、使用卷积神经网络进行句子分类,一般将句子中每个词表示为固定长度的向量,这样句子就可以表示为矩阵,从而使得在结构上与图像类似,并在后续进行卷积等处理
    c、图像处理应用中,卷积核处理的局部区域为图像的一小块区域,而在文本分类时卷积核处理的局部区域通常为相邻的上下几行(几个词)。因此卷积核的宽度和输入矩阵的宽度相等
    d、使用卷积神经网络进行句子分类或者文档分类,卷积提取的特征与采用n-gram模式提取的特征类似

8、对于如下的输入图像及其经过卷积处理过的输出,其卷积核更有可能是哪一种?
    a、-1 -1 -1 -1 8 -1 -1 -1 -1
    b、0 -1 0 -1 5 -1 0 -1 0
    c、1/9 1/9 1/9 1/9 1/9 1/9 1/9 1/9 1/9
    d、0 0 0 0 0 0 0 0 0

9、对于如下的输入图像及其经过卷积处理过的输出,其卷积核更有可能是哪一种?
    a、-1 -1 -1 -1 8 -1 -1 -1 -1
    b、0 -1 0 -1 5 -1 0 -1 0
    c、1/9 1/9 1/9 1/9 1/9 1/9 1/9 1/9 1/9
    d、0 0 0 0 0 0 0 0 0

10、在卷积神经网络的某个降采样层(pooling层)中,经过降采样处理,得到了16个5*5的特征图,其每个单元与上一层的 2*2 邻域连接(滑动窗口为2*2)。则该降采样层的尺寸和上一个层的尺寸的关系是?
    a、降采样层的尺寸是上一层的尺寸的1/2
    b、降采样层的尺寸是上一层的尺寸的1/4
    c、降采样层的尺寸是上一层的尺寸的1/8
    d、降采样层的尺寸是上一层的尺寸的4倍

11、在卷积神经网络lenet-5的卷积层c3得到的特征图为16个,上一层的特征图为6个。则关于这一卷积过程的描述错误的是
    a、c3卷积层中每个特征图只与上一层s2中部分特征图相连接
    b、c3卷积层采用多通道16核卷积
    c、c3卷积层有16个卷积核,其大小均为5*5,且每个卷积核与上一层的若干特征图相连接
    d、c3卷积层有16个卷积核,其大小均为5*5,且每个卷积核与上一层的全部特征图相连接

12、下列不属于卷积神经网络中的超参数的是
    a、步长
    b、核大小
    c、神经网络层数
    d、权重系数

13、对于如下的输入图像及其经过卷积处理过的输出,其卷积核更有可能是哪一种?
    a、-1 -1 -1 -1 8 -1 -1 -1 -1
    b、0 -1 0 -1 5 -1 0 -1 0
    c、1/9 1/9 1/9 1/9 1/9 1/9 1/9 1/9 1/9
    d、0 0 0 0 0 0 0 0 0

14、卷积神经网络的一个特点是“参数共享”。下面关于“参数共享”的哪种说法是正确的?
    a、如果参数较多,则容易导致过拟合。而减少参数有助于避免过拟合
    b、参数共享的优势是通过一个任务上学习到的参数可以直接应用到另外一个任务上
    c、可以允许一个特征检测器在整个输入图像的不同位置使用,即可以把参数看成是卷积提取特征的方式,该方式与位置无关
    d、参数越多,才能避免过拟合,减少参数容易导致过拟合

15、卷积神经网络中典型的模式是?
    a、卷积层后为池化层,然后还是卷积层-池化层。
    b、多个连续的池化层,然后跟着一个卷积层
    c、网络中最后的几个层是全连接层
    d、网络中最开始的几个层是全连接层

16、关于卷积神经网络,下列的描述正确的是
    a、对于图像而言,由于通常一般是局部的像素联系较为紧密,而距离较远的像素相关性则相对较弱。因而可以采用局部感知,即每个神经元可以只需对局部信息进行感知,然后在更高层将局部信息进行综合以得到全局的信息
    b、可以把卷积想象成作用于矩阵的一个滑动窗口函数。滑动窗口又称作卷积核、滤波器或是特征检测器
    c、对于给定的输入图像,卷积操作的输出图像中每一个像素实际上是输入图像中局部区域中像素的加权平均,其权值由一个函数定义,这个函数称为卷积核
    d、其它答案都不对

17、关于卷积神经网络中池化处理(pooling) 的说法正确的是
    a、在卷积神经网络中,卷积的下一步通常是进行池化处理(pooling)
    b、池化处理主要是对不同位置的特征进行聚合统计
    c、池化处理起到了减少了参数和降维的作用
    d、常用的池化做法是对每个滤波器的输出求最大值、平均值等

18、对于卷积神经网络lenet-5,往往要进行多次卷积、降采样的处理。下列说法正确的是
    a、经过卷积处理,生成的特征图(feature map)的数目一定和处理前的图像的数目相同
    b、经过卷积处理,生成的特征图(feature map)的数目一定和处理前的图像的数目不相同
    c、经过卷积处理,生成的特征图(feature map)的数目可能和处理前的图像的数目相同,也有可能不相同
    d、经过降采样处理,生成的特征图(feature map)的数目通常和处理前的图像的数目相同

19、由于池化层没有需要求解的参数,因此其对反向传播中梯度计算没有影响

第七讲 递归神经网络

第七讲测验

1、下列可以用于构造情感词典的方法中,不恰当的是
    a、以wordnet为基础,并利用情感种子词典扩充
    b、以hownet为基础,并利用情感种子词典扩充
    c、以停用词表为基础,并利用情感种子词典扩充
    d、构建种子词典,从网络生语料扩充

2、关于文档的向量表示模型,采用深度学习中的词向量表示模型和传统的单纯基于词频向量表示方法的区别的描述错误的是
    a、传统文档的表示一般采用词袋bow模型,表示为高维向量
    b、深度学习中的词向量表示模型通常是一种低维度向量
    c、深度学习中的词向量表示模型存在的一个突出问题就是“词汇鸿沟”现象
    d、传统方法中词向量表示模型存在一个突出问题就是“词汇鸿沟”现象

3、关于利用word2vec获取词向量,下列说法错误的是
    a、word2vec可以将词表示为低维实数值
    b、word2vec的向量输出既可以采用二进制存储,也可以普通存储(可以看到词语和对应的向量)
    c、word2vec需要利用到较大规模的语料进行训练
    d、word2vec不需要利用语料进行训练

4、下列关于递归神经网络rnn (socher et al., 2011),错误的是
    a、每个词通常初始化表示为一个d维的向量。由一个随机均匀分布随机采样生成
    b、所有的词向量被存储在一个词嵌入矩阵中。随着训练的进行,该矩阵将被视为一种参数,因此会被学习调整
    c、不同长度和句法类型的句子其组合词向量的维度都不同
    d、树结构基于句法分析器生成

5、神经网络中梯度下降法的训练步骤通常如何? 1. 根据样本预测值和真实值之间的误差,计算损失函数 2. 迭代更新,直到模型整体误差小于阈值或者达到预定的迭代次数 3. 把样本输入给模型,得到预测值 4. 初始化模型的参数,如权重和偏差等 5. 反向传播,按照梯度下降的方向改变神经元相应的权重值
    a、1, 2, 3, 4, 5
    b、5, 4, 3, 2, 1
    c、3, 2, 1, 5, 4
    d、4, 3, 1, 5, 2

6、假设对于输入u、v、w,其取值分别是1,2,-3。神经元q和f的函数分别为q =u v,f=q*w。如下图所示。 则f对u,v和w的梯度分别是?
    a、1, 2,-3
    b、1, -3, 1
    c、-3, -3, 3
    d、1, 1, 1

7、下面的曲线是哪种激活函数?
    a、sigmoid
    b、tanh
    c、relu
    d、maxout

8、下面的曲线是哪种激活函数?
    a、sigmoid
    b、tanh
    c、relu
    d、maxout

9、下面的曲线是哪种激活函数?
    a、sigmoid
    b、tanh
    c、relu
    d、maxout

10、关于下图中标准rnn(recursive neural networks, socher et al., 2011)的网络结构,下面描述正确的是
    a、网络结构是树状网络,其结构取决于输入句子的句法分析结果
    b、每个节点所对应的词向量的长度是不同的
    c、同一层的节点之间也有链接
    d、网络结构采用的是卷积神经网络

11、在很多神经网络分类系统中,假设共计有k个类,通常在输出层希望输出样本属于k个类中每个类的概率(在0和1之间),且使得这些概率的和等于1。则下列哪个函数可以用在输出层中以达到上述目的?
    a、sigmoid
    b、relu
    c、softmax
    d、tanh

12、哪种语料是情感分类语料?
    a、imdb 电影评论
    b、amazon review数据集
    c、20newsgroup数据集
    d、iris鸢尾花数据集

13、关于glove(jeffrey et al., 2014),下列说法正确的是
    a、由斯坦福大学研发
    b、将词表示为低维实数值向量的工具
    c、和word2vec类似,也可以作为深度学习中预初始化的词向量
    d、其它答案都不对

14、如何判断一段文本的情感方向?关于递归神经网络rnn (socher et al., 2011)的下列描述错误的是
    a、递归神经网络rnn中的每个词表示为一个高维稀疏向量
    b、递归神经网络rnn中基于词袋模型表示词向量
    c、递归神经网络rnn利用了语法分析树的结果
    d、递归神经网络rnn中父节点的词向量通过利用组合函数g由其孩子节点的向量得到

15、关于递归神经网络rnn (socher et al., 2011),下列描述正确的是
    a、模型的网络结构是通过句法分析得到的
    b、语料自身富含情感倾向信息
    c、训练语料采用人工标注
    d、父节点的向量通过利用组合函数g由其孩子节点的向量得到

16、下列关于递归神经网络rnn (socher et al., 2011)的描述正确的是
    a、假设节点p1的词向量为a, 则需要将其乘以分类矩阵ws,然后再传给softmax,以进行情感分类概率分布的计算
    b、假设节点p1的词向量为a, 则直接输出作为情感分类概率
    c、假设节点p1的词向量为a, 则直接传给softmax分类器以计算情感分类概率
    d、标准递归神经网络rnn后期的版本是mv-rnn和rntn

17、1. 关于rntn(socher et al., 2013),下列正确的是
    a、该结构的优点是相对于mv-rnn,其效率大幅提升
    b、标准rnn(递归神经网络)相当于rntn的一种特殊情况
    c、采用了张量层矩阵
    d、其它答案都不对

18、下列哪些神经网络结构采用权重共享机制?
    a、卷积神经网络
    b、循环神经网络
    c、全连接神经网络
    d、多层感知机

19、在神经网络中,以下哪种技术可以用于抑制过拟合?
    a、dropout
    b、正则化
    c、尽量增加选取特征变量的数量
    d、尽可能选用复杂的模型

20、下列的哪种方法可以用来抑制深度学习模型的过拟合现象?
    a、增加更多的数据
    b、使用数据扩增技术
    c、使用归纳性更好的模型
    d、降低模型的复杂度

第八讲 生成式神经网络

第八讲测验

1、下列关于变分自动编码器的主要用途描述正确的是
    a、生成新的数据样本,如图像
    b、重构原有的数据,如重构原有的图像
    c、获得数据的特征,并与分类器联合使用
    d、其它答案都不对

2、下列哪个不是生成式模型?
    a、k近邻法
    b、朴素贝叶斯法
    c、高斯混合模型
    d、马尔科夫模型等

3、下列关于生成对抗网络的描述错误的是:
    a、生成对抗网络只包含若干个生成器,优胜者胜出
    b、生成对抗网络,即generative adversarial networks,简称gan
    c、生成对抗网络包括两部分,即生成器和判别器
    d、生成对抗网络的生成器:从随机噪声中生成图像(随机噪声通常从均匀分布或高斯分布中获取)

4、下列关于生成对抗网络的描述错误的是:
    a、生成对抗网络包括两部分,即生成器和判别器
    b、生成对抗网络的判别器进行训练时,其输入为生成器生成的图像和来自训练集中的真实图像,并对其进行判别
    c、生成对抗网络的生成器从随机噪声中生成图像(随机噪声通常从均匀分布或高斯分布中获取)
    d、既然生成对抗网络是无监督模型,则不需要任何训练数据

5、生成对抗网络中,在训练生成器的时候,为了更新其参数,需要定义相应的优化目标,则下列说法正确的是
    a、如果生成器生成的样本,判别器判定为真实的,则说明生成器的效果是较好的,因而可以用判别器来评价生成器,即判别的性能越差,说明生成器的性能越好
    b、可以用判别器来评价生成器,即判别的性能越好,说明生成器的性能越好
    c、生成对抗网络中无法评价生成器的好坏
    d、其它答案都不对

6、下列关于有监督学习和无监督学习的说法中正确的是?
    a、有监督学习要用到数据样本的类别标签,因此样本数据通常带有类别标签
    b、无监督学习在训练过程中也要用到数据样本的类别标签,因此样本数据通常带有类别标签
    c、有监督学习需要训练,并更新参数
    d、无监督学习通常也需要训练和更新参数

7、下列哪些问题通常被认为属于有监督学习问题?
    a、分类问题
    b、回归问题
    c、图像标题生成
    d、聚类问题

8、下列关于生成模型的描述错误的是:
    a、生成模型不要任何训练数据
    b、生成对抗网络gan属于生成式模型
    c、变分自动编码器属于生成式模型
    d、自动编码器属于生成式模型

9、下列关于自动编码器auto encoder的描述正确的是
    a、自动编码器常用于做生成模型
    b、自动编码器不需要任何训练数据,完全是自动编码
    c、自动编码器可以用于数据的降维处理
    d、自动编码器学习到的新特征可以送入有监督学习模型中,所以自动编码器可以起到特征提取器的作用

10、下列关于自动编码器auto encoder的描述正确的是
    a、自动编码器不需要解码器
    b、自动编码器既有编码器,也有解码器
    c、如果使用自动编码器提取特征,并与有监督学习模型使用,则在其训练过程中不需要解码器
    d、自动编码器的编码器和解码器可以使用感知机模型

11、下列关于自动编码器的损失函数的说法中正确的是
    a、为了计算自动编码器的损失函数,需要用到样本的类别标签
    b、自动编码器的损失函数主要是重构自身的误差,因此不会用到样本的类别标签
    c、自动编码器由于是无监督模型,所以不存在损失函数的问题
    d、自动编码器需要利用到损失函数来反向传播,以更新模型的参数

12、下列关于自动编码器的主要用途描述正确的是
    a、使用自动编码器提取特征,并与有监督学习模型使用。因为监督学习通常的标注数据较少
    b、重构自身而已
    c、可以用许多无标签的数据学习得到数据通用的特征表示
    d、其它答案都不对

13、下列关于变分自动编码器的说法中正确的是
    a、变分自编码器(variational autoencoders,vae)通常假设潜在变量 服从某种先验分布(如高斯分布)
    b、模型训练完毕后,可以从这种先验分布中采样得到潜在变量 。并在解码器中通过潜在变量得到 新的样本
    c、vae在自动编码机基础上加入了随机因子,这样就可以从该模型中采样得到新的数据
    d、其它答案都不对

14、下列关于变分自动编码器的参数估计问题描述正确的是
    a、变分自编码器通常采用最大对数似然来学习得到模型的参数
    b、变分编码器实际上是在优化数据的对数似然的下界,并求解参数
    c、变分自编码器的训练过程中用到了kl散度的计算
    d、其它答案都不对

15、下列关于使用变分自动编码器进行新的样本生成,描述正确的是
    a、变分自编码器在生成数据阶段只需要解码器
    b、变分自编码器在生成数据阶段只需要编码器
    c、变分自编码器在生成数据阶段需用用到采样技术
    d、变分自编码器既然是无监督模型,因此不需要进行训练

16、下列哪些是判别式模型?
    a、k近邻法
    b、决策树
    c、支持向量机
    d、高斯混合模型

17、下列关于判别式模型和生成式模型的区别正确的是?
    a、判别式模型只是对给定的样本进行分类,不关心数据如何生成
    b、生成式模型主要回答的问题是,根据生成假设,哪个类别最有可能生成这个样本?
    c、生成式模型不能用于判别
    d、其它答案都不对

18、已知生成对抗网络的目标函数为。 则下列描述正确的有
    a、无论是生成器,还是判别器,都要使得其取值最大
    b、判别器训练阶段,需要使得其取值尽可能大
    c、生成器的优化目标是是,使得其取值尽可能地小
    d、无论是生成器,还是判别器,都是要使得其取值先变大,后变小

19、关于生成对抗网络的两个组成部分,即判别器和生成器的参数更新,则下列描述正确的有:
    a、判别器和生成器的参数在每次迭代时,都要同时更新参数
    b、在训练判别器时,生成器参数被固定
    c、在训练生成器时,判别器的参数被固定
    d、其它答案都不对

20、下面两个图分别是生成对抗网络中判别器训练阶段和生成器阶段的原理图,则 图1 图2
    a、图1是训练判别器
    b、图1是训练生成器
    c、图2是训练判别器
    d、图2是训练生成器

期末考试

期末考试

1、机器学习(深度学习)系统中通常将数据集划分为训练集和测试集,其中被用来学习得到系统的参数取值的是
    a、训练集(training set)
    b、测试集(testing set)
    c、训练集(training set)和测试集(testing set)
    d、其他答案都不对

2、下面关于有监督学习、无监督学习的描述错误的是
    a、有监督学习是从有正确答案的样本集合中学习,即每个样本的分类标签(classification label)或者目标值(target value)已知
    b、无监督学习的学习过程中也利用到了每个样本的分类标签(classification label)或者目标值(target value)
    c、有监督学习中样本的ground truth指的是每个样本的真实分类标签(classification label)或者真实目标值(target value)
    d、为了获得有监督学习中样本的真实分类标签(classification label)或者真实目标值(target value),某些情况下,可以采用人工专家标注的方法获得。

3、下面的一段python程序是使用支持向量机在iris数据集上进行训练的例子,且该程序已经导入了必要的模块(用省略号表示)。则程序中空格处应该填充的拟合函数是: …… iris = datasets.load_iris() x_train, x_test, y_train, y_test = cross_validation.train_test_split\ (iris.data, iris.target, test_size=0.2 ) clf = svm.svc(kernel='linear', c=1). (x_train, y_train)
    a、train
    b、fit
    c、learn
    d、ml

4、为了在python程序中进行英文自然语言的处理,如词语切分(tokenization)词干提取(stemming)等工作,需要使用的导入模块语句通常为:
    a、import matplotlib.pyplot as plt
    b、import nltk
    c、import numpy as np
    d、from sklearn import svm, datasets

5、为了进行中文的分词或者词性标注等处理,可以使用的导入模块语句为:
    a、import matplotlib.pyplot as plt
    b、import numpy as np
    c、import jieba
    d、from sklearn import svm, datasets

6、关于tf-idf(term frequency–inverse document frequency),下面的说法错误的是
    a、tf-idf是一种用于信息检索与数据挖掘的常用加权技术。tf意思是词频(term frequency),idf意思是逆文本频率指数(inverse document frequency)
    b、tf-idf的背景是:特征向量里高频词的权重更大,这些词在文集内其他文档里面也经常出现。它们往往太普遍,对区分文档起的作用不大。因此有必要抑制那些在很多文档中都出现了的词条的权重
    c、采用tf-idf模式,词条t在文档d中的权重计算与词条在在文档d中的频率无关
    d、其它答案都不对

7、下面关于特征矩阵的归一化(normalizer)的描述错误的是
    a、归一化是依照特征矩阵的行,即每个样本进行处理
    b、其目的是使样本向量在进行点乘运算或计算相似性时,拥有统一的标准,即都转化为“单位向量”,使每个样本的范式等于 1
    c、归一化是主要是对特征矩阵中每个列,即同一特征维度的数值进行规范化处理
    d、常见的归一化公式为l1 范式和l2 范式

8、对于下面的一段python程序,计算的是向量之间的 import numpy as np x=np.random.random(5) y=np.random.random(5) sim=np.dot(x,y)/(np.linalg.norm(x)*np.linalg.norm(y))
    a、欧氏距离
    b、余弦相似度
    c、欧式相似度
    d、马修相关系数

9、下面的一段python程序的目的是使用主成分分析法(principal component analysis) 对iris数据集进行特征降维,以便于数据的二维平面可视化。则其中空格处应该填充的数字为? import matplotlib.pyplot as plt from sklearn.decomposition import pca from sklearn.datasets import load_iris data = load_iris() x = data.data y = data.target pca = pca(n_components= ) reduced_x = pca.fit_transform(x)
    a、1
    b、2
    c、3
    d、4

10、下图是使用主成分分析法对iris数据集进行特征降维并进行二维平面可视化的结果。则为了绘图,需要使用的导入语句是下面哪一种?
    a、import matplotlib.pyplot as plt
    b、from sklearn.decomposition import pca
    c、from sklearn.lda import lda
    d、import numpy as np

11、下列关于梯度下降(gradient descent )法的描述错误的是
    a、梯度下降是利用一阶的梯度信息找到代价函数局部最优解的一种方法
    b、通常会先初始化一组, 在这个值之上,用梯度下降法去求出下一组的值。由于是梯度下降的,所以损失函数 ()的值在下降。当迭代到一定程度, ()的值趋于稳定,此时的即为要求得的值
    c、学习速率的选取很关键,如果学习速率取值过大,容易达不到极值点甚至会发散,学习速率太小容易导致收敛时间过长
    d、其中的学习速率是模型参数,而不是超参数

12、下面的一段python程序是使用scikit-learn来构建线性回归模型,其中最后一条语句的目的是得到x_test的预测结果,则空格内应该填入的函数为 from sklearn.linear_model import linearregression x = [[6, 2], [8, 1], [10, 0], [14, 2], [18, 0]] y = [[7], [9], [13], [17.5], [18]] model = linearregression() model.fit(x, y) x_test = [[8, 2], [9, 0], [11, 2], [16, 2], [12, 0]] y_test = [[11], [8.5], [15], [18], [11]] predictions = model. (x_test)
    a、predict
    b、get
    c、pred
    d、learn

13、下列关于逻辑回归的描述错误的是
    a、线性回归的结果输出通常是一个连续值,值的范围是无法限定的。逻辑回归通过使用sigmoid函数将其转为(-1,1) 的一个概率值,从而能够完成对事件发生的概率进行预测
    b、逻辑回归可以被理解为是一个被logistic方程归一化后的线性回归
    c、逻辑回归属于连接函数为sigmoid函数的广义线性模型
    d、sigmoid 函数有个很漂亮的“s”形,特点是一开始变化快,逐渐减慢,最后饱和。

14、在scikit-learn中,如何处理多类分类(multi-class classification)问题?
    a、scikit-learn无法实现多类分类
    b、scikit-learn只能用one-vs.-all实现多类分类
    c、scikit-learn只能用one-vs.-the-rest方法实现多类分类
    d、scikit-learn可以使用one-vs-one或one-vs.-the-rest方法实现多类分类,即将多类分类问题转化为构建若干个两类的分类器

15、下图是哪种函数的曲线?
    a、sigmoid
    b、tanh
    c、elu
    d、relu

16、下图为使用 matplotlib.pyplot 绘制的图形,则其中的五个数据点是采用哪个函数绘制的?
    a、scatter
    b、plot
    c、draw
    d、point

17、下面关于相对熵(relative entropy) 的说法不正确的是
    a、相对熵又称为kl散度(kullback–leibler divergence)
    b、相对熵又称为信息散度(information divergence)
    c、相对熵又称为信息增益(information gain)
    d、相对熵又被称之为kl距离,因此满足对称性

18、下面关于js散度和kl散度的区别的说法错误的是
    a、kl散度不具对称性
    b、js散度具备对称性
    c、js散度在kl散度的基础上进行了改进
    d、二者都不具备对称性

19、关于感知机(perceptron),下列说法错误的是
    a、感知机由rosenblatt于1957年提出,是神经网络的基础
    b、感知机是二分类的线性分类模型,属于有监督学习算法
    c、感知机是二分类的线性分类模型,属于无监督学习算法
    d、感知机的预测是用学习得到的感知机模型对新的实例进行预测的,因此属于判别模型

20、下图是信息熵相关概念的文氏图解,其中左侧圆 (既包括红色也包括紫色的区域)为变量x自身的熵h(x)。其中红色区域为条件熵conditional entropy h(x|y)。右侧圆(既包括蓝色也包括紫色的区域)为变量y自身的熵h(y), 其中蓝色区域为条件熵conditional entropy h(y|x)。则中间的紫色的区域为?
    a、交叉熵
    b、联合熵
    c、互信息
    d、相对熵

21、对于下面的一段python程序,下面的说法错误的是 import numpy as np p=np.asarray([0.65,0.25,0.07,0.03]) q=np.array([0.6,0.25,0.1,0.05]) kl1=np.sum(p*np.log(p/q)) kl2=np.sum(q*np.log(q/p))
    a、程序最后两行的计算结果是相等的
    b、程序最后两行的计算结果是不相等的
    c、程序最后两行的的目的是计算相对熵,其是交叉熵与信息熵的差值
    d、程序的目的是计算相对熵,其不具备对称性

22、下列关于反向传播(backpropagation)算法的描述中,错误的是
    a、反向传播算法的学习过程由正向传播过程和反向传播过程组成,不存在迭代过程
    b、在正向传播过程中,输入信息通过输入层经隐含层,逐层处理并传向输出层。
    c、如果经过正向传播,在输出层得不到期望的输出值,则利用输出与期望计算目标函数(损失函数),转入反向传播。
    d、反向传播需要逐层求出目标函数对各神经元权值的偏导数,构成目标函数对权值向量的梯度,作为修改权值的依据。在机器学习中,训练数据通常是给定和固定的,而权重参数等是作为变量并进行更新的。

23、对于下面的一段python程序,下面的说法正确的是 import numpy as np p=np.asarray([0.65,0.25,0.07,0.03]) q=np.array([0.6,0.25,0.1,0.05]) m=(p q)/2 result=0.5*np.sum(p*np.log(p/m)) 0.5*np.sum(q*np.log(q/m))
    a、最后一行是计算p和q之间的kl散度
    b、最后一行是计算p和q之间的js散度
    c、最后一行是计算p和q之间的条件熵
    d、最后一行是计算p和q之间的交叉熵

24、对于下面的一段python程序,下面的说法正确的是 import numpy as np predicted=np.array([11.2, 2.5, 7.9, 7.2]) label=np.array([1, 0, 0, 0]) def softmax(x): return np.exp(x)/np.sum(np.exp(x),axis=0) print (softmax(predicted)) loss=-np.sum(label*np.log(softmax(predicted)))
    a、最后一行是计算predicted和label之间的互信息
    b、最后一行是计算predicted和label之间的js散度
    c、最后一行是计算predicted和label之间的条件熵
    d、最后一行是计算predicted和label之间的交叉熵

25、于给定的下面的一段python程序。已知=∙,且w为参数矩阵,x为样本矩阵,则空格中应该填入的数值是 import numpy as np # 正向传播 w = np.random.randn(5, ) x = np.random.randn(10, 2) d = w.dot(x)
    a、10
    b、5
    c、2
    d、1

26、下列关于循环神经网络rnn (recurrent neural networks)说法错误的是
    a、隐藏层之间的节点有连接
    b、隐藏层之间的节点没有连接
    c、隐藏层的输入不仅包括输入层的输出,还包括上一时刻隐藏层的输出
    d、网络会对之前时刻的信息进行记忆并应用于当前输出的计算中

27、下列说法错误的是
    a、标准rnn隐藏层只有一个状态h,对短期输入敏感,但难以捕捉长期上下文
    b、lstm在隐藏层上增加了一个长期状态c (cell state),用于保存长期状态。c也被称为单元状态或细胞状态。
    c、lstm只有长期状态,没有隐藏状态
    d、lstm既有长期状态,也有隐藏状态

28、lstm 通过“门”结构来去除或者增加信息到细胞状态(长期状态)。为了让信息选择性通过,
    a、一般需要一个 sigmoid 神经网络层和一个 pointwise 乘法操作
    b、一般需要一个 sigmoid 神经网络层和一个 pointwise 加法操作
    c、一般需要一个 tanh 神经网络层和一个 pointwise 乘法操作
    d、一般需要一个 tanh 神经网络层和一个 pointwise 加法操作

29、下列关于注意力机制的描述正确的是
    a、注意力机制只能应用于计算机视觉领域,目前在文本处理中没有应用案例
    b、注意力机制只能应用于文本分类,无法应用在计算机视觉等领域
    c、注意力机制是一种通用的思想,本身并不依赖于特定框架
    d、注意力机制只能应用在循环神经网络框架中,无法在其它深度学习框架中应用

30、下图给出了lstm中各个状态及其三种门的关系。则其中需要用到乘法门的是
    a、lstm中忘记门和输入门要用到乘法门
    b、lstm中输入门和输出门要用到乘法门
    c、lstm中只有输出门要用到乘法门
    d、lstm中忘记门和输出门要用到乘法门

31、下面关于计算lstm中的忘记门的描述错误的是:
    a、忘记门层 的任务是从当前输入中“忘记”信息
    b、忘记门的输入为ℎ−1 和 ,输出的矩阵中每个元素为 0 到 1 之间的数值
    c、忘记门的输出要与长期状态矩阵−1中的每个对应位置元素相乘
    d、忘记门的输出中1 表示“完全保留”,0 表示“完全舍弃”。

32、14. 对于如下的输入图像及其经过卷积处理过的输出,其卷积核更有可能是哪一种?
    a、-1 -1 -1 -1 8 -1 -1 -1 -1
    b、0 -1 0 -1 5 -1 0 -1 0
    c、1/9 1/9 1/9 1/9 1/9 1/9 1/9 1/9 1/9
    d、0 0 0 0 0 0 0 0 0

33、下列关于递归神经网络rnn (socher et al., 2011),错误的是
    a、每个词通常初始化表示为一个d维的向量。由一个随机均匀分布随机采样生成
    b、所有的词向量被存储在一个词嵌入矩阵中。随着训练的进行,该矩阵将被视为一种参数,因此会被学习调整
    c、不同长度和句法类型的句子其组合词向量的维度都不同
    d、树结构基于句法分析器生成

34、下面的曲线是哪种激活函数?
    a、sigmoid
    b、tanh
    c、relu
    d、maxout

35、在卷积神经网络lenet-5的卷积层c3得到的特征图为16个,上一层的特征图为6个。则关于这一卷积过程的描述错误的是
    a、c3卷积层中每个特征图只与上一层s2中部分特征图相连接
    b、c3卷积层采用多通道16核卷积
    c、c3卷积层有16个卷积核,其大小均为5*5,且每个卷积核与上一层的若干特征图相连接
    d、c3卷积层有16个卷积核,其大小均为5*5,且每个卷积核与上一层的全部特征图相连接

36、下面两个图分别是生成对抗网络中判别器训练阶段和生成器阶段的原理图,则 图1 图2
    a、图1是训练判别器
    b、图1是训练生成器
    c、图2是训练判别器
    d、图2是训练生成器

37、对于文本“i like to eat apple”,则下列关于n-gram的描述正确的是
    a、其uni-gram为“i”,“like”, “to”,“eat”,“apple”
    b、其bi-gram为“i like”,“like to”, “to eat”,“eat apple”
    c、其tri-gram为“i like to”,“like to eat”, “to eat apple”
    d、其它答案都不对

38、为了求解使得线性回归误差平方和最小的参数,则下列说法中正确的是
    a、只能用矩阵解法
    b、只能用梯度下降法
    c、梯度下降法是一种迭代求解方法
    d、常见的解法有矩阵解法和梯度下降方法等。

39、下列关于长短期记忆网络lstm的描述正确的是
    a、既然有了长期状态c,就不再需要隐藏状态h了
    b、长期状态c和隐藏状态h都需要被用到
    c、在计算当前时刻的输出时,直接利用到的是隐藏状态h
    d、在计算当前时刻的输出时,直接利用到的是长期状态c

40、对于卷积神经网络lenet-5,往往要进行多次卷积、降采样的处理。下列说法正确的是
    a、经过卷积处理,生成的特征图(feature map)的数目一定和处理前的图像的数目相同
    b、经过卷积处理,生成的特征图(feature map)的数目一定和处理前的图像的数目不相同
    c、经过卷积处理,生成的特征图(feature map)的数目可能和处理前的图像的数目相同,也有可能不相同
    d、经过降采样处理,生成的特征图(feature map)的数目通常和处理前的图像的数目相同

41、在神经网络中,以下哪种技术可以用于抑制过拟合?
    a、dropout
    b、正则化
    c、尽量增加选取特征变量的数量
    d、尽可能选用复杂的模型

42、下列关于自动编码器auto encoder的描述正确的是
    a、自动编码器常用于做生成模型
    b、自动编码器不需要任何训练数据,完全是自动编码
    c、自动编码器可以用于数据的降维处理
    d、自动编码器学习到的新特征可以送入有监督学习模型中,所以自动编码器可以起到特征提取器的作用。

43、测试集(testing set)用于最终报告模型的评价结果,因此在训练阶段测试集中的数据可以出现在训练集中

44、假设测试数据集中共计有70个正类样本,30个负类样本。且某次分类结果如下表所示(表中各项的含义如表下方的注释所示)。则分类的精确率是 (要求:用小数表示,且保留小数点后两位)? 实 际 类 别 预测类别 正例 负例 总计 正例 tp=40 fn=30 p(实际为正例)=70 负例 fp=10 tn=20 n(实际为负例)=30 表中数据项的含义: true positives(tp): 被正确地划分为正例的个数,即实际为正例且被分类器划分为正例的实例数(样本数); false negatives(fn):被错误地划分为负例的个数,即实际为正例但被分类器划分为负例的实例数; false positives(fp): 被错误地划分为正例的个数,即实际为负例但被分类器划分为正例的实例数; true negatives(tn): 被正确地划分为负例的个数,即实际为负例且被分类器划分为负例的实例数。

45、下面的一段python程序是计算并输出y_true和y_pred之间的平均绝对误差,即mae,则其中print语句的输出结果为 (要求:用小数表示,且保留小数点后两位)。 from sklearn.metrics import mean_absolute_error y_true = [3, -0.5, 2, 7] y_pred = [2.5, 0.0, 2, 9] print (mean_absolute_error(y_true, y_pred))

期末考试

备案号: 凯发娱乐官网的版权所有 凯发k8一触即发 copyright © 2012-2023 凯发k8一触即发-凯发娱乐官网 all rights reserved. sitemap

网站地图