学校 ________________ 班级 ____________ 姓名 ____________ 考场 ____________ 准考证号 ………………………… 密…………封…………线…………内…………不…………要…………答…………题…………………………河北石油职业技术大学《大数据技术与应用》2023-2024 学年第一学期期末试卷题号一二三四总分得分一、单选题(本大题共 20 个小题,每小题 2 分,共 40 分.在每小题给出的四个选项中,只有一项是符合题目要求的.)1、在大数据分析中,数据清洗是一个关键步骤。假设我们有一个包含大量客户信息的数据集,其中存在缺失值、错误数据和重复记录。以下哪种方法在处理缺失值时最为常用且有效( )A. 直接删除包含缺失值的记录B. 用平均值或中位数填充缺失值C. 根据其他相关字段的值来推测缺失值D. 对缺失值不做任何处理,直接进行分析2、在大数据分析中,特征工程是重要的一步。以下关于特征选择和特征提取的描述,哪一项是错误的?( )A. 特征选择是从原始特征中选择出有价值的特征,特征提取是通过某种变换生成新的特征B. 特征选择可以降低数据维度,特征提取可以提高数据的可解释性C. 主成分分析是一种特征提取方法,互信息是一种特征选择方法D. 特征选择和特征提取的目的都是为了提高模型的性能3、在大数据处理流程中,数据采集是第一步。以下关于数据采集方法的叙述,不正确的是( )A. 系统日志采集是通过对信息系统产生的日志进行收集和分析B. 网络爬虫可以从互联网上抓取大量的数据C. 传感器数据采集主要用于获取物理世界中的实时数据D. 手工录入是最常用且高效的数据采集方式,适用于大规模数据采集4、大数据分析方法包括描述性分析、预测性分析、规范性分析等,以下关于大数据分析方法的描述中,错误的是( )。A.描述性分析用于描述数据的特征和分布 B.预测性分析用于预测未来的趋势和事件 C.规范性分析用于制定最优的决策和行动方案 D.大数据分析方法只适用于大规模数据的分析,不适用于小规模数据的分析5、当处理大数据中的流数据时,需要考虑数据的实时处理和窗口操作。假设要对一个实时的股票交易数据流进行分析,计算每分钟的平均交易价格。以下哪种窗口操作最适合这个任务?( )A. 滑动窗口B. 滚动窗口C. 会话窗口第 1 页,共 6 页学校 ________________ 班级 ____________ 姓名 ____________ 考场 ____________ 准考证号 ………………………… 密…………封……...