学校 ________________ 班级 ____________ 姓名 ____________ 考场 ____________ 准考证号 ………………………… 密…………封…………线…………内…………不…………要…………答…………题…………………………天津医科大学《大数据处理与智能决策》2023-2024 学年第一学期期末试卷题号一二三四总分得分批阅人一、单选题(本大题共 25 个小题,每小题 1 分,共 25 分.在每小题给出的四个选项中,只有一项是符合题目要求的.)1、在利用大数据进行客户细分时,以下哪种方法可以自动确定细分的类别数量?( )A. K-Means 聚类B. 层次聚类C. 密度聚类D. 以上都不行2、当对大数据进行数据清洗和预处理时,为了处理缺失值,以下哪种方法较为常见?( )A. 删除包含缺失值的记录 B. 用平均值填充缺失值 C. 用中位数填充缺失值 D. 基于模型预测缺失值3、当使用大数据技术进行用户画像构建时,需要整合多个数据源的信息。以下哪种数据源对于了解用户的兴趣爱好最为关键?( )A. 用户的浏览历史B. 用户的地理位置C. 用户的社交关系D. 用户的设备信息4、在大数据存储中,列式存储和行式存储各有优缺点。以下关于列式存储和行式存储的比较,不准确的是( )A. 列式存储适合于批量数据读取和分析,行式存储适合于频繁的单行数据更新B. 列式存储能够提高数据压缩比,节省存储空间C. 行式存储在数据查询时的性能优于列式存储D. 列式存储对于只涉及少数列的查询具有优势5、随着大数据技术的发展,新的编程模型不断涌现。假设要开发一个高效的大数据处理应用程序。以下哪种编程模型最适合提高开发效率和程序性能?( )A. 传统的面向过程编程B. 面向对象编程C. 函数式编程D. 基于特定大数据框架的编程模型第 1 页,共 7 页学校 ________________ 班级 ____________ 姓名 ____________ 考场 ____________ 准考证号 ………………………… 密…………封…………线…………内…………不…………要…………答…………题…………………………6、数据清洗是大数据处理中的重要环节,其目的是去除噪声和纠正数据中的错误。以下关于数据清洗的描述,不准确的是( )A. 重复数据删除可以去除数据集中的重复记录B. 缺失值处理通常采用删除含有缺失值的记录或者填充缺失值的方法C. 异常值检测可以通过统计方法或者机器学习算法来实现D. 数据清洗只需要在数据采集阶段进行一次,后续无需再次处理7、在大...