学校 ________________ 班级 ____________ 姓名 ____________ 考场 ____________ 准考证号 ………………………… 密…………封…………线…………内…………不…………要…………答…………题…………………………北京化工大学《数据挖掘分析》2023-2024 学年第一学期期末试卷题号一二三四总分得分批阅人一、单选题(本大题共 25 个小题,每小题 1 分,共 25 分.在每小题给出的四个选项中,只有一项是符合题目要求的.)1、网络爬虫在抓取大量数据时,可能会对目标网站的服务器造成压力。假设要减少对服务器的影响。以下关于减轻服务器压力的描述,哪一项是不正确的?( )A. 遵循网站的访问规则和建议,如 robots.txt 中的 Crawl-delay 指令B. 对抓取到的数据进行本地缓存,减少对服务器的重复请求C. 可以使用分布式爬虫,将请求分散到多个服务器上,减轻单个服务器的压力D. 为了尽快完成抓取任务,无需考虑服务器的压力,尽可能多地发送请求2、在网络爬虫爬取网页时,需要考虑如何处理网页中的链接。假设一个网页包含大量的链接,有的链接指向相关内容,有的是广告或无关页面。以下哪种链接处理策略可能更有效?( )A. 只爬取与主题相关的链接,过滤掉无关链接B. 爬取所有链接,然后在后续处理中筛选数据C. 随机选择一部分链接进行爬取D. 不处理链接,只获取当前页面的内容3、在网络爬虫的开发中,需要处理网页中的链接以决定是否继续爬取。假设遇到一个包含大量无关链接的网页,为了提高爬虫的效率和针对性,以下哪种链接筛选策略是最为有效的?( )A. 随机选择一部分链接进行爬取B. 只爬取与主题相关的特定类型的链接C. 爬取所有链接,后期再筛选数据D. 按照链接的出现顺序依次爬取4、网络爬虫在抓取网页时,需要处理不同的页面布局和结构。假设一个网站的页面结构经常变化,以下关于页面解析的方法,哪一项是最灵活的?( )A. 使用固定的 HTML 解析库,根据预设的规则提取数据B. 基于机器学习的方法,自动学习页面的结构和数据模式C. 人工编写针对每个页面的解析代码D. 放弃抓取该网站,寻找结构稳定的数据源5、在网络爬虫的错误处理机制中,需要考虑各种可能的异常情况。假设爬虫在运行过程中遇到网络连接中断、网页解析错误等问题。以下关于错误处理的描述,哪一项是错误的?()A. 对常见的错误进行分类和捕获,记录详细的错误日志,便于后续分析和排查第 1 页,共 7 页学校 _______...