黑龙江面试热点

首页 > 国家公务员考试 > 试题资料 > 面试热点

国考面试热点:请你说说数据挖掘的步骤

黑龙江华图教育 | 2023-05-18 10:04

收藏

  现在人民银行及一些金融机构使用数据挖掘技术来帮助做出工作决策,请你说说数据挖掘的步骤。

  参考解析:

  数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计 算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的 经验法则)和模式识别等诸多方法来实现上述目标。数据挖掘的步骤如下:

  (1)定义问题。在开始知识发现之前最先的也是最重要的要求就是了解数据和业务问 题。必须要对目标有一个清晰明确的定义,即决定到底想干什么。比如,想提高电子信箱的 利用率时,想做的可能是“提高用户使用率”,也可能是“提高一次用户使用的价值”,要 解决这两个问题而建立的模型几乎是完全不同的,必须做出决定。

  (2)建立数据挖掘库。建立数据挖掘库包括以下几个步骤:数据收集,数据描述,选 择,数据质量评估和数据清理,合并与整合,构建元数据,加载数据挖掘库,维护数据挖掘 库。

  (3)分析数据。分析的目的是找到对预测输出影响最大的数据字段,和决定是否需要 定义导出字段。如果数据集包含成百上千的字段,那么浏览分析这些数据将是一件非常耗时 和累人的事情,这时需要选择一个具有好的界面和功能强大的工具软件来协助你完成这些事 情。

  (4)准备数据。这是建立模型之前的最后一步数据准备工作。可以把此步骤分为四个 部分:选择变量,选择记录,创建新变量,转换变量。

  (5)建立模型。建立模型是一个反复的过程。需要仔细考察不同的模型以判断哪个模 型对面对的商业问题最有用。先用一部分数据建立模型,然后再用剩下的数据来测试和验证 这个得到的模型。有时还有第三个数据集,称为验证集,因为测试集可能受模型的特性的影 响,这时需要一个独立的数据集来验证模型的准确性。训练和测试数据挖掘模型需要把数据 至少分成两个部分,一个用于模型训练,另一个用于模型测试。

  (6)评价模型。模型建立好之后,必须评价得到的结果、解释模型的价值。从测试集 中得到的准确率只对用于建立模型的数据有意义。在实际应用中,需要进一步了解错误的类 型和由此带来的相关费用的多少。经验证明,有效的模型并不一定是正确的模型。造成这一 点的直接原因就是模型建立中隐含的各种假定,因此,直接在现实世界中测试模型很重要。 先在小范围内应用,取得测试数据,觉得满意之后再向大范围推广。

  (7)实施。模型建立并经验证之后,可以有两种主要的使用方法。第一种是提供给分 析人员做参考;另一种是把此模型应用到不同的数据集上。

hot图书教材及网络课程名称 数量 价格 点击购买 展示
2024版国家公务员录用考试专用教材(行测+申论)教材2本 2本 45元 点击购买
全新上市】2024第18版公务员考试行测+申论5100题12本 12本 253元 点击添加
第17版公务员考试行测申论5100题库+模块宝典 20本 5100题 241元 点击购买
第3版精选易错1200题+申论真题批改66例 1200题 29-239元 点击购买
2023版国家公务员考试精华版4本套(教材+历年) 4套 59元 点击购买
2024版公务员录用考试模块宝典 6本 109元 点击购买

分享到

微信咨询

微信中长按识别二维码 咨询客服

全部资讯

copyright ©2006-2020 华图教育版权所有