小柯毕业论文网专业从事毕业论文代写及发表服务网站 包括:代写硕士论文,代写毕业论文,代写本科毕业论文,论文发表等,为您解后顾之忧.
当前位置:小柯毕业论文网免费论文行政论文行政管理论文 → 数据挖掘在政府信息系统设计中的应用研究

本类热门阅览

站长推荐

数据挖掘在政府信息系统设计中的应用研究

减小字体 增大字体 作者:郭理桥    来源:www.bob123.com  发布时间:最新发布
数据挖掘在政府信息系统设计中的应用研究是小柯论文网通过网络搜集,并由本站工作人员整理后发布的,数据挖掘在政府信息系统设计中的应用研究是篇质量较高的学术论文,供本站访问者学习和学术交流参考之用,不可用于其他商业目的,数据挖掘在政府信息系统设计中的应用研究的论文版权归原作者所有,因网络整理,有些文章作者不详,敬请谅解,如需转摘,请注明出处小柯论文网,如果此论文无法满足您的论文要求,您可以申请本站帮您代写论文,以下是正文。

【摘要】随着电子政务的蓬勃发展,政府部门内部及政府部门之间产生了大量政务信息。如何准确、有效地从这些数据中提取有价值的信息就成为目前电子政务的一个重要问题。本文重点阐明了采用数据挖掘技术来监控与管理日益复杂的交换平台。对研究数据挖掘在电子政务中的实际应用具有定的借鉴作用和推广意义。

【关键词】数据挖掘 数据仓库 电子政务

1、引言

随着网络技术和数据库技术的飞速发展,政府的信息化进程正在逐渐加快。政府信息化,就是指政府行政管理方式、内容和手段的数字化、网络化和智能化。当今,人们对政府和职能部门高效运转的要求越来越高,政府重塑理论和新公共管理理论也在逐渐发展。电子政务自产生后就得到了快速发展并且迅速成为支持政府从传统的管理方式向新型管理体系转变的重要技术保证。电子政务的核心是利用信息技术优化提高行政效率,实现行政和日常事务的优化,建立政府、社会和公众之间的有机互动。经过最近几年电子政务基础资源的大规模建设,海量政务信息资源挖掘和电子政务知识管理等深层次应用正逐步进入电子政务舞台,对电子政务实施数据挖掘将成为政府信息化的一个新的研究方向。

2、数据挖掘理论概述

数据挖掘( Data Mining)又称数据库中的知识发现,是指从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程。对信息和知识的需求来自各行各业,从商业管理、生产控制、市场分析到工程设计、科学探索等,数据挖掘作为一个新兴的多学科交叉应用领域,正在各行各业的决策支持活动中扮演着越来越重要的角色。

2.1、数据挖掘过程

数据挖掘的工作过程从技术上可分为:数据的归集、数据的存储和管理、数据的展现等关键技术。

(1)数据的归集:数据的归集是数据进入仓库的入口。由于数据仓库是一个独立的数据环境,它需要通过归集过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入数据仓库。数据归集在技术上主要涉及互连、复制、增量、转换、调度和监控等方面的处理。在数据归集方面,未来的技术发展将集中在系统功能集成化方面,以适应数据仓库本身或数据源的变化,使系统更便于管理和维护。

(2)数据的存储和管理:数据仓库的组织管理方式决定了它有别于传统数据库的特性,也决定了其对外部数据的表现形式。数据仓库管理所涉及的数据量比传统事务处理大得多,且随时间的推移而快速累积。在数据仓库的数据存储和管理中需要解决的是如何管理大量的数据、如何并行处理大量的数据、如何优化查询等。

(3)数据的展现:在数据展现方面主要的方式有:

查询:实现预定义查询、动态查询、OLAP查询与决策支持智能查询;

报表:产生关系数据表格、复杂表格、OLAP表格、报告以及各种综合报表;

可视化:用易于理解的点线图、直方图、饼图、网状图、交互式可视化、动态模拟、计算机动画技术表现复杂数据及其相互关系;

统计:进行平均值、最大值、最小值、期望、方差、汇总、排序等各种统计分析;

挖掘:利用数据挖掘等方法,从数据中得到关于数据关系和模式的知识。

从数据分析的角度,数据挖掘实现的功能可以分为:描述式数据挖掘和预测式数据挖掘。描述式数据挖掘以简捷概要的方式描述数据,预测式数据挖掘则通过分析建立模型并试图预测新数据集的行为。

2.2、数据预处理

数据预处理是数据挖掘过程中第一个重要处理步骤,涉及数据清洗、数据集成、数据转换和数据消减等主要处理方法。

数据清洗,主要用于填补数据记录中(各属性)的遗漏数据,识别异常数据,以及纠正数据中的不一致问题。数据集成,主要用于将来自多个数据源的数据合并到一起并形成完整的数据集合。数据转换,主要用于将数据转换成适合数据挖掘的形式。如:规格化数据处理。数据消减,主要方法包括:数据立方合计、维度消减、数据压缩、数据块消减和离散化。这些方法主要用于在保证原来数据信息内涵减少最小化的同时对原来数据规模进行消减,并提出一个简洁的数据表示。

2.3、数据挖掘中的关联规则

数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联规则挖掘就是从大量的数据中挖掘出有价值描述数据项之间相互联系的有关知识。随着收集和存储在数据库中的数据规模越来越大,人们对从这些数据中挖掘相应的关联知识越来越有兴趣。关联规则挖掘过程主要包含两个阶段:第一阶段必须先从资料集合中找出所有的高频项目组(Frequentltemsets),第二阶段再由这些高频项目组中产生关联规则(Association Rules)。关联规则挖掘的相关算法主要有:Apriori算法、基于划分的算法、FP-树频集算法。近年来大量研究从不同的角度对关联规则做了扩展,将更多的因素集成到关联规则挖掘方法之中,以此丰富关联规则的应用领域,拓宽支持管理决策的范围。

2.4、数据挖掘中的聚类分析

聚类( Clustering)是一个将数据集划分为若干组( class)或类(cluster)的过程,并使得同一个组内的数据对象具有较高的相似度;而不同组中的数据对象是不相似的。相似或不相似的描述是基于数据描述属性的取值来确定的。聚类分析所涉及的领域包括:数据挖掘、统计学、机器学习、空间数据库技术、生物学和市场学等。聚类分析是数据挖掘中的一个很活跃的研究领域,已提出的聚类算法可以被分为划分方法、层次方法、基于密度方法、基于网格方法和基于模型方法。

由于各应用数据库所包含的数据量越来越大,聚类分析已成为数据挖掘研究中一个非常活跃的研究课题,以下就是对数据挖掘中的聚类分析的一些典型要求:

(l)可扩展性。许多聚类算法在小数据集(少于200个数据对象)时可以工作很好;但一个大数据库可能会包含数以百万的对象。利用采样方法进行聚类分析可能得到一个有偏差的结果,这时就需要可扩展的聚类分析算法。

(2)处理不同类型属性的能力。许多算法是针对基于区间的数值属性而设计的。但是有些应用需要对其它类型数据,如:二值类型、符号类型、顺序类型,或这些数据类型的组合。

(3)发现任意形状的聚类。许多聚类算法是根据欧氏距离和Manhattan距离来进行聚类的。基于这类距离的聚类方法一般只能发现具有类似大小和密度的圆形或球状聚类。而实际上一个聚类是可以具有任意形状的,因此设计出能够发现任意形状类集的聚类算法是非常重要的。

(4)处理噪声数据的能力。大多数现实世界的数据库均包含异常数据、不明数据、数据丢失和噪声数据,有些聚类算法对这样的数据非常敏感并会导致获得质量较差的数据。

(5)高维问题。一个数据库或一个数据仓库或许包含若干维或属性。许多聚类算法在处理低维数据时(仅包含二到三个维)时表现很好。人的视觉也可以帮助判断多至三维的数据聚类分析质量。然而设计对高维空间中的数据对象,特别是对高维空间稀疏和怪异分布的数据对象,能进行较好聚类分析的聚类算法已成为聚类研究中的一项挑战。

(6)基于约束的聚类。现实世界中的应用可能需要在各种约束之下进行聚类分析。假设需要在一个城市中确定一些新加油站的位置,就需要考虑诸如:城市中的河流、高速路,以及每个区域的客户需求等约束情况下居民住地的聚类分析。设计能够发现满足特定约束条件且具有较好聚类质量的聚类算法也是一个重要聚类研究任务。

(7)可解释性和可用性。用户往往希望聚类结果是可理解的、可解释的,以及可用的。这就需要聚类分析要与特定的解释和应用联系在一起。因此研究一个应用的目标是如何影响聚类方法选择也是非常重要的

[1] [2]  下一页

本站关键词:毕业论文此论文来源于 小柯论文网 http://www.bob123.com
 
代写论文,8年品质,包通过包修改