当前位置: 首页 > >

基于数据挖掘技术的读者信息推送系统结构设计

发布时间:

基于数据挖掘技术的读者信息推送系统结构设计 摘要 本文基于关联规则算法的数据挖掘技术,对图书馆读者信息推送系统 的结构进行了设计。系统目标为针对图书馆中日常产生的相关数据进行数据挖 掘,为图书馆信息推送提供参考和决策支持,为系统的详细设计做好准备。 关键词 数据挖掘;关联规则;信息推送;系统设计 图书馆日常的读者借阅活动中, 读者的借阅行为在图书馆信息管理系统中积 累了大量的数据。但是,这些事务性的数据并没有发挥其应有的价值。这些数据 的功能现阶段只是停留在简单的读者借阅历史查询上,没有经过加工、整理及应 用。除此之外,读者在使用图书检索系统的过程中,有着大量的检索行为,这些 检索行为也产生了大量的数据。 如何利用这些海量的数据为读者提供更优质的服 务就成了我们研究的重点之一。 本文的研究重点是基于图书馆日常的读者服务数据, 通过使用数据挖掘的手 段, 分析读者的信息使用情况, 最后提出一个可以为读者个性化信息推送提供参 考的具体方案, 借以有效提高高校图书馆的读者服务质量,提高图书馆的读者服 务水*。鉴于系统整体比较庞大,因此本文只是讨论系统的总体结构设计,以为 将来系统的详细设计做好准备。 1 系统目标 在图书馆提供信息服务的过程中,涉及的读者类型丰富,涉及的馆藏资源庞 杂。系统的设计目标是为图书馆为读者提供个性化的信息推送服务提供辅助支 撑。因此,系统的设计主要以“向特定的读者,推送特定的信息”为最终目标。 信息推送的过程中, 涉及到的信息很多。系统的设计过程中不可能做到面面 俱到,因此,本系统的设计目标主要完成以下特定目标: 1)获取读者信息,提供读者服务。根据读者的条码号,找出读者的类型和 使用*惯。 利用数据挖掘的技术手段向读者提供特定的有效信息。当读者用自己 的证件号登陆书目查询系统、数据库检索系统时,可以判定读者身份,根据读者 身份及读者信息使用*惯向读者推送相关信息资源,包括图书资源、期刊资源、 电子数据库资源等; 2)分析入藏资源,制定推送计划。对于新入藏的信息资源,根据信息资源 的特点,向特定的读者群提供信息推送服务。比如,当图书馆新到一批图书时, 将新书书目中的部分图书推送给特定的读者群; 3)收集检索历史,优化资源配置。根据用户的书目检索历史记录,用户的 数字资源检索记录等读者利用图书馆信息资源的情况, 结合本馆的信息资源配置 情况,调整图书馆的资源配置,如藏书配置、资源购置分配。专业信息建设计划 等,扩大图书馆信息服务的满意度。 根据前文所述系统目标, 系统的核心是利用相关馆藏数据及读者使用文献情 况数据来服务读者信息推送工作。根据系统的输入和输出,将系统划分成数据接 口模块、数据预处理模块、数据挖掘模块、用户接口模块共四个模块,每一层模 块为上一层模块提供数据支持。 2 主要功能模块 在图书馆的实际应用中, 伴随着图书馆的文献资源建设和图书馆的读者信息 服务,会产生相当多的数据。但是,这些数据种类繁多。从数据的分布上,数据 分布在不同服务器,不同*台,不同的数据库中;从数据的存储结构看,数据类 型,数据库中相关数据的分布也不尽相同。因此,系统首先通过数据连接模块将 这些数据进行整合,然后通过数据预处理手段,将数据规范化,解决异构问题, 将数据统一到信息推送数据库中。最后,通过数据挖掘的手段,使用关联规则算 法,得到相关的关联规则。用户接口模块利用这些规则,完成系统的既定目标。 各模块的功能具体如下: 1)数据接口模块 作为最底层的模块, 数据连接模块的功能,是对上层的预处理模块屏蔽底层 数据库的连接细节, 使得上层模块在进行数据库读写操作时,可以使用统一的接 口和语法。 目的是将上层模块从繁琐的数据连接中解脱出来,从而可以把精力放 在具体的事务处理上, 简化了数据预处理模块的结构,同时提高了系统的可维护 性和扩展性,扩充新的数据源类型时,只要修改数据连接模块就可以了。 数据接口模块,向下,通过.net 框架中的类,使用 OleDbConnection,SQL connection 等连接 Oracle、SQL Server 等数据库,向上,为数据预处理模块提供 统一的接口。 2)数据预处理模块 高质量的决策必然依赖于高质量的数据。数据预处理模块的功能是,在实施 数据挖掘以前,利用数据连接层提供的数据,及时检测数据异常,尽早调整数据 并规约待分析数据。为下面的数据挖掘工作提供干净、准确、简洁的数据。数据 预处理模块通过对数据的清洗、集成、变换、简化操作后,将处理完成的数据导 入读者信息推送服务数据库中,为数据挖掘工作做好准备。其基本流程如下: (1)数据预处理模块首先利用数据连接模块从相关的数据库中抽取读者信 息服务可以使用的数据表。 因为各个数据库中的数据表有很多,但是可以为读者 信息推送服务的数据表的数量是有限的,因此,数据预处理的第一步,就是将这 些数据表从各个数据库中抽取出来,准备处理; (2)从各个数据库中抽取出的工作表是各种结构杂乱的源数据。对于这些 结构杂乱的源数据首先进行清洗, 数据清洗的目的是除去源数据中的噪声数据和 无关数据,处理遗漏数据和清洗脏数据,去除空白数据域的知识背景上的噪声, 考虑时间顺序和数据变化等。主要包括处理噪声数据、处理空值、纠正不一致数 据、更正明显的输入错误数据等; (3)经过清洗的各种数据仍然是各个不同数据环境中的异构数据。数据预 处理的工作接下来是对这些数据的合并处理, 将多个数据源中的数据结合起来存 放在一个一致的数据存储中。同时,在数据集成的过程中除去冗余数据; (4)用于数据挖掘的各种数据在经过数据集成之后,需要将数据变换或统 一成适合挖掘的形式。 经过系统集成后的数据虽然在构造上是统一的,但是如果 需要为数据挖掘提供数据支持,很多数据是不合适的。比如高度离散化的数据, 必须通过重新分类离散的方式,将离散度降低。为后面的数据挖掘做好准备;



友情链接: