• 教育资源开发关键技术(二)—智能聚合技术、资源动态关联技术

    普通类
    • 支持
    • 批判
    • 提问
    • 解释
    • 补充
    • 删除
    • 一、资源智能聚合技术

    (一)技术介绍

            资源智能聚合技术有RSS(Really Simple Syndication)、Mashup技术,数据挖掘技术、新兴的语义Web(Semantic Web)技术、基于Portlet与Web Service的信息聚合技术等。以上几种资源聚合的技术手段各有特点,RSS技术目前已使用较少,多用于简单、线性的信息推荐;Mashup技术方兴未艾,这种技术在糅合多个网站的信息然后推送给学习者上具有较大的优势;聚类分析则较常用于资源检索结果的处理以及个性化资源推荐上;语义Web技术则具有在技术上前瞻性的优势。

    1.RSS

            智能信息聚合技术是一种具有很强Web2. 0 特征的聚合技术, 它将RSS 技术、人工智能中的机器学习和神经网络、统计学、数据库技术及搜索引擎技术有效融合, 能很好地实现文章自动Tag 和摘要,文章与文章、文章与人、人与人之间的个性化无缝关联, 并提供一整套完整的自然语义短问题匹配搜索、关键词搜索、语义理解及文本挖掘、智能搜索的功能, 彻底解决网站的信息孤岛问题。使用智能信息聚合技术, 不管有多少内容频道, 全部可以面向用户实现频道内容之间的有效整合, 并通过人工智能分析和机制的构建, 对目标进行深度智能分析, 实现面向用户的个性化信息的自动推送, 同时适应用户不断变化的需求, 从而大大提升用户获取有效资讯的效率和质量。

            RSS的发展现状:到目前为止, RSS 共有七种版本, 推荐使用的是 RSS1.0 和 RSS 2.0。RSS已在国内外得到了较为广泛的应用, 从网站的新闻栏目、个人博客及企业站点等都提供基于RSS的服务。当前流行的 RS S 阅读器有一部分是运行在计算机桌面上的应用程序。在这类阅读器中, 国外比较著名的有 Awasu 、 FeedDemon和 RSSReader这三款。国内最近也推出了几款 RSS 阅读器: 新浪点点通、 周博通、 看天下及博阅等。还有一部分是在线的 Web RSS 阅读器, 例如 Google Reader 、 鲜果及抓虾等。在线 RSS阅读器的好处就是, 不需要安装任何软件就可以获得 RS S 阅读的便利, 并且可以保存阅读状态, 推荐和收藏自己感兴趣的文章。

    2.Mashup

            在网络环境下,Mashup的内涵在于整合不同外部数据源的内容和服务, 把松散的学习资源、要素、服务和功能集成在网络学习环境之中, 提供增值的、创新的内容、服务和统一完整体验的Web信息系统。混搭主要是一种理念而不是一种技术,它代表了软件发展的趋势在个人学习环境中,教学平台或学习工具由集中向分布式发展采用混搭方式后,不仅内容是分布的,工具/应用也是分布的 个人学习环境的实质就是根据学习者的需要将学习工具和内容混搭在一起,构成以学习者为中心的个人学习平台。

            Mashup的发展阶段:1. 内容的简单整合阶段。混搭并非新生事物,在互联网的开始阶段,就有混搭的现象,例如将来自不同网站的图片和文字说明显示在同一个网页上。在这个阶段只是将不同来源的资源或是素材简单地拼接在一起,还没有人将混搭作为一个单独的概念提出。2. 内容的动态整合和筛选阶段。自Web 2.0兴起以后,由于RSS Atom RDF等技术/ 协议的大量应用,使得从多个分散的站点获取信息源并组合成新网络内容变得容易。网站间通过标准协议共享结构化的数据,打破了网站间的孤立状况。3. 应用的整合阶段。混搭的进一步发展是由内容的混搭走向应用程序的混搭。新一代的网络应用程序 (网站) 采用混合技术搭建,不同的功能模块与不同的外部系统通过API接口或SOAP,XML- RPC等方式对接。混搭的形式有很多种,既可以是一家服务商把自己的多个产品或多个功能模块,通过各自的API接口,实现统一地服务整合;也可以是服务商搭建一个通用的平台,将其他服务商的服务转化成统一的服务接口,供用户在平台上自由组合调用。

    3.语义网技术

            语义 Web(Semantic Web)的核心思想是对现有万维网上的资源(如 HTML页面)附加能被机器所理解的语义,使互联网成为一个通用的信息交换媒介。 简单地说,Semantic Web 是对当前万维网的扩展,其中的信息被赋予明确的含义,可以使人与电脑之间的更好的协同工作。同现在以 HTML+XML 文档为主构成的 Web 相比,语义 Web 由于强调对网络资源附加可供机器理解和处理的语义信息,一方面使得资源提供的信息更精确,另一方面使得对这些资源的大规模重用和自动处理成为可能,也是实现未来智能型网络的数据基础。

            学习资源的动态语义聚合不是简单的将多个学习资源组成一个资源集,而是通过技术手段将多个语义上具有强逻辑关系的资源按照特定的组织方式自动聚合成资源群(资源集合),且聚合结果不是一成不变的,会随着资源之间关联关系的变化而动态更新和发展。区别于数据挖掘中的文本自动分类或聚类,聚合的目的不是为了进行分类,而是自动生成具有内在逻辑关联的资源结构体。

            语义网的研究现状:

            1.语义网的基础研究主要有以下几个方面:

             (1) 进一步明确了索引的表现形式, 是单独编页码还是沿着正文编,是用阿拉伯数字还是中文。这就是URI的主要研究内容。

             (2) 明确了索引的语法形式,是用图,还是表格或是清单。这就是句法层XML的主要研究内容。

             (3) 明确了索引中项目的相互关系。比如, 主题A是主题B的一个子问题,主题B是主题C的相关问题。这就是资源描述层RDF的主要研究内容。

             (4) 明确了索引中项目的精确意思。这就是本体层Ontology的主要研究内容。主要包括:一是本体的管理( Management) ,本体的主要目的是知识的共享与重用, 因此一个典型的本体库系统要支持开放式的存储与组织、标志和版本化,即开放存储与组织研究本体库如何存储和组织才能便于本体的访问和管理; 标志为每个本体给定一个唯一的标记符;本体是随时间而不断发展的, 所以需要有一个版本机制来保证不同版本本体的一致性。二是本体的适应( Adaptation) ,因为本体随时间而发展, 所以如何扩展和更新现有的本体是一个重要的课题。这包括在本体库中对本体进行搜索、编辑和推理。三是本体的标准化( Standardization) ,在语义网中应用的本体,要能够进行集成和相互操作, 而要实现这一点就要对本体进行标准化管理。

            (5) 语义网语言的形式语义。语义网的目标是实现语义级的相互操作,而要实现这一点,语义网中所有的语言就必须有标准的形式语义。XML,RDF及其附加标准的形式语义都在研究中,而本体描述语言的形式语义则更是研究中的重点。

            2.语义网的应用研究主要集中在以下几个方面:

             (1)Web—services是一系列标准和正在发展中的标准,它们由W3C( WorldWideWebConsortium) 设计和制定,用来促进跨平台的程序对程序通信。语义网的技术可以提高用户对Web—services进行定位、选择、运用、组合和监控的自动化程度。

             (2) 基于代理的分布式计算也将从语义网技术中受益。语义网将用本体来描述各种网上资源, 因此, 网络中的信息将用一种结构化、逻辑化、语义化的方式来表示。这将改变代理对网上资源进行搜索、获取和利用的方式。一方面, 语义网是一个分布式知识基的网络, 代理可以在本体的指导下对网上知识进行读取和推理;另一方面,语义网是由本体描述的Web—services的集合, 这就便于各种代理间形成动态的媒介,从而便于处理。当代理具有智能性和灵活性,传统的Client/Server计算模式将可能被一种基于代理的分布式计算模式所取代。

             (3) 基于语义的数字图书馆将成为语义网中的一个重要资源。XML为图书馆数字化集成提供了元数据的置标方案,而资源描述框架RDF( ResourceDescriptionFramework) 则提供了元数据语义交互的“包”与“容器”,亦即各种不同元数据模式之间的互操作性。近年来,大量的各种形式的多媒体数据被加入互联网。传统的基于内容的多媒体数据检索技术是基于多媒体数据的低级特征的,这使人们不能有效利用网上的多媒体数据;而基于语义的查询能够利用多媒体资源的高级特征,从而使各种多媒体数据资源得到有效利用。基于语义的数字图书馆将成为语义网发展中的一个重要资源。

             近年来,我国对语义网的研究正在火热之中,这说明语义网作为未来互联网的发展趋势已引起了我国信息界的高度重视。对语义网的研究也取得了一定的成效, 并具有相当的层次性, 从基本介绍到理论研究, 由理论探讨到试验与应用,逐层递进,不断深入。今后应着重在以下几个方面努力:加强对语义网的基础理论研究,包括语义网体系结构、指导原则和建设方法等;加强语义网的实际应用研究,建立符合语义网构想的WWW页面或网站; 研究本体的编制规范与标准,用以指导中文网站本体的构建,并注重加强本体的实际应用研究,建立具有一定实用价值的词汇表( Vocabulary) 及推理机制;及时借鉴与学习国外最新理论研究成果与实际应用的经验和实例,进一步推动我国语义网研究工作的开展与提高。

    (二)技术路线

    1RSS:360doc ICE

            360doc ICE 是北京六智信息技术有限公司( 360doc) 推出的一套基于Web2. 0 的智能信息聚合引擎产品。它使用人工智能技术很好地实现了智能搜索、文章自动Tag 和摘要、信息的聚合、人的聚合等功能, 并可以实现面向用户的个性化信息的自动推送, 是当前国内运用智能信息聚合技术的一个典型实例。

    2.企业级Mashup

            企业级信息系统的开发方法很多, 主要包括结构化系统的开发方法、原型法、面向对象开发方法以及CASE开发方法等类。结构化开发方法作为目前应用最普遍的一种开发方法, 其将系统开发严格分为分析、设计及实现三个阶段, 每个阶段均以文档作为系统交付使用的依据, 具有全局性、整体性的特点。

     

    3.语义聚合技术

            应用动态语义关联技术可以在资源空间的结点间建立起丰富的语义关系,形成资源语义关联网络。资源语义关联网络实际上是采用有向图表示的关系空间。聚合引擎从大量的关系中挖掘出更大粒度的有意义的资源结构体,依据设定的聚合规则生成主题资源圈和有序知识链两种资源聚合结构体,下图为学习资源动态语义聚合技术路线。

     

    (三)技术实现

    1.RSS实现

            RSS 的实现原理: 内容发布商首先将要发布的内容提要按照RSS 定义的格式形成一个标准的XML 文件( 以RSS 或XML 为扩展名) , 这就是RSSFeed(RSS 种子或RSS 摘要) 。RSS Feed 直接在网上利用超级链接来发布, 用户获取该RSS Feed 的URL 后, 将其导入RSS 阅读器或直接在支持RSS 的浏览器中打开, 就可以看到摘要( <item>) , 每一条摘要都有标题( <title>) 和指向原始信息源的链接( <link>) , 从而可以点击获取信息。

            RSS 实现方法是内容提供商封装输出RSSFeed, 内容订阅者通过RSS 聚合器读取RSS 提要并显示资讯项目。RSS 提要封装方法与网页HTML 生成方法相似, 即通过网关程序(ASP、ASPX、JSP) 获取信息组装成标准格式, 通过XMLHTTP 对象获得此URL 源文件后用FSO 对象另存为相应目录的XML文件, 在网站内容发布系统中设置为在信息发布时自动触发生成和定期自动生成。

            网络用户在客户端借助于支持RSS 新闻聚合工具软件, 从网站提供的聚合新闻目录列表中订阅需要的栏目内容。订阅后, 可在不打开网站内容页面的情况下及时获得所订阅新闻频道的最新内容。

            用户以“频道”的形式订阅, 增加单个频道时为输入RSS 的URL 地址, 订阅多个频道时可通过OPML 实现“导入”、“导出”。OPML(Outline ProcessorMarkup Language) 为建立在XML 基础上的“大纲处理标记语言”, 用于描述资料的结构和存储提要列表信息, 主要由<head>项的<title>和<body>项的<outline/>组成, outline 中有text、title、type、version、htmlUrl、xmlUrl 等属性。

    2.应用Google maps API 实现地图Mashup

    第一步:导入Google Maps API 库文件和创建地图容器

           导入Google Maps API 库文件是在HTML 文件的Head 部分加入如下格式的代码:<script src="http://ditu.google.com/maps?file=api&v=2&key=用户申请到的key" type="text/javascript"></script>然后在通过在HTML 文件的Body 部分加入一个具有id 属性的元素来创建Google 地图的容器。代码如:<div id="map" style="width:500px; height: 300px"></div>。

    第二步:加载和关闭Google 地图

            onload()和onunload()函数用于实现Google 地图的加载和关闭。代码如:<body onload="load()" onunload="GUnload()">。

    第三步:创建GMap2 对象

            GMap2 对象用于实现创建和控制地图等最基本的功能,因此也是最重要的一个对象。创建GMap2 对象的代码如:map = new GMap2(document.getElementById("map"))。

    第四步:设定地图中心坐标并显示地图

            map.setCenter()函数用于设定地图中心坐标并完成Google 地图的初始化。代码如var geoPoint= newGLatLng(31.52,103.61); map.setCenter(geoPoint, 4)。

    第五步:设定地图类型

            通过GMap2.setMapType()方法可设定地图类型。代码如:Map. setMapType(G_HYBRID_MAP)。

    3.语义聚合技术实现

            聚合引擎从大量的关系中挖掘出更大粒度的有意义的资源结构体,依据设定的聚合规则生成主题资源圈和有序知识链两种资源聚合结构体,技术实现算法如下。

    ①主题资源圈聚合

            主题资源圈聚合的基本实现思路是:采用BFS(Breadth First Search)在有向资源关系图中寻找具有相似关系的资源结点,依据相似关系衰减函数计算两两结点之间的关联程度,将满足最低阈值要求、高度相似内聚的结点自动聚合在一起,最终生成若干个主题资源圈。其中主题资源圈的动态聚合算法如下图所示。

    ②有序知识链聚合

            有序知识链聚合的基本实现思路是:从整个资源语义关系图中提取出表示有序关系(前驱、后继、是基础)的所有资源结点和边,组成知识序列有向图G;深度优先遍历(DFS, Depth First Search) G,将所有知识路径找出来,生成若干个有序知识链。其中有序知识链的动态聚合算法如下图所示。

     

    (四)技术方案

    1.RSS实现读者个性化服务

            (1) 利用RSS 实现个性化信息“一站式检索”。RSS 可以聚合大量不同来源的信息, 包括文字、图像、音频等各种类型的信息, 用户可以在一个界面上浏览所有感兴趣的内容, 而不用逐个网站寻找。另外, 目前一些专业开发商开发的RSS 浏览器, 如国内的看天下网络资讯浏览器提供给用户一个内置的超高速搜索引擎, 利用模糊或精确模式在文章标题和RSS 摘要中检索关键字, 从而为用户提供便捷的内容索引和查找服务。因此, 可以利用RSS 进行图书馆资源整合, 使用户能够真正享受到图书馆个性化信息的“一站式检索” 服务。

            (2) 利用RSS 实现资源共享。目前, 很多图书馆网站正在建设“Internet 学科导航系统”, 收集和整理因特网上的各种学术性资源。以中国高等教育文献保障系统(CALIS) 的“重点学科导航库” 为例, 各个成员馆利用手工收集某个主题的因特网资源, 多个成员馆联合建设。如果能够采用RSS 技术和标准,则能够在数据的层次上达到真正的联合建设。各个成员馆以RSS Feed 方式提供自己的专题资源, 在CALIS 项目中心建立一个新闻聚合器, 定期获取各个成员馆最新整理的资源(以RSS Feed 方式提供),将它们统一加入到CALIS 项目中心的数据库中。这样读者既可以在成员单位上访问这些资源, 也可以CALIS 项目中心上访问[6]。另外, 互联网上有大量的RSS 信息资源, 图书馆可以通过应用RSS Feed 数据提取技术, 添加和设定一些RSS Feed 链接来获取各网站的RSS Feed, 就很容易地实现对网上RSS 资源的开发和利用, 这些都将使用户所能获得的图书馆个性化信息服务的信息来源大大增加, 信息内容更加丰富。

            (3) 利用RSS 进行个性化信息定制和主动推送。通过RSS, 读者可以定制自己感兴趣的内容。服务器根据读者定制的信息, 把网站上最新的信息主动推送给读者, 进行专业的个性化信息服务, 使得读者不需要直接访问网站就能不断的得到更新的内容。同时,RSS 具有信息即时通报功能, 一旦有新信息就会向RSS 浏览器发出提示, 从而使用户可以在第一时间了解信息动态。RSS 的这些特点和功能使图书馆个性化信息服务的针对性和准确性大大提高, 服务更加具有个性化和智能化, 便捷性也进一步得到增强。

     

    2.Mashup

            Mashup网站是一个Web页面或应用程序, 从两个或以上的外部在线资源连接数据。外部资源极可能是其他的W eb站点, 并且站点上的数据被mashup开发员使用不同的方法获得, 这些方法包括但又不仅仅局限于APIs, XML 数据源(XML Feeds)和屏幕抓取。Mashup的内涵在于整合不同外部数据源的内容和服务, 把松散的学习资源、要素、服务和功能集成在网络学习环境之中, 提供增值的、创新的内容、服务和统一完整体验的Web信息系统。.

    3.语义网

            以学习元平台为例,学习元整体语义架构的核心,是应用了语义Web体系框架中的本体技术和推理技术。最底层是Ontology API层。LCS使用Java版的JENA本体操作API构建本体编辑与管理环境,进行本体相关操作,包括概念与属性的添加/编辑/删除/查询、本体模型创建/读取、本体导入/导出等。本体和语义词典共同组成语义层,是学习资源语义信息标注与提取的基础。LCS中的本体架构由知识本体、用户本体和情境本体组成。语义词典主要集成了哈工大扩展版的同义词词林和中文WordNet。语义层之上是标注层。语义标注信息的获取与存储是LCS开展更多上层智能应用(如资源语义聚合、资源语义检索、适应性资源推荐、社会认知网络构建等)的数据基础。LCS中的语义标注信息,一方面通过学习资源的半自动化语义标注程序产生;另一方面通过学习资源的语义基因提取程序产生。在语义标注层之上是推理层,通过编辑推理规则,借助JENA内置的推理机,可以完成各种推理应用,如资源关系推理、人际关系推理等。

    (五)技术原理

     1.RSS

            RSS 是一种描述和同步网站内容的格式, 它可以在站点之间共享内容, 也叫聚合内容, 通常用于一些新闻和其它按时间顺序排列的网站, 如博客Blog。一个RSS 文件( RSS Feed) 包含很多条目, 一个条目可能包含全部内容或内容介绍, 每个条目一般都附有能链接到全部内容的链接。发布一个RSS Feed 后, 它包含的信息就能直接被其它站点调用。网络用户可以在自己的客户端, 借助RSS 聚合工具软件(RSS 阅读器), 订阅自己喜爱的新闻网站或Blog 的RSS Feed, 在不打开网站内容页面的情况下阅读网站内容, 而且这些内容都是实时更新的。因此, 使用RSS 技术, 就能使用户在最短的时间内获得最必须、最有实效性及最为准确的信息。

    2.Mashup

            AP I/内容提供者负责提供M ashup集成的信息内容。Mashup服务器负责把所获得的或者是自有的资源和服务封装成标准组件, 并管理这些组件, 同时响应应用程序对于资源、服务的开放调用。Mashup应用者选择相关资源将其融合到自己的门户或其他应用系统中, 并通过客户端浏览器以图形化的方式呈现出Mashup应用结果。

    3.语义网

            语义网的实现需要三大关键技术的支持:XML、RDF和Ontology。XML以让信息提供者根据需要,自行定义标记及属性名,从而使XML文件的结构可以复杂到任意程度。它具有良好的数据存储格式和可扩展性、高度结构化以及便于网络传输等优点,再加上其特有的NS机制及XML Schema所支持的多种数据类型与校验机制,使其成为语义网的关键技术之一。目前关于语义网关键技术的讨论主要集中在RDF和Ontology身上。语义网使用 RDF 来描述网络资源,RDF(资源描述框架,Resource Description Framework)是一种用于描述网络上的信息和资源的的标记语言。将信息至于 RDF 文件之中,这样的话,这些信息就有可能被计算机程序("web spiders")从网络中搜索、发现、摄取、筛选、分析和处理。RDF是W3C组织推荐使用的用来描述资源及其之间关系的语言规范,具有简单、易扩展、开放性、易交换和易综合等特点。值得注意的是,RDF 只定义了资源的描述方式,却没有定义用哪些数据描述资源。RDF由三个部分组成:RDF Data Model、RDF Schema和RDF Syntax。

     

    (六)应用案例

    1.RSS 

            http://www.edutech.net.cn/

    2.学习元语义聚合

    3.地图Mashup 应用实例

    • 二、资源动态关联技术

    (一)技术介绍

    1.关联规则数据挖掘

          关联规则挖掘的思想起源于购物篮数据的分析,一条关联规则如:95%购买牛奶的顾客同时会购买面包"简单的说,关联规则表示为X=> y的蕴含式,其中X和Y是项集"这种规则的意思非常的直观:给定一个业务数据库D,每个业务T任D都称为一个项集,X=> Y表明任何时候业务T包含X也很有可能包含y"发生的可能性也即规则的置信度,可以理解为条件概率P(Y⊆T|X⊆T)。

    2.基于Web数据模块的资源动态关联技术

           用户将各种网络资源的信息集成之后,将自己定制的各种网络信息资源根据需要关联起来,从而实现个性化定制页面是一个难点。基于Web数据模块的资源动态关联技术可以实现数据模块之间动态的数据关联,但是不会影响提供数据模块的服务,同时用户可以根据自己的需求个性化定制数据,进行信息资源的合并和连接,以及根据数据模块的某些信息来关联所需的其他数据模块。

    3.语义关联技术

          学习资源间的关联主要包括两种类型,一种是显性关联,一种是隐性关联。显性关联是从语义出发基于系统已有的关系类型建立的资源关联,易被用户观察和识别;隐性关联是从语义上难以通过人工发现,但可以通过数据挖掘技术识别出来的潜在的资源关联。动态语义关联技术有:基于规则的推理技术、基于语义基因的相似关系计算技术、基于语义约束的关联规则挖掘技术、动态关联规则的挖掘技术等。

    (二)技术路线

    1.关联数据挖掘技术

       步骤一:找出存在于数据集中的所有的频繁项集"根据定义,这些项集的频度至少应等于(预先设置的)最小支持度频度".

       步骤二:利用上一步得到的频繁项集,产生相应的强关联规则"根据定义这些规则必须满足最小置信度".

       由于步骤二中的相应操作极为简单,因此挖掘关联规则的整个性能就是由步骤一中的操作所决定的"大部分研究也集中于第一步寻找频繁项集的挖掘中".

          

    典型的数据挖掘系统

    2.基于Web数据模块的资源动态关联技术

          实现关联的前提是将各种网络资源信息标准化,解决信息资源的模型异构和语法、语义的异构问题,资源信息标准化的资源分为RSS资源、XML资源、 Web Services资源及数据库资源,实现资源信息标准化之后以数据模块的形式显示给用户。用户进行动态数据关联期间,根据该信息标准进行XM L解析,解析之后根据用户的需要进行动态数据关联,显示动态数据关联结果。

    3.语义资源关联技术

          在显性关联的建立上分别采用了基于规则的推理技术和基于语义基因的相似关系计算技术,在隐性关联的建立上主要采用了基于语义约束的关联规则挖掘技术。关联规则挖掘(Association Rule Mining)是数据挖掘领域非常重要的一个课题,旨在发现大量数据中项集之间有趣的关联或相关联系。关联规则挖掘技术可以很好地应用于学习资源的动态关联,通过自动挖掘一些潜在的关联规则来促进资源实体间建立更丰富的关联关系。

    (三)技术实现

    1.关联数据挖掘

    数据库分割后的结果

          从数据集D中找出频繁项集后,产生强关联规则是很简单的事情"所谓强关联规则是指满足最小支持度和最小置信度的关联规则"对于规则AB置信度(Confidence)是指D中包含A的事务同时也包含B的百分比,是一个条件概率,即ocnf-dneec(AB)=尸(到A)"最小置信度是预先定义好的,只有满足最小置信度的关联规则才会对我们有更大的指导作用"有关频繁项集关联规则产生方法如下:

    2.基于Web数据模块的资源动态关联技术

         该技术中的动态数据关联是用户选中数据模块中的某些属性拖动到另一个数据模块中,系统自动完成数据模块之间的数据映射和数据转换功能,自动完成数据关联,显示关联结果。系统的动态数据关联工作在后台进行,前台只显示动态数据关联结果。下图显示了动态数据关联方法的结构,该结构的所有模块都是基于Ajax技术框架开发的。

    3.语义关联技术

    (1)基于规则的推理技术

            JENA是由HP Lab开发的一款用于Semantic Web应用程序开发的开源框架,除了包含丰富的本体操作API外,还支持基于产生式规则的前向推理。e-Learning领域的研究者们已经开始应用JENA的推理功能实现个性化的学习指导、信息检索、适应性内容推荐等。LCS可以应用JENA框架操作本体模型,自定义各种产生式的关联规则,通过JENA推理机实现部分资源显性关联。

    (2)基于语义基因的相似关系计算技术

            语义基因是指能够反映资源内容所要表达含义的基本信息单元,形式上表现为基于本体描述的带有权重的概念集合以及概念间的语义关系。区别于文本相似度比较中的文档特征项,语义基因不是简单的关键词集合,而是资源背后所隐藏的语义概念网络。

            语义基因在形式上表现为基于本体描述的带有权重的概念集合(包括核心概念以及概念间的关系)。语义基因可以被形式化地表示为有序三元组(见图3)。

    (3)基于语义约束的关联规则挖掘技术

            关联规则挖掘旨在发现大量数据中项集之间有趣的关联或相关联系。关联规则挖掘技术可以很好地应用于学习资源的动态关联,通过自动挖掘一些潜在的关联规则来促进资源实体间建立更丰富的关联关系。关联规则挖掘的经典算法是Apriori算法,但其存在执行效率较差、易产生大量冗余规则等缺陷。近年来,随着本体技术的应用和发展,已有研究者开始尝试结合领域本体进行关联规则的挖掘,借助语义信息提高关联规则挖掘的效果和效率已经成为关联规则挖掘领域的重点研究方向。

    (四)技术方案

    1.关联数据挖掘

           第一种:对APriori算法的改进一般在以下几个方面进行:(1)减少对数据库的扫描次数,如DIC[24] Parttiino[2];(2)减少候选项集的个数,如DHP=10};(3)便利候选项集支持度的计算"

    AProiri算法的主要特点是在挖掘频繁项集的过程中生成候选项集,并利用APriori性质精简候选项集;在挖掘不同长度的频繁项集时,APriori都需要对数据库扫描一次"APriori的以上特点导致它具有下述两个缺点:

    (1)它可能需要产生大量候选项集"例如,如果有10的4次方个频繁1-项集,则APriori算法需要产生多达10的7次方个候选2一项集,并累计和检查它们的频繁性"此外,为发现长度为100的频繁模式,如{al,,,alo,o},它必须产生多达2的100次方约等于10的30次方个候选.

    (2)它可能需要重复地扫描数据库,通过模式匹配检查一个很大的候选集合"对于挖掘长模式尤其如此".

           第二种:FP一grwoht算法主要利用压缩的树型数据结构频繁模式树(RqeuentPat-etnrTree,简称为FP一七ere),用较少的空间存储频繁项集挖掘所需要的全部信息"与一般的类Apriori的频繁项集挖掘算法相比,FP一gorwth的优点在于它不需要产生大量的候选集,从而提高挖掘算法的效率".FP一growth进行频繁模式挖掘一般分为两个部分"首先,将提供频繁项集的数据库压缩到一棵频繁模式树,但保留项集关联信息;然后,将这种压缩后的数据库分成一组条件数据库(一种特殊类型的投影数据库),每个关联一个频繁项,并分别挖掘每个数据库"

           第三种:CLOSET挖掘频繁闭项集的过程分为分割搜索空间和发现频繁闭项集两个步骤"重新考虑上一小节中示例中的挖掘任务"利用CLOSET有下面的过程"

          (1)对数据库D进行扫描,同却riori与FP一grwoth一样,导出频繁1一项集,并得到它们的支持频度"频繁项集按支持频度的递减顺序排列,结果记为L={12:7,11:6,13:6,14:2,15:2},每个项目后的数字是其支持频度"

         (2)再次扫描数据库D,每个事务中的频繁1一项集按L中的顺序处理(即按支持频度递减排序),并在此过程中忽略非频繁1一项集,排序后的数据库不再包含非频繁1一项集,排序后的数据库中只含有每个事务中的频繁1一项集"数据库D

         (3)分割搜索空间"

         (4)挖掘包含15的频繁项集"

         (5)挖掘包含14的频繁闭项集"

        (6)挖掘包含13的频繁闭项集"

        (7)挖掘包含11的频繁闭项集"

        (8)挖掘包含12的频繁闭项集"

     

         2.基于Web数据模块的资源动态关联技术

          动态数据关联方法中的关键技术是数据映射和数据转换,用户将数据模块A中的一个属性X拖动到另一个数据模块B。系统将用户拖动数据模块A的属性X动作作为动态数据关联事件,系统确定数据模块 B中进行动态数据关联的属性,查询数据模块B的属性信息。根据获得的信息与语义逻辑,确定是否能够进行模式映射,确定能够映射的属性,创建映射,并保存该映射。根据模式映射创建数据映射并保存,根据映射结果进行数据转换,转后之后进行保存和数据关联结果显示。其中系统执行动态数据关联方法的步骤为:

        (1)用户拖动一个数据模块A的属性X到数据模块

        (2)动态数据关联方法收到动态数据关联指令,将该数据模块B的信息从XML文件中取出。

        (3)系统将数据模块A的属性X与数据模块B的属性逐个进行语义逻辑分析,找到与属性X语义相同的 属性Y,将属性X与属性Y映射。

        (4)保存映射结果到XML文件。

        (5)根据得到的属性映射将数据模块A的属性X中 的数据与数据模块B的属性Y的进行数据映射。

        (6)保存数据映射结果到XML文件。

        (7)根据映射结果进行数据转换。

        (8)根据转换后的数据重新显示数据。

        (9)保存关联结果到XML文件。

     

    3、语义关联技术

    (1)基于规则的推理技术

            基于规则推理实现资源显性关联的基本流程如图2所示:首先编写各种关联推理规则,并存储到推理规则库中;然后,JENA推理机从规则库中提取规则,将规则绑定到本体模型;接着,JENA推理机依据规则对本体模型进行推理;最后,将推理出的显性资源关联集合进行输出。

    (2)基于语义基因的相似关系计算技术

            基于语义基因的相似关系计算的基本思路是:首先,基于通用的语义词典和领域本体计算语义基因中两两概念间的相似度;然后,结合概念在语义基因中的权重值设置相似度的权值;接着,将所有相似度进行加权平均得到两个语义基因的相似度;最后,根据设定的相似度阈值判断两个资源是否具有相似关系(见图4)。 

    (3)基于语义约束的关联规则挖掘技术

            LCS中订阅和收藏是两种非常重要的用户与资源间的交互,应用关联规则挖掘技术可以发现被很多用户同时订阅/收藏的资源对集,而这些资源对间极有可能存在某种联系。举个例子,如果LCS中有很多用户都收藏了标题为“红楼梦”和“西游记”的学习元,则可以推断“红楼梦”和“西游记”之间存在某种联系。

    (五)技术原理

    1.基于Web数据模块的资源动态关联技术

      (1)数据模块

          数据模块是用户根据自己的需求从各种原始网络资源定制得到,以表格的形式或者其他形式显示在自己的定制页面中的数据。这些数据模块相互独立,没有进行修改、更新、删除、动态数据关联操作,即便经过了这些操作,数据模块之间除了 有动态数据关联关系之外,各个模块之间是相互独立的,模块本身的各种操作不会影响其他数据模块的显示或者更新。

    (2)模块管理

           模块管理方法是用Ajax技术来管理用户已经定制生成的数据模块,该方法对于用户是透明的, 用户只看到管理结果,而不会看到后台的操作。用户定 制数据模块及数据模块显示期间,模块管理将该数据模 块的详细信息保存到XML文件中。用户关闭某个数据 模块,模块管理删除该数据模块在XML文件中相应的 详细信息。模块管理方法同样管理数据模块的添加、删 除、修改、分页等操作。

    (3)数据关联

           用户选中数据模块A中的一个属性,将该属性X拖动到数据模块B中,系统自动认为用户要将数据模块A中的属性X与数据模块B中的属性进行关联。首先系统自动搜索数据模块B中的属性,根据语义确立属性X与数据模块B中的属性Y进行映射,映射之后,根据数据模块B中的属性Y的数据将数据模块A中属性X的数据根据映射进行转换,转换之后显示动态数据关联的结果。

    (4)XML文件

           数据模块的信息保存在该XML文件中, 动态数据关联方法根据数据模块的名字查询该XML文 件。该XML文件保存所有定制页面中的数据模块信息, 这些信息包括数据模块的网络来源、信息标准化、数据 关联信息、更新信息等。动态数据关联方法根据语义确 定数据映射时需要获取数据模块的标准信息,XML文件是重要的信息保存文件。

    2、语义关联技术

    (1)基于规则的推理技术

            首先,需要将与资源关联相关的数据采用RDF三元组形式存储到JENA支持的本体模型中。其次,要根据JENA推理机定义的规则形式编写各种关联规则,推理机会绑定这些规则并对本体模型进行推理,得到新的推理后的本体模型。需要说明的是,上述规则不是固定不变的,随着本体模型中属性的逐渐丰富,将会产生更多有意义的规则,只需将规则按照JENA规定的格式存入规则库,就可以用于资源显性关联的推理发现。

    (2)基于语义基因的相似关系计算技术

            首先将两组语义基因中的概念进行两两相似度计算;然后将所有相似值采用加权平均的方式计算得出两组基因的相似度,若结果大于或等于相似关系的阈值,则视两个资源存在相似关系,反之,则认为二者不存在相似关系。

    (3)基于语义约束的关联规则挖掘技术

            参照上述关联规则的定义,可以将LCS中的项集I表示为所有资源的集合,I={lc1, lc2, lc3,…,lcn},n为LCS中资源的总数量。事务分成两类,一类是订阅事务,即将一个用户u订阅的资源列表作为一个st(Subscribe Transaction)事务;另一类是收藏事务,即将一个用户u收藏的资源列表作为一个ct(Collect Transaction)事务。订阅事务的数据表如表 4所示,每个用户的id可以作为st事务的id,1表示已订阅,0表示未订阅。同样,收藏事务的数据表也可以用户的id作为ct事务的id。

    (六)应用案例

            1.关联规则数据挖掘

             尿布与啤酒的故事:http://www.doc88.com/p-78862618845.html

            2.基于Web数据模块的资源动态关联技术

           将该动态数据关联方法应用于用户自己的个性化学术会议论文定制中,用户将各个网站中捜索到的所有学术会议论文的网址定制到一个页面中,这些定制的数据模块以表格形式显示,模块中的属性可以随意拖动,将某个模块的属性拖动到另一个模块中,表明用户要将该属性与另一个数据模块进行动态数据关联。例如来自 call for paper 的数据模块 A 信息有:Serial, Conference name , Deadline , Publisher,Location,Ranking。来自另一个论文网站的数据模块B保存具体的论文信息,如:论文题目、发表时间、论文地址、论文评价、论文的关键字等。如果用户需要与数据模块A中属性Location 相同的数据模块B的信息资源相同,只需将数据模块A 中属性Location拖动到数据模块B中去,系统会自动进行数据映射和数据转换,将数据模块B的信息根据数据模块A的某些信息重新显示,动态数据关联方法实现。

            3.语义关联技术

             通过动态语义关联技术可以在不同的资源结点之间建立起各种语义关系,形成不断扩展的语义关系网络。为了直观地呈现整个资源语义空间,LCS中采用Flex技术开发了如图6所示的可视化知识网络。每个结点代表一个学习元,连线表示学习元之间的语义关系。

    • 四、参考文献

    [1]杨 洁,钟志贤.Mashup个人学习环境中的信息构建[J].江西广播电视大学学报,2012(1):55-59.

    [2]杨现民,余胜泉,张芳(2013d).学习资源动态语义关联的设计与实现[J].中国电化教育,(1):70-75

    [3]吴一平,智能聚合技术在图书馆个性化信息服务中的应用[J].图书馆工作与研究,2008(11):58-61.

    [4]李峰,李春旺,基于GooglemapsAPI的地图Mashup[J].数字图书馆,2009(1):44-49.

    [5]奉永桃,Mashup国内外研究综述[J],情报研究,2010(4):63-63.

    [6]郑庆思,杨现民,余胜泉.泛在学习环境下学习资源的聚合研究[J].现代教育技术,(23):10-15

    [7]杨现民,余胜泉.泛在学习环境下的学习资源进化模型构建[J]. 中国电化教育. 2011(09):80-86.

    [8]汪名森 王 强,Mashup系统构建研究[J].数字图书馆.2009(5):34-38.

    [9]邢曙光,杨曦娥,刘超,王卫平.基于Google maps API 的地图Mashup[J].科技信息.2008.363.

    [10]詹自强,浅谈RSS 技术在图书馆的应用[J].农业图书情报学刊.2009(5):92-92.

    [11]李青.个人学习环境的功能混搭和互操作规范研究[J].中国远程教育.2009(7):65-69.

    [12]高秀丽,孙忠林,魏永山.基于Web的网络数据资源动态关联方法研究与应用[Z].第十一届中国Java技术及应用交流大会,2008.

    [13]王宁.语义网的研究与展望[J].科技情报开发与经济.2007.17(32):1-4.

    • 标签:
  • 加入的知识群:
    学习元评论 (0条)

    评论为空
    聪明如你,不妨在这 发表你的看法与心得 ~



    登录之后可以发表学习元评论
      
暂无内容~~
顶部