• 教育资源开发关键技术(四) — 语义表征技术、资源语义标注技术

    普通类
    • 支持
    • 批判
    • 提问
    • 解释
    • 补充
    • 删除
    • 一、语义Web

    1.语义Web :强调对网络资源附加可供机器理解和处理的语义信息,使人与电脑之间更好地协同工作,同时也使资源的大规模重用和自动化处理成为可能。

    2.语义Web的实现依赖于三大关键技术:XML、RDF和Ontology

    3.语义Web的七层体系结构:
      

    自描述
    文档

    数据

    数据

    规则

    信任Trust

    证明Proof




    逻辑Logic(推理)

    本体Ontology

    RDF+RDF Schema

    XML+NS+XML Schema 名称空间

    Unicode

    URI

      第一层:Unicode和URI。

          Unicode是一个字符集,URI(Uniform ResourceIdentifier),即统一资源定位符,用于唯一标识网络上的一个概念或资源。Unicode负责处理资源的编码,URI负责资源的标识。

     第二层:XML+NS+xmlschema。

          XML它允许用户在文档中加入任意的结构,而无需说明这些结构的含意。NS(NameSpace)即命名空间,由URI索引确定,目的是为了避免不同的应用使用同样的字符描述不同的事物。XML Schema能更好地为有效的XML文档服务并提供数据校验机制。

         正是由于XML灵活的结构性、由URI索引的NS而带来的数据可确定性以及XMLSchema所提供的多种数据类型及检验机制,使其成为语义Web体系结构的重要组成部分。该层负责从语法上表示数据的内容和结构,通过使用标准的语言将网络信息的表现形式、数据结构和内容分离。

     第三层:RDF+rdfschema。

      RDF是一种描述WWW上的信息资源的一种语言,其目标是建立一种供多种元数据标准共存的框架。该框架解决的是如何无二义性地描述资源对象的问题,使得所描述的资源的元数据信息成为机器可理解的信息。Rdfschema使用一种机器可以理解的体系来定义描述资源的词汇,其目的是提供词汇嵌入的机制或框架,在该框架下多种词汇可以集成在一起实现对Web资源的描述。

    第四层:Ontology vocabulary。本体层(对信息源进行标注)

      该层是在RDF(S)基础上定义的概念及其关系的抽象描述,用于描述应用领域的知识,描述各类资源及资源之间的关系,实现对词汇表的扩展。在这一层,用户不仅可以定义概念而且可以定义概念之间丰富的关系。

     第五至七层:Logic、Proof、Trust。
      Logic负责提供公理和推理规则,(验证资源、资源之间关系、推理结果、是否符合用户的要求)

    4. 知识本体:

              本体是语义Web的基础,本体可以有效地进行知识表达,知识查询,或不同领域知识的语义消解。

    知识本体:是领域概念及概念之间关系的规范化描述,这种描述是规范的、明确的、形式化的,可共享的。知识本体的目标是捕获相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇和词汇间相互关系的明确定义。

    • 二、资源语义标注技术

    (一)概述

    1.语义化: 所谓语义化,就是选择适合的语义标签,通过资源中标签的内容反映出资源的语义特征,从而将内容转换成计算机可识别的形式,使计算机在一定程度上实现对资源内容的理解和掌握。

    2.语义表征: 按语法结构、章法结构及写作技巧等规则,将文字编排成表达一定新闻内容的文字序列的过程。语义表征事实内容,具有客观性,但由于注入人的情感,产生词义褒贬,使词义在本义之外产生引申义。

    3.语义标注(Semantic Annotation)也称本体标注(Ontology Annotation),是指利用本体中定义的词汇显示地揭示和表达网络中的语义。概括地讲,语义标注就是在领域本体的指导下为文档添加规范化知识表示的过程,即定义好一个由OWL语言书写的本体后,将文档中的文本知识用RDF语言描述出来。

    语义标注:是用本体来描述网页中的概念或概念实例,具体实现是给网页上添加语义信息。(陈星光等,2009)

    传统的语义标注方法主要分为手动标注、半自动标注和自动标注三类。(张玉芳等,2010)

    近些年,语义标注的范围逐步扩展,正逐步从文本标注扩展到图片标注、(Su et al.,2011)视频标注(Garca- Barriocanaletal.,2011)等等多媒体语义标注。

    4.语义标注常用方法:对网页资源进行语义标注的方法较多,主要包括基于传统的信息抽取技术、基于自然语言处理技术、基于本体的抽取技术与基于网页文档本身的组织结构等的自动化或半自动化标注方法。

    基于传统的信息抽取技术进行标注的实现思路主要是基于与定义好的领域关键字进行匹配以及计算机学习,来达到对网页资源内容的切分和标注。同时,为了提高标注的效果,往往会定义一些额外的匹配规则。

    基于自然语言进行标注的核心是借助句法结构在分析自然语句过程中对语义标注的作用,通过从句子的主谓宾语法成分找到对应的RDF陈述,即从主语和宾语中找出对应领域本体概念的实例,然后将谓语动词映射为本体属性。

    基于本体的抽取技术实现语义标注则是将本体作为信息抽取中可用资源的一部分,通过将资源内容与本体库中的实例或关系进行匹配来进行信息抽取,并以RDF的形式表示。由于标注过程中往往会用到语义词典,因此需要进行语义消歧,同时标注过程中还将不断完善本体库。

    基于网页文档本身的语义标注主要依赖于网页自身的结构及其他语义信息,比如标题、段落、语义标签等,以实现对网页内容的初步标识。当然,为了提高标注的效果,往往需借助一定的规则或算法。

    5.资源语义化方案的实现过程:利用本体构建技术
        根据学科领域的不同特点,建立领域本体的方法也不尽相同,现在比较成熟的本体构建方法有:包括TOVE法、METHONTOLOGY法、骨架法、KACTUS工程法、SENSUS法、IDEFS5法、七步法等。不论用什么方法构建领域本体都必须遵循一定得规则(目前尚无统一的标准),最有影响力的是Gruber在1995年提出的5条规则,分别是:明确性和客观性、一致性、可扩展性、编码偏好程度最小、本体承诺最小。

    例如:七步法

    第一步,确定本体所涉及的领域和范围

    第二步,列举重要术语

    第三步,定义类及类的层次关系

    第四步,定义类的属性—槽

    第五步,定义槽的测密码,也就是对槽的属性值得限定和描述。

    第六步,本体评价

    第七步,生成OwL代码

    (二)研究现状    

           基于传统的信息抽取技术的语义标注研究方面,有研究者提出了基于机器学习的自动标注方法,该方法经过训练能够应用于不同的领域,并且几乎不需要人工定义规则,且该研究的语义标注是句子水平的,标注结果以RDF表示,通过利用链接语法(LINK GRAMMAR)分析得以实现。有研究者借助Amilcare提出了一个基于AIE的网页资源半自动化语义标注框架,并能生成OWL Lite语义元数据。

      基于自然语言处理的语义标注研究方面,袁柳等提出的Onto-word语义标注方法充分利用了语言学模式、领域本体提供的语义以及WordNet提供的词汇间语义关系,实现了对概念实例的有效标注。该研究提出的语言学模式弱匹配策略增大了整个系统的召回率,对实例的标注有较好的借鉴意义。国外有研究者利用自然语言提出的知识标记工具AeroDAML,能自动从网页资源生成DAML标注信息。

      基于本体抽取的语义标注研究方面,荆涛等提出了一种基于领域本体的针对中文网页资源的语义标注方法,该方法基于自然语言中的句子和本体中陈述的直观相似性,主要分为数据准备阶段、识别阶段和组合阶段。数据准备阶段包括领域本体的建立和领域词汇表的获取;识别阶段用于对句子中的词汇进行显式识别;组合阶段是在对句子进行自然语言处理的基础上,构造句子的句法依存树(森林),按照词汇间的依存关系,提取出一系列的RDF三元组。国内还有研究者提出了N-gram语义消歧的基于领域本体的自动化语义标注方法,也有研究者基于7条相关度规则对基于领域本体进行语义标注的算法进行改进。国外有研究者提出了无监督语义标注方法,“最大证据消歧”的PANKOW方法,在不完善的领域本体的基础上进行语义标注的方法,以及基于结构本体、上下文本体和领域内容本体自动标注学习对象组件的方法。同时,还有国外研究者基于GATE2所开发的KIM系统提供了一种新的知识、信息管理的基础设施和服务,用于对文档进行语义标注、索引和检索。

      基于网页文档本身组织结构的语义标注研究方面,李维勇提出了一种面向整个文档内容的语义标注方法,该方法用文档标题、内容来表达完整的文档内容(标题比内容的重要性要高),通过分析本体词汇及其所处的语义环境在文档标题和内容中的出现频率,实现对文档的语义标注。国内还有研究者提出了一种结合编辑距离和Google距离进行语义标注的方法以及利用水平上下文和垂直上下文进行语义标注的方法。国外有研究者提出了基于GATE的MeatAnnot系统,以用于对生物学领域的科技论文进行标注。

      通过对有关国内外研究的综述可以看出,对于基于本体的语义标注已经有了相当多的研究,国内比较倾向于标注算法的提出及改进,而国外则倾向于标注系统和框架实现及具体实践应用的研究。同时,现有研究更多的是关注实例的标注,而较少关注关系的标注,往往忽视在语义标注过程中对本体的完善。而基于自然语言处理技术的语义标注研究大都没有充分利用句子句法结构所表达的丰富的语义关联信息,而只是关注简单的主谓宾结构。因此,本研究拟开发的系统将基于领域本体采用半自动化的方式对中文网页资源进行语义标注,充分利用自然语言处理技术进行语法分析,抽取丰富的实例关系,并且在语义标注的过程中不断完善领域本体。

    (三)技术路线

    1.半自动化语义标注技术路线

          基于领域本体的语义标注可以理解为将自然语言中的句子转换成本体中RDF陈述的过程,也就是将人可理解的语言转换成计算机可理解的语言的过程.本体解析器的目的是解析领域本体,生成一系列的RDF三元组。这里可以借助惠普公司的JENAAPI进行领域本体的解析,解析之后的结果是一系列的RDF三元组,形如:(类,属性,实例)。文本分析器的目的是借助自然语言处理技术,生成文档中句子的语法关系三元组,形如:(主语,谓语,宾语)。得到RDF三元组和语法关系三元组之后,将两者进行匹配。对于匹配成功的语法关系三元组进行语义标注;匹配不成功的,可以根据不成功的情况进行本体的扩展或者不进行语义标注。

    2.基于语义模型的资源语义标注技术路线

     

                                

          基于语义模型对资源进行语义标注可以看作本体构建的逆过程。将语义模型中的各种本体以及本体作为语义标注过程中的可用资源,利用本体内部已经形成的概念、属性、实例以及概念之间的关系,,简化信息标注过程中对概念的识别。利用本体查找所有与文档中待标注词匹配的概念或实例集合,根据待标注词的语境构造文本向量,与本体中的概念进行相似度计算,找到与待标注词最匹配的实例。整个过程分为三步:数据预处理、语义相似度计算、 标注。

    3.自动化语义标注技术

     

     

    (四)技术实现

    1.RDFa
          RDFa全称(RDF attribute),设计提供了一套属性,可以用于在XML(及其方言,也包括HTML)中携带元数据。对于在(X)HTML中添加RDFa的作者而言,不一定需要理解RDF或者本体。

    设计原则:
    (1)The DRY Principle
    即Do not Repeat Yourself:同一件事不要重复做两遍。
    (2)The Data Visibility Principle
    数据可见原则。同DRY原则有些相近,DV原则强调复用人类可读的数据作为机器可读的数据。
    (3)The DRTB Principle
    DRTB原则,即Don’t Rock The Boad:在不大量修改已有标签的前提下创建RDF。
    (4)The HTML Attribute Reuse Principle
    HTML属性复用原则可以看做DRTB原则的一部分。尽可能的复用HTML中已有的语义属性和标签机制,只在必要的时候才发明新的属性。
    (5)The Follow—Your—Nose Principle
    RDFa应该提供一套标准机制以发现更多的语义对象,同时为其提供常规的URL导航。这意味着我们可以通过被标注对象所关联的URL文档获得更多的数据。该原则也被用于了GRDDL的设计之中。
    (6)Remix Friendliness
    友好的复制粘贴,是指可以方便的通过复制粘贴的方式复用已有代码。
    (7)Extensibility and Modularity
    可扩展性和模块化,指的是RDFa在支持新数据、新属性的加入和将已有属性应用到新的数据上的同时,应该保证已有的工具可以正常的运作。

    语法简介:

          早先的标记语言已经存在以硬连接的方式展示特定数据间的关联。例如XHTML1.1和HTML4中,允许使用@cite以指明引用。但是这种硬连接的方式使得解析器必须知道每一个特定的属性,无法实现从任何文档提取元数据的通用过程。RDFa的设计初衷就包括要提供一种非硬连接的手段来实现文档元数据的参数化。RDFa的实现方式是创建一套固定的属性(attribute)和解析规则(rule),而属性(attribute)中则可以包含任何可用的RDFa词汇表(本体)中的特性(property)

    RDFa沿用了(X)HTML中的@rel、@rev、@href、@content和@src,并新添加了@about、@resource、@property、@datatype和@typeof,它们可以被应用到任何(X)HTML元素上。

    2.Tag
          是一种非结构化的关键字,用户可以同自己所创建或者浏览的数据项(例如博客日志或者图片等)关联起来。这种元数据被用于帮助描述数据项和被浏览和搜索。一般而言Tag的选择是非正式的,由数据项的创建者或者浏览者随意创建。

    3.Folksonomy
          一个web站点上的所有tag的集合就构成了Folksonomy。Folksonomy是一种用于实现协作创建和管理tag用以对内容进行标注和分类的方法和实践。它表述了tag所展示的自底向上的分类系统。不同于传统的主题索引,其中的元数据不止由专家,也由用户创建,即Folksonomy是一种用户创建的分类系统。

    4.Microformats
          Microformats中文译做微格式,是一种通过复用己有的X(H)TML标签来传达元数据和其他属性的标注方法。它通过使用一套固定的类型提供元数据,对应的属性也是固定的。例如地址联系信息(vCard),事件/日历(hCal)和社会关系(XFN)等。

    5.eRDF
          全称HTML Embeddable RDF(或者embedded RDF),同RDFa类似,也是基于RDF对(X)HTML进行语义标注,由Ian Davis受到microformats的启发发明。它通过使用已有的技术和属性,将RDF的子集嵌入到XHTML或者HTML中,同RDFa相比较,并未引入新的属性。

    6.XMP
          XMp全称 Extensible Metadata Platform,是由Adobe Systems Inc创建的处理、存储标准和 私有的元数据的标准。序列化的XMP可以被嵌入到很多流行的文件格式中去,不会影响那 些不能够感知XMP的应用程序的可读性,同时也免除了单独存储元数据所带来的很多问题。
    XMP几乎可以看做是RDF的子集,主要应用在PDF、图片和图片编辑应用中。
    XMP目前在多媒体语义标注领域应用的比较多,RDFa更多还是对(X)HTML中的数据 进行标注,两者的主要应用领域有所不同;而微格式、eRDF和RDFa二者则共享同一个目标:使得HTML作者能够方便的添加语义标注。

    补充:

     

     

     

    (五)技术方案

    1.迭代式语义标注技术

        迭代式语义标注技术基于语义数据云图中对应项映射通过迭代方式对待处理数据进行自动语义标注,直至完成本体填充使新增本体进入迭代运算,直至生成符合要求的本体实例。

    2.自动语义标注技术实现(详见《关联数据和知识表示的自动语义标注技术》_谢铭,72-77页)

        1.Tbox自动构建

        2.Abox自动构建

        3.自动本体版本控制

        4.OW2的自动标注

     

    (六)技术原理 

    1.半自动化语义标注技术原理

    基于领域本体的语义标注可以理解为将自然语言中的句子转换成本体中RDF陈述的过程,也就是将人可理解的语言转换成计算机可理解的语言的过程.本体解析器的目的是解析领域本体,生成一系列的RDF三元组。这里可以借助惠普公司的JENAAPI进行领域本体的解析,解析之后的结果是一系列的RDF三元组,形如(类,属性,实例)。文本分析器的目的是借助自然语言处理技术,生成文档中句子的语法关系三元组,形如:(主语,谓语,宾语)。得到RDF三元组和语法关系三元组之后,将两者进行匹配。对于匹配成功的语法关系三元组进行语义标注;匹配不成功的,可以根据不成功的情况进行本体的扩展或者不进行语义标注。

    2.基于语义模型的资源语义标注技术原理

    基于语义模型对资源进行语义标注可以看作本体构建的逆过程。将语义模型中的各种本体以及本体作为语义标注过程中的可用资源,利用本体内部已经形成的概念、属性、实例以及概念之间的关系,,简化信息标注过程中对概念的识别。利用本体查找所有与文档中待标注词匹配的概念或实例集合,根据待标注词的语境构造文本向量,与本体中的概念进行相似度计算,找到与待标注词最匹配的实例。整个过程分为三步:数据预处理、语义相似度计算、 标注。

    3.自动化语义标注技术原理

    首先,输入关联数据集。判断其是否具有较完备的约束、规则、公理。如果约束、规则、公理完备,则可直接生成本体的TBOX。通过OWL接口程序,自动将关联数据集的RDF数据转为本体。然后由用户进行评分,在3个月内经过用户使用评分过低的直接消除其本体形式。3个月后,判断本体是否符合要求,如果满足要求,则直接为其创建实例,完成本体构建。如果,不满足要求,则由领域专家负责对自动生成的本体进行调整,然后创建实例。
    如果输入已存储和索引的关联数据集不具备较完备的约束、规则、公理,则需要通过语义标注等技术为其生成TBOX。

     

    (七)应用案例

    1. 学习元平台整体语义框架

    详见:《学习元平台的语义技术架构及其应用》杨现民 余胜泉

    2.互联网信息发布与搜索

       Stanford大学研制的查询语言DBQ是一个比较有影响的系统,它是基于DAML的。

       美国Maryland设计的HOWLIR系统,(另一个基于DAML的语义web信息检索系统)它采用DAML-JESSDB-一个基于DAML的推理系统-作为推理引擎。此外,基于语义web的文档检索知识管理也是当前研究的一个热点。

    3.Web问题解答:

        在用ontology(本体层)对信息源进行标注的基础上,进一步运用知识库来解答用户的提问。

        Stanford大学研制的Triple系统是一个基于逻辑程序设计的RDF查询系统,逻辑子句的问题求解能力使它能够解答较为复杂的问题。

    德国Karlsruhe大学等单位研制的SEAL是一个语义Web门户网站,它具有回答用F-逻辑表示的查询的能力。F-逻辑使得ontology中的概念问题求解规则融合于一体。

    • 四、参考文献

    1.谢书书,张积家.知觉表征和语义表征在语言认知中的作用[J].华南师范大学学报( 社会科学版),2011,12:127-134.

    2.欧石燕.面向关联数据的语义数字图书馆资源描述与组织框架设计与实现[J].中国图书馆学报,2012,11:58-71.

    3.刘耀,穗志方,胡永伟,赵庆亮.基于内容与形式交互的图书馆资源组织语义化方法研究[J].信息系统,2010,10:105-107.

    4.刘瑛,黄奇.基于语义的网络信息资源组织[J].信息系统,2006,01:112-114.

    5.李景.本体技术标准化综述研究[J].数字图书馆,2007,08:12-17.

    6.杨现民,余胜泉.学习元平台的语义技术架构及其应用[J].现代远程教育研究,2014,01:89-99.

    7.杨艳萍,谭庆平.一种有效的服务资源自动语义标注方法[J].计算机研究与发展,2007,01:37-43.

    • 标签:
  • 加入的知识群:
    学习元评论 (0条)

    评论为空
    聪明如你,不妨在这 发表你的看法与心得 ~



    登录之后可以发表学习元评论
      
暂无内容~~
顶部