• 网络传播

    普通类
    • 支持
    • 批判
    • 提问
    • 解释
    • 补充
    • 删除
    • 内容

    一 数据采掘和知识发现技术 

    在某种意义上说目前我们不是缺少信息,而是被信息淹没了在因特网上有无穷的信息和数据目前的数据库系统和搜索引擎可以高效地实现数据的统计查询等功能,但是无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势,缺乏挖掘数据背后隐藏的有用的信息知识新闻或新闻线索的手段,导致了“数据爆炸但知识贫乏”的现象人们需要有新的更有效的手段对各种大量数据进行挖掘以发挥其潜能,数据挖掘正是在这样的应用需求环境下产生并迅速发展起来的,它的出现为自动和智能地把海量的数据转化为知识有用的信息新闻或新闻线索提供了手段 


    数据采掘与知识发现
    (KDD)一词首次出现在19898月举行的第11届国际联合人工智能学术会议上知识发现(Knowledge Discovery)研究的主要目标是采用有效的算法,从大量现有或历史数据集合中发现并找出最初未知但最终可理解的有用知识,并用简明的方式显示出来 

    数据采掘
    (Data Mining)就是从大量的不完全的有噪声的模糊的随机的原始数据中,提取隐含在其中的先前未知的但又是潜在有用的信息和知识的过程数据采掘在一些文献中有些相近似的名称,如数据开采发现知识(KDD)知识采掘知识抽取知识考察数据融合(Data Fusion) 

    知识发现是一个从数据中提取出有效的新颖的潜在有用的并能最终被人理解的知识有用的信息新闻或新闻线索的过程知识发现是从数据库和中发现知识的整个过程,而数据挖掘是整个过程中的一个步骤因为数据挖掘是知识发现整个过程中最重要的步骤,所以我们通常将知识发现和数据挖掘作为同义词使用而不加区分 


    数据采掘的工具目前,国外有许多研究机构公司和学术组织从事数据采掘工具的研制和开发这些工具主要采用基于人工智能的技术,包括决策树规则归纳神经元网络可视化模糊建模簇聚等,另外也采用了传统的统计方法 


    知识发现技术可以帮助我们从网上大量的原始数据和信息海洋中,挖掘出能反映其中规律的知识提供新闻工作者和网民 


    在知识发现的基础上可以构成虚拟知识共享系统虚拟团体是一个分布式的组织,它的成员是一组在网络上协同工作的同行,他们依靠网络的支持相互合作共享知识,可以快速有效地解决问题新闻工作者之间网民之间,新闻工作者与网民之间可以构成虚拟团体,进行交互式信息传播,进行新闻信息知识的交流与共享 


    虚拟知识共享系统包括
    :(1)先进的知识获取技术帮助成员搜索处理知识,从中提炼专家经验(2)支持多用户的Web开发,以使成员定制自己的Web站点(3)可以自适应团体需求的自组织式的新闻信息知识存储 

    XML 

    HTML是目前因特网上广泛应用的标记语言其优点是非常简单
    ;固定的样式;简易且标准的连接;支持表格;编程简单但是也存在难以扩展;交互性差;语义性差;单向的超链接:链路丢失后不能自动纠正;动态内容需要下载的部件太多;致使搜索引擎返回的结果过多;缺乏对双字节或多国文字的支持等不足尤其是目前基于HTML的搜索引擎存在着返回结果太多,检索精度差的弊端XML可以有效地克服这些不足 

    XML句法可标注出文档的结构和目的,这样就可缩小检索范围,提高提高检索精度例如,用户想购买二手车,就可将查询限制为用于描述“汽车销售”的标识中 


    XM能帮助人们辨别模糊词义自然语言中的词经常多义多指,网络信息检索系统不能分辨哪一种意思是查询中的,哪一种是文档中的
    XML有助于解决词义模糊问题,提高检索的准确性如,用户使用“brown”作检索词,他有可能想查找由DonaldBrown所写的论文,由Brown University出版的论文,或有关brown bear的论文如果用户明确想查询<author>Brown</author><university>Brown</university>,还是<subject>brown</subject>,就会提高检索准确性 

    XML使得能用结构相邻关系来替代物理相邻关系进行检索结果相关性排序
    XML可允许利用非文本数据,如数值数据地理位置温度值等进行检索 

    三 自动分类与自动摘要 

    因特网上的信息是无序的非结构的,信息存在冗余,信息具有很强的动态性和多样性,这些特点导致了信息获取的困难对采集后的信息进行自动分类和自动摘要是克服这些困难的关键自动分类是指根据数字化信息的内容或属性,将大量的信息归到一个或多个类别的过程其关键是构造一个分类模型,并利用此分类模型将未知信息映射到给定的类别空间国外对自动分类技术的研究已开展多年,并在邮件分类电子会议信息过滤等方面得到了较广泛的应用与此相关的还有关键词的自动抽取,用一个从文本中抽取的关键词集合在一定程度上来代表文本的语义,然后借此进行分类 


    自动摘要
    :著名的搜索引擎YAHOO选取网页首部一定数量的句子作为摘要的代用品,中国经济信息网采用人工方法编制文摘 

    四 智能搜索引擎技术 

    目前,计算机信息检索功能已经从基本的布尔检索截词检索邻近检索短语检索字段检索发展为高级的加权检索自然语言检索相关信息反馈检索模糊检索和概念检索网络信息检索核心工具是搜索引擎 


    搜索引擎的目的是帮助新闻工作者和受众寻找信息资源在因特网环境下,其典型实现是基于关键词匹配的信息检索机制搜索引擎主要由四部分组成
    :搜索器,索引器,检索器,用户接口搜索器的功能是在互联网中发现和搜索信息它要尽可能快尽可能多地搜集各种类型的信息,同时还要定期更新已有信息,避免死链接和无效链接索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表,建立起自己的物理索引数据库一个搜索引擎的有效性在很大程度取决于索引的质量检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制用户接口的作用是输入用户查询显示查询结果,提供用户相关性反馈机制 

    搜索引擎的工作原理搜索引擎起源于传统的信息全文检索理论,即计算机程序通过扫描每一篇文章中的每一个词,建立以词为单位的倒排文件,检索程序根据检索词在每一篇文章中出现的频率和每一个检索词在一篇文章中出现的概率,对包含这些检索词的文章进行排序,最后输出排序的结果互联网搜索引擎除了需要有全文检索系统之外,还要有所谓的“蜘蛛”
    (SPIDER)系统,即能够从互联网上自动收集网页的数据搜集系统蜘蛛将搜集所得的网页内容交给索引和检索系统处理,就形成了我们常见的互联网搜索引擎系统当然,一个完整的搜索引擎系统还需要有一个搜索结果的页面生成系统,也就是要把检索结果高效地组装成互联网页面当系统的访问量(PAGEVIEW)变大时,页面生成系统往往会成为整个系统的瓶颈与传统的信息检索理论研究不同,搜索引擎的用户看重的是系统的稳定性速度易用性和返回的信息量及相关度 

    据专家评测,目前主要的搜索引擎返回的相关结果的比率不足
    45%,其原因是现有的Internet搜索引擎拥有极少量的知识,并且是面向最一般的用户模型不划分知识领域,不对用户建立任何描述以及使用关键词匹配的交互方式,都限制了搜索引擎的使用效率由此提出了智能搜索引擎的概念 

    智能搜索引擎应具有的特点新一代中文智能搜索引擎是一个基于汉语语法词的上下文和语义等中文信息处理技术,自动收集识别
    Internet网上的WWWNews信息,智能化地提取摘要和关键词建立索引提供查询和对不良信息的监控报警功能和网络信息自动发现和查询系统它以加权的启发式搜索算法控制信息资源的搜集,采用了一种加权的启发式搜索算法,系统根据用户配置的领域导向词和资源服务器所在地域信息,以启发式函数计算每个URL的权值,并选择权值高的URL优先访问 

    智能搜索引擎可以根据互联网本身的链接结构对相关网站用自动方法进行分类,再加上结构严谨,萃取精华的开放式信息目录,为每一个查询迅速提供准确的结果 


    智能搜索引擎可以预期用户的需求,并可有效地抑制关键词的多义性
    EastmanKodak都在尝试在它们的Internet中使用更加智能化知识化和专业化的搜索引擎目前比较成功的智能搜索引擎有FSAEloiseInFindCompassWareFAQFinder 

    InFind是一个类似于元搜索引擎的产品,但支持自然语言模糊检索,可将结果自动去重聚类,并可返回对所有搜索引擎并发查询的结果,其检索结果根据分类排列 


    芝加哥大学人工智能实验室开发的
    FAQFinder它是一个具有问答式界面的智能搜索引擎在获知用户问题后,它查询FAQ文件以给出比较合适的回答FAQFinder的内核由五个互联联系的技术环节构成:(1)基于统计方法建立FAQ文件这是由FAQFinder中的工具Smart完成的(2)用一个由简单名词和动词短语构成的文法树分析用户的查询,以得到一个用于支持内容匹配的描述(3)问题识别者(QuestionRecognizer)操作文法树以辨识问题从属的类别(4)使用语义网分析与概念匹配技术,找出与用户查询最近似的问题(5)FAQFinder将得到的匹配返回给用户如果没有近似的匹配,则将使用一个启发式的策略 

    智能搜索引擎还可以采用协同式检索方法该方法一般用于一个特定的用户
    (如一个或一组新闻工作者一个新闻媒体一个或一组受众)协同式方法有时又称为公众学习方法,它将其他用户的反应反馈给当前的用户系统不去计算分类项目的相似程度,而是计算用户之间的相似程度协同式方法不分析分类项目的内容协同式方法一般用于非文本化的数据,如电影音乐等,但是也有的系统将其用于文本数据的挖掘,如新闻过滤等已有一些系统用于电子邮件处理会议时序安排电子新闻过滤和娱乐节目推荐与智能搜索引擎技术相关的还有信息智能“推”技术和个性化检索技术 

    基于网民和新闻工作者访问互联网的特点,在用户拉取信息的搜索过程中,根据其输入的关键词,通过机器学习,可以识别和预测其兴趣或偏好,从而有针对性及时地向网民和新闻工作者主动推送相关知识和最新信息新闻和新闻线索推送的形式可采用频道式推送邮件式推送网页式推送或专用式推送目前已有构造
    Web访问模式树(WAP tree)的算法,可从大量信息访问日志中挖掘用户访问信息的模式也可从用户访问文档的超链接来预测用户的访问偏好,其知识发现采用关联性法则 

    个性化检索要求能够网络信息检索系统能够学习网民和新闻工作者的兴趣适应其兴趣的变化并提出检索建议一般采用分布式
    Agent技术,例如在客户机上运行用户接口Agent,表示用户个性化模式,在服务器上运行信息检索管理Agent,相当于中介信息检索代理服务器,实现与各引擎的交互,用户Agent用户开始一项个性化查询quest,通过与个性化模式库中模式的类比学习,产生净化了的个性化检索模式,提交信息Agent协调模块选择相关信息检索返回的检索结果通过信息滤波,送交显示模块,新闻工作者和网民通过浏览返回的结果,确认是否为感兴趣的文档,若为感兴趣的文档,就提交相关反馈文档模块并进行聚类,产生个性化模式,同时存入该用户的个性化模式库中,如果用户不满意,也可以将确认结果提交给强化学习模块,进行交互学习,进一步净化检索结果 

    • 在新页面中查看内容
    • 下载源文件
    • 标签:
    • 查询
    • 用户
    • 数据
    • 信息
    • 新闻
    • 系统
    • 搜索引擎
    • 网络传播
    • 知识
    • 自动
    • docx
    • 检索
  • 加入的知识群:
    学习元评论 (0条)

    评论为空
    聪明如你,不妨在这 发表你的看法与心得 ~



    登录之后可以发表学习元评论
      
暂无内容~~
顶部