WWW网信息查询技术

  本文作者: 林爱群
  信息化与网络建设2004年2月第2期February.2004No.2林爱群(广东商学院信息学院,广州510320)[摘要]互联网上的信息量巨大、无序、包罗万象,用户在对其信息进行查询时往往会感到效率低下。其原因之一就在于如何根据自己的查询需求来选择相应的信息查询技术。本文传奇就搜索引擎的系统结构加以讨论,并综述了目前互联网信息查询技术的主要方法。(关键词]w瞩阿,网查询搜索引擎多媒体Abstract]‰WorldWideWebisfertilegroundforWebsearches.Appropriatesearchtechnologiesselectedwillhelpl瑚pletofindtheinformationwhattheyreallyneed.’mspapergiveadiscussionaboutthesystemstructureofsearchengine.andtakeanoverviewofWWWsearchtechnologiesnowavailable.【Keywords]WWWsearchsearchenginemultimedia[中图分类号]<3354.3[文献标识码]B[文章编号]10080821(2004)020084021前言在Intemet网络中,针对Web站点上的Web页进行信息查询是一件非常频繁的操作。但是,对Web信息进行查询往往效率不高,其原因主要在于:其一、Web页的数量愈来愈浩瀚,而Web却缺乏统一的模式结构,难于有效地表述和组织用户的查询其二、没有很完善的信息查询技术。
  传统的查询技术主要是通过输入信息关键词,然后由搜索引擎根据所输入的关键词对Web页进行扫描查找。返回的查找结果往往包含许多的信息条,而其中一般只有极小部分的内容符合用户的查询需要。由于这些满足用户查询要求的信息条的返回位置是元序的,用户只得再逐条加以鉴别。查询效率的高低与搜索引擎设计的好坏是密切相关的。
  一个好的Web查询系统应当对以下问题解决得比较好:①对Web文档能否有效地进行搜索和分类?②对Web文档进行搜索和分类的算法是否有效?③对Web页是否能进行一视同仁、无倾向的查询?④能否访问到更新后的Web信息?⑤系统对用户请求的适应性如何?搜索结热血传奇果是否能够切合用户的需求?除了对搜索引擎加以选择之外,我们还可以根据不同的查询需求采用不同的查询技术来提高查询的效率。本文就这一问题加以综述、讨论。2搜索引擎分类及其系统结构2.1搜索引擎分类互联网上有很多搜索引擎,它们的性能特点可以说各有千秋技术。从对表目信息进行组织的方式来看,我们可以将现有的搜索引擎分为两大类:自动方式和人工方式。2.1.1大多数搜索引擎采用自动方式来组织信息表目库,如Robot、WebCrawler等。这些搜索工具对wWw网上的网络信息进行自动搜索,并将采集到的网络信息进行自动加工、建立索引,形成信息表目数据库以供用户查询。这种收稿日期:20031024--?84--方式由于未经过人工干预,信息加工的质量往往不高,从而使得检索的准确率较低,检索效果不很理想。2.1.2有些搜索引擎的数据库建立在人工编辑的基础上。专业人员依据学科、专业、区域等方面对网络信息进行筛选、组织和评价,然后编辑成等级式的主题指南或主题目录。用户可以通过主题目录的指引,在相应的等级结构中逐级浏览,直至找到所需的信息内容。采用人工方式编辑出的表目库质量高,检索效果好,不过在信息的时效性等方面有其不足。由于自动方式和人工方式各有其优缺点,将二者结合起来便可大大提高搜索引擎的适应性和搜索质量(如Yahoo搜索引擎)。
  2.2搜索引擎系统结构搜索引擎一般由三个部分所组成:网络蜘蛛软件(theSpider)、索引软件、搜索和分类软件(如图1所示)。当然,任何一个搜索引擎必须设计用户接口,以便用户输入具体的查询要求、显示查询结果,并提供用户相关性反馈机制。2.2.1网络蜘蛛软件其功能是在Intemet网中扫描Web站点,发现并搜集Web信息文档。该软件一般是日夜不停地运行着,以便尽可能快、尽可能多地搜集最新的信息,并定期更新已搜集过的旧信息,以避免死连接或无效连接。设计该软件一般来说会借重以下三个工具:2.2.1.1Unix系统的文本浏览器Lynx2.2.1.2具有丰富的网络应用功能的Java.n网友认为本技术et2.2.1.3基于Perl语言的文档网络应用工具CPAN。
  网络蜘蛛软件将整个Web理解为一个图结构,每个URL被看作是该图上的一个结点,通过对该图的遍历过程完成对Web页的搜索。2.2.2索引软件其功能是对网络蜘蛛软件所搜索到的信息加以理解,新的URL初始LnRLII网络蜘蛛Spiderul访问网页下载Web页炙本{声音/图彤l图像,分类分类过滤过滤索引索引转换l数据IF习数据库L~/}查询查询接口视频图1搜索引擎的系统结构从中抽取出索引项,并生成相关的文档索引表,建立起物理索引数据库。
  对于Ⅲ[Ⅶ.文档来说,可通过文档中所含的以下信息项来建立索引:①HTML中的描述符②文档中的超链接③文档中的关键词④文档页标题⑤文档中的第一句话。2.2.3搜索和分类软件当用户通过查询接口输入自己的查询要求后,搜索引擎便对查询关键词进行分析,并与索引库中的记录进行比较,将比较结果集以统一的格式反馈给用户。
  搜索和分类软件便用于实现以上功能要求。3信息查询技术我们在互联网上查找信息内容时,采用的方法可以分为两大类:一类称之为“浏览(Browsing)”。即通过超链接从一个Web站点链到另一个Web站点、从一个Web页链到另一个Web页,或从页内某个位置跳到另一个位置。不过这一方法极易迷失方向,收敛性较差。另一类称之为“查询(Searching)”,即对我们的查询要求进行关键词抽取,然后利用相关的搜索引擎所提供的用户接1:1输入关键词,由搜索引擎在其索引数据库中进行查找,并将结果返回给用户。
  在本文前言中简要说明了这种方式效率也不高。表1列出了目前常用的一些商业搜索引擎。表1常用的商业搜索引擎名称U]RLAOLhttp://search.a01.com/mtavistahap:??Ⅵ州.ahavista.com/Excitehap:?fwww.excite.com/Googlehnp://www.Soosle.com装备/Lyeoshap:矗www.1ycos.eo/II/MSNhap://search.iilsn.corn/2004年2月第2期名称URLNetscapehttp:}fsearch.netscape.coat/ⅥrebCmwlerhttp:www.webcrawler.com/Yahoohttp:}{www.yahoo.eom/对于用户的查询要求,为了更高效全面地查找到相关的信息,可以选择以下所述的三种搜索技术。3.1多元搜索技术利用多元搜索引擎适合于一些较模糊的查询要求,或就某一课题的网络资源进行快速调查、摸底、综览。多元搜索引擎即将多个搜索引擎集成在一起,加以搜索。图2所示为多元搜索引擎的系统结构图,主要由三个部分所组成:3.1.1分包:确定一个具体的查询要求应发往哪个搜索引擎3.1.2接口转换:将用户输入的查询格式转化为所选择的搜索引擎所要求的格式3.1.3结果显示:多个搜索引擎将返回其各自的查询结果。由于不同的搜索引擎返回的结果集格式往往是不一致的,因此须将各结果集进行集成处理,以统一的格式返回纶恩户。
  图2多元搜索引擎系统结构目前常用的多元搜索引擎如表2所示。表2常用的多元搜索引擎名称URLHuskySearchhttp:ffhuskyseareh.as.washington.eduhttp:{fwww.neci.ni.嫩.com/homepages/Inquiruslawrenee/inquirus.html肌in-onenp:www.allonesearch.com/CUSIhap:www.nexor,com/public/eusi/eusi.hun]/iToolshup:}f删.itools.com/拿AILin.one来,它将500多个Internet网络上最佳的搜索引擎、数据库、索引和目录检索工具集中在一个站点。
  3.2SQL查询技术SQL是一种广泛使用的数据库查询语言。我们可以将劂网看成是一个巨大的数据库,数据(下转第87页)一85一信息化与网络建设3定期更新定义文件和引擎目前,大多数人已认识到使病毒定义文件保持最新版本的重要性,却往往忽视检测引擎确保为最新版本的重要性。
  尽管上述文件和引擎的更新通常是自动进行的,但是应该定期检查日志文件,以确保更新的执行是正确而及时的。4定期更新桌上型计算机中的反毒软件迄今为止,基于服务器的电子邮件病毒防护是提供系统内部保护的最有效方式,不过由于系统安全保护策略的细节不同,它不能对所有类型的信息(如加密信息)都提供防护。因此,需要对桌上型计算机中的防病毒软件定期更新,当基于服务器的防护措施无能为力时,能为整个系统的反毒行动补充弹药。5定期备份文件一旦系统中的数据被病毒破坏,还可以利用存储档案恢复相关文件。在某种程度上,使用者的情绪好坏、是否勤快,常常决定电子邮件备份与文件恢复数量的多寡,比较稳妥的办法是制订一个标准程序,定期检查从备份中恢复的数据。6预订电子邮件病毒警报服务时下能够提供这种服务的机构各种各样,而对服务对象而言,其中专门的防病毒服务供应商才是最好的选择。每个防病毒供应商的能力不同,对新病毒的评估和认定也不同,各自采取的反毒措施也有差异。
  例如,某家供应商可能已经对某种新病毒实施了防范,因此,这一特殊病毒将会被他们评定为低风险病毒,而同一类型的病毒就很可2004年2月第2期能被其他未能提供当前保护的供应商评定为高风险病毒。
  7对全体职员进行防病毒培训企业和政府机构通常是数字经济的直接受益者,也往往是电子病毒的最大受害者。系统和网络使用者的素质如何,决定着这些企业和机构反毒行动的成败。通过培训,使全体职员都了解遭受电子邮件病毒攻击的风险、抵御病毒的防护措施以及遇到可疑病毒时应该采取的有效措施等,就可以最大程度地降低系统内大多数病毒的发作。8其他一是始终保持操作系统、Web浏览器、电子邮件和应用程序的最新版本二是定期审查主要软件供应商的安全方面的情况,预订实用的安全信息,以便了解新的安全缺陷以及解决方法。事实证明,计算机病毒已开始威胁到我国“以信息化带动工业化,以工业化促进信息化”的长远发展战略。计算机病毒和计算机技术相生相伴,因此,与信息化中存在的短期问题(诸如网站服务、信息共享、网络通信技术等)相比,病毒对信息化的消极影响将是长期的,贯穿信息化的整个过程,是信息化的最大破坏因素。作为一个发展中国家,我国在反毒核心技术研究、病毒预警水平和信息安全立法等方面相对滞后。在信息化快速推进的同时,信息安全隐患和风险也日益突出。所以,必须要认识到问题的重要性和严峻性,采取积极有效的策略,做好打持久战的准备。::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::(上接第85页)user/库表中的一条记录对应于一个web页,然后通过SQL语言来表达用户的查询要求。利用SQL查询技术,便可以将用户的查询要求非常全面、完整、自然地表达清楚,从而得到相关度高的结果集。例如,以下的SoL语句:SelectURLfromb豫i形.*.:曼出Z蔓wherekeywordlike‘database’所表达的查询要求是:找出包含database关键词的教育网站。3.3多媒体信息查询技术现在的网站信息已是包罗万象,信息载体除了文本外,还愈来愈多地通过声音、图形、图像、影视、动画等方式进行信息的传载。可以说,设计出多媒体搜索引擎是众望所归。但是,由于难于解决多媒体信息自动索引问题,目前出现的一些多媒体搜索引擎还并不很完善。目前许多大型搜索引擎,如Ahavista,Yahoo,L炉os,Excite等都增加或完善了其多媒体检索功传奇能。也出现了许多专门搜索多媒体信息的搜索引擎,它们各有所长,但总的来说还存在着以下几个不足:查准率低、收录范围有限、信息难于做到自动加工、用户查询接口表达的语义不够等。
  以下是两个多媒体搜索引擎:MetaSEEk,网址为:http://www.ctr.columbia.edu/metas.eeldPicToSeek,网址为:hap://ZOlllaX.wins.uva.nl:5345/ret4结束语传统印刷业、电视和Intemet网已成为当今社会三大信息传播媒体。对www网络信息进行查询无疑也愈来愈成为人们日常生活的一部分了。本文对WWW网络信息的查询技术加以了综述。由于Ⅵ佩w网上的信息结构尚没有一个统一的数据模式,目前人们用得最多的方法还是关键词查询。
  随着XML语言的日益广泛的应用和Web搜索技术的发展,专业、收敛、快捷的查询方法将越来越被人们所研究和采用。参考文献[1]张莉扬.Yahoo的住处组织方式及其在数字图书馆信息资源建设中的应用[J】.图书情报知识,2001,(3).[2]赵志荣.劂搜索引擎的发展方向:专题性搜索引擎[J].情报杂志,2001,(5).[3]王海波,汤珊红.网络信息资源的组织与管理研究[J].现代图书情报技术,2003,(3).[4]王慕东.搜索引擎的发展状况及使用技巧[J].情报理论与实践,2001,(4).[5]李国辉.基于内容的多媒体信息存取技术[J].计算机世界。
  20000526.一87一信息化与网络建设。
  本文《WWW网信息查询技术》 --- 作者: 林爱群

上一篇:xuebaoxinwen。tushuguan关于加强图书馆藏书建设的思考
下一篇:爱树师表爱铸师魂

  • 浅谈如何加强库房药品的管理
  • 数位模式定阅在泰西已经形成一股势力
  • 响应政策 好神大方送算命券 让你拜月老求财神1
  • 利用VisualC++6.0的APPWIZARD实现代码重用
  • 《文苑导游录》所刊传奇杂剧考述
  • 第二次游戏开始前.组织者重新在游戏者背上写号数
  • 运用现代教育技术培养创新人才
  • 张学友亮相《十月围城》开场大戏 片酬全部捐慈善
  • 就是现在要在这松软的泛着盐白的海滨沙滩上建造一座如此巨大的酒
  • 知识经济时代呼唤创新教育