计算机信息检索的原理

根据计算机检索定义,我们知道存储与检索是信息检索的两个核心。因此,计算机信息检索网站建设的原理可以这样表述:以信息的充分交流和有效利用为目标,在对大量分散的信息进行搜集的基础上,标引人员以文献或信息描述体构成文献或信息库,提炼或选取用以表达文献、信息特征和主题内容的标识,按一定的方式分别予以有序化组织,建成各种各样的检索系统,在统一存储和检索过程的基础上,将用户表达检索词的标识与位索系统中表达文献或信息内容、形式特征的标识进行相符性比较,若是双方标识一致.就将具有这些标识的文献或信息技要求从检索系统中输出.在用户的信息检索过程中,检索系统输出的文献可能是用户需要的最终信息,也可能是用户需要的文献线索,用户按此信息的标引,可进一步获取需要的最终文献的信息。计算机信息检索包括信息存储和信息检索两个过程。计算机信息存储过程是指将收集到的原始文献进行主题概念分析,根据一定的检索语言抽取主题词、分类号及文献的其他特征进行标识或写出文献的内容摘要,然后再把这些经过“前处理.的数据按一定格式输入计算机中存储起来,计算机在程序指令的控制下对数据进行处理,形成机读数据库,存储在存储介质(如磁带、磁盘或光盘)上,完成信息的加工存储过程。
计算机信息检索过程是指用户对检索播求加以分析,明确检索范围。弄清主题概念,形成检索标识及检索策略,愉入到计算机中进行检索。计算机按照用户的要求将检索策略转换成一系列提问,在专用程序控制下,进行离级逻辑运算。选出符合要求的信息并输出。计算机检索的过程实际上是一个比较、匹配的过程,是用计算机代替人工检索的匹配过程。计算机一方面接受检索提问(即检索提问表达式),另一方面从数据库中接受文献记录。然后在两者之间进行匹配运算,即计算机信息检索把检素提问与文献记录之间的相关性检索转变成了检索词与标引词之间的相似计算。目前.一般计算机信息检索系统为进行检索词与标引词之间的相似性运算,所采用的方法可以分为以下几个等级。
(1)单个整词的比较.例如.检索词是psychoan目ysis,而标引词也是psyeh咖alys畜s,两者全等,则为命中.全等是相似性的一种特殊形式,对于一些包含数值的词,如出版年、文摘号等也可以进行大于(>)、小于(<)的运算.
(2)词的片断(主要是词根)比较.例如,检索词是用截断符号(如@)表示的pscho@,则命中所有开头与截断符号之前相同的词,如psych。姗!ysis、psychobiology等.这就是截词检索.截词有右截断、左截断、左右同时截断以及中间掩符等几种形式。对截断符之后的允许字符数.可不限制,也可限制在若千字符之间。即可分有限截断和无限截断两种模式。不论叮种,其基本原理都是进行词的片断对比。这种对比不要求检索词和标引词全等.而是部分相等或近似.因此,这个级别的比较是一种较典型的相似性运算。
(3)固定词组的比较.例如,检索词是libra卿and bformation science,而标引词也是libraj,and info,ation science.这是由多个整词构成的词组.但比较仍然是全等的运算.
(4)多个整词之间位置逻辑的比较。即可以指定两个整词,词与词之间至多相隔几个字(即可以擂入其他的字或字毋.忽略不计).两词出现的先后次序可以指定为可以对换或不可以对换.例如.检索information(2w)re州eval,可以命中infonm旧lion stora朗andr。州cval.这种位宜迈辑的运抹可以说是带有贝活性的词组比较,而这种比较是允许有一定范幽的相似性运算。它称为相邻度检索。
(5)由若干单独的检索词或词组构成的定逻辑组合的比较。它的目标不是检索各个单独的检索词或词组.而是在愈义上彼此结合、互扣限定的词(成词组)的完整组合。例如.“信息”和“网络.,它们分别是两个单独的词,而“信息网络”是这两个词逻辑组合的一种形式。“信息网络”不是“信息,和“网络.这两个词的混合,而是两种愈义的结合,是两种概念合成了一种新的概念。
上一个:哪些因素会影响到网站建设的改版?
下一个:企业应学会理性评估网站建设费用预算
涉县网站建设,涉县做网站,涉县网站设计