2017-01-17 00:00:00嘉辉 系统架构师
随着信息化程度的加深,如何在信息海洋中查寻到合适的信息成为目前人们遇到的难题之一,信息检索正是为了解决用户信息需求而产生的,下面yjbys小编为大家准备了关于信息检索系统架构的文章,欢迎阅读。
1 信息检索的应用、意义及场景
1.1 应用
信息检索是指搜索信息的科学,在文件中搜索信息或是在数据库中进行搜索,无论是在相关的独立数据库或是超文本的网络数据库。信息检索技术就是指依照用户的信息需求从信息的集合中识别查询和获取信息的技术,利用这种技术可以有效地开发和利用各种信息资源,更广泛、更有效、更快捷、更全面地在信息海洋中吸收和获取我们所需要的信息。
1.2 意义
科学技术日新月异的发展,科技成果倍增,新的学科领域不断产生、研究和更新,科技文献数量、种类急剧增长,同时现代通讯技术、网络技术的广泛应用,又加速了文献信息的传递与使用,文献信息的传递、使用和交流又促使新的信息不断产生,人类社会已步入了知识、信息爆炸的时代。然而这种浩如烟海而又极其分散的文献信息给人们的学习、工作带来了许多的不便,特别是对于广大科研人员和工程技术人员,如何迅速准确的查获到自己所需文献资料,关系到科研项目的成败。信息检索的重要作用及意义在未来的社会中将会日益显现出来。
1.3 信息检索设计
1.3.1 场景设想
在软件机构建立一个软件文档信息检索库,软件文档库中存放软件工程过程中的所产生的所有文档,项目管理师负责上传文档到统一的软件文档库,项目的每个用户均有统一的搜索。
1.3.2 场景设想的合理性分析
为了进行搜索,用户先指定一个能反应信息需求的查询,接下来,对用户查询进行分析和扩展,扩展的查询与倒排索引进行匹配,检索出一个文档子集。对文档子集排序并把排在最前面的文档返回给用户。为了提高排序的性能,我们收集用户反馈信息,并使用这些信息对结果重新排序,最丰富的用户反馈形式是在返回结果上点击文档链接。
2 信息检索系统框架
根据场景的设想,从用户界面、文本处理、提问处理、搜索、排序这几个方面简要阐述软件文档信息检索的架构。
2.1 用户界面
用户界面的作用是帮助用户理解和表达信息需求,并帮助用户指定所需的查询,在可用的信息源中进行选择跟踪搜索结果。
查询输入 软件文档信息检索的输入为文本形式,用户表达自己的信息需求的主要方法是在搜索框中输入一些关键词如“空管系统 软件需求规格”等,输入查询的描述采用动态生成查询建议列表,当用户输入“空”子查询时,表单实施显示查询建议“空管系统”,自动填充或自动生成查询建议,以方便用户和节约用户时间。
查询输出 当显示查询结果时,界面输出的是相关文档,将文档的一些有代表性的内容提交给用户,如软件文档摘要、包含查询关键词的标题、标题组合、包含作为短语匹配的查询语句。
用户反馈是帮助我们进行查询重构,主要思想是让用户指出,对于查询哪些文档是相关的,哪些文档时不相关的。也能让用户指出从文章中抽取哪些索引项是相关的。软件文档信息检索系统通过这个信息,可以重构一个新的检索集合。
2.2 文本处理
文本处理时一个以产生排序函数为目标的复杂过程。构想出表示文档和查询的逻辑框架,该逻辑框架通常基于集合、向量或者概率分布,如图2所示。
输入 一个能反映用户信息需求的查询,对此查询进行与文档类似的分析与修改操作,典型的操作包括适当的拼写校对和禁用词消除等。
输出 文档和查询的逻辑框架,该逻辑框架通常基于集合、向量或者概率分布。
2.3 检索策略
假如已经有了倒排索引,给出信息检索策略,常用的信息检索策略模型有布尔逻辑模型、模糊逻辑模型和概率模型等几种方式。
(1)布尔逻辑模型。这是一种简单而常用的严格匹配模型。用户可以根据检索项在文档中的布尔逻辑关系提交查询,搜索工具根据事先建立的倒排文档结构确定查询结果。标准的布尔逻辑模型为二元逻辑,所搜索的文档要么与查询相关,要么与查询无关。利用这种模型进行查询,其查询结果一般没有按照内容的相关特性排序。
(2)模糊逻辑模型。它在查询结果处理中引进了模糊逻辑比较,并且按照相关的优先次序排列查询结果,这样就可以克服布尔逻辑模型信息查询结果的无序性。
(3)概率模型。它是基于贝叶斯概率原理而提出的,根据词条、文档间的内在联系,利用词条间和词条与文档间的概率相依性来进行信息检索。
3 信息检索带来的影响
3.1 促进生产实践
信息检索是人们开启知识宝库的金钥匙,是开发智力资源的有力工具,它能帮助人们传播知识和利用知识,使知识转化为社会物质财富和精神财富,在人类社会的科学技术和生产生活过程中发挥了重大作用。
3.2 资源管理
原来获得的信息传统途径,现在几乎全部可以通过信息检索得到,而且更快、更新、更准确。随着计算机、多媒体和现代通讯技术的飞速发展,以印刷型文献为主的学校图书馆开始向以电子信息和虚拟信息为主的数字图书馆转化,Internet创造了丰富和多元化的学习资源,实现了资源共享。随着学习社会化、终身学习体系的诞生和进一步推进,网络在中小学教育中的应用也日益广泛和深入起来。Internet为我们带来了丰富的学校综合教育信息资源,它是提供Internet上的可用于学校综合教育过程的,在学校教育系统中传递的信息。
3.3 消极影响
3.3.1 侵犯个人隐私
随着智能检索技术即可以模拟人脑的思维方式,分析用户以自然语言表达的检索请求,自动形成检索策略进行智能、快速、高效地检索,信息检索变得更加便捷,它的飞速发展在给我们带来效益、带来方面的同时,也把很多系统的漏洞和个人隐秘信息展示在大众面前,使得个人信息成为被侵犯的重要对象。通过网络信息检索,利用搜索引擎进行搜索,获取他人个人信息,甚至他人隐私。智能搜索引擎的发展,给我们的信息检索带来了很大的方便,但对网络信息安全的影响也很大,尤其是对个人信息安全构成了巨大的威胁,其中存在严重的侵权问题。没有经过当事人同意就将当事人的真实情况,比如姓名、单位、图片、以及生活细节等个人详细信息公布于众,打破了当事人的正常学习、工作和生活秩序,造成不必要的精神压力,特别是对方有可能只是个无辜者。
3.3.2 信息污染
一方面是信息急剧增长,另一方面是人们消耗了大量的时间却找不到有用的信息,信息的增长速度超出了人们的承受能力,导致信息泛滥的出现。一些错误信息,虚假信息,污秽信息等混杂在各种信息资源中,使人们对错难分,真假难辨;人们如果不加分析,便容易上当受骗,受其毒害。人们如果不具备一定的信息识别能力,就容易受到一些不良信息的影响的毒害,它导致了一些行为偏差。
863
人