信息的组织和检索

在任何集合中,物理对象都是按顺序关联的。排序可能是随机的,也可能是根据某种称为a的特征关键。这些特征可能是内在对象的属性(例如,大小、重量、形状或颜色),或者它们可以从一些商定的集合中分配,例如对象类别或购买日期。键值的排序顺序取决于所涉及的键的类型:字母数字键值通常按字母顺序排序,而其他类型的键值可能根据类的相似性进行排序,例如关于特定主题的书籍或同一属的植物群。

在大多数情况下,对一组信息对象施加顺序有两个原因:创建它们的目录和促进定位集合中的特定对象。选择特定的顺序还存在其他次要目标,例如,在获取对象时节省空间或节省精力。除非集合中的对象是复制的,否则任何排序方案都是一维的,无法同时满足排序的所有功能。克服记录信息一维排序的某些限制的主要方法依赖于对其内容的扩展描述,对于类似形式的信息,依赖于对物理项目的某些特征的扩展描述。这种方法使用了各种内容分析工具,从而促进了对记录信息的访问和搜索。

描述和内容分析模拟形式记录

图书馆和档案是模拟形式信息的主要存储库,构成实体材料在印刷品(文件)、图像形式(地图和照片)或音像格式(录音和录像带)方面的一维排序。为了打破一维秩序的限制,图书馆事业开发了一组广泛的属性,用于描述集合中的每个项。分配这些属性的规则被称为编目规则。描述性编目是从每一项中提取书目要素(作者姓名、标题、出版商、出版日期等);为这些项目分配主题类别或标题称为主题目录

从概念上讲,图书馆目录是一个表或矩阵其中,每行描述一个离散的物理项,每列提供分配的键的值。当这样的目录在计算机中以数字形式表示时,任何属性都可以作为排序键。通过按不同的键对目录进行排序,就有可能产生各种各样的索引以及主题书目。更重要的是,计算机化目录的任何属性都成为集合的搜索键(存取点),超越了传统卡片目录的效用。

模拟形式项目最有用的访问键是subject。的主题标题的广泛列表图书馆分类然而,方案只提供总体访问工具对项目的内容。一种叫做索引提供对库主题标题的细化。它包括提取从项目或分配给它的主题和其他“描述符”-词或短语,表示重要的概念(主题,名称),出现在记录的内容或特征。索引经常伴随着摘要,这是一种将文档全文浓缩为包含其主要思想的简短摘要的技术(但总是会导致信息丢失并经常引入偏见)。计算机打印的、编入索引的摘要期刊提供了一种让用户了解原始信息来源的方法。

数字形式信息的描述和内容分析

电子文档的描述一般遵循书目编目的原则,如果该文档是目录的一部分数据库预计将被直接和单独访问。的元素时宇宙对于可并行搜索的全球分布式数据库服务器,文档命名问题相当具有挑战性,因为引入了一些复杂性。文档描述必须包括数据库服务器的名称。,它的物理位置。因为数据库服务器可能会删除特定的文档,所以描述还必须包含指向文档逻辑地址(生成组织)的指针。相比之下,它们在描述性编目中的有用性模拟文档的物理属性,如格式和大小是高度可变的环境因此在通用文档命名方案中是没有意义的。另一方面,文档的数据类型(文本、声音等)对其传输和使用至关重要。也许最具挑战性的设计是“动态文档”——一种不断变化的仿制品,由从不同文档中电子复制的部分组成,中间穿插着来自遥远地点的人的原始叙述、图形或语音评论,这些人的不同版本驻留在不同的服务器上。目前正在努力使电子网络中的文件命名标准化。

机索引

电子文本的主体分析是通过索引,使用两种方法之一:从无限词汇表中分配主题描述符(自由索引)或从授权描述符列表(控制索引)。授权描述符的集合称为授权列表,如果它还显示描述符之间的各种关系,则称为授权列表层次结构或者同义词,同义词典。索引过程的结果是一个被称为倒排索引的计算机文件,它是描述符及其在文档主体中出现的地址的字母列表。

全文索引,即使用文本中的每个字符串(自然语言中的单词)作为索引词,是自由文本索引的一个极端情况:文档中的每个单词(冠词和介词等功能词除外)都成为它的访问点。在文学分析和人文学科的其他计算机应用中,全文索引早期用于生成索引,对计算机存储有很大的要求,因为生成的索引至少与文本正文一样大。随着大容量存储成本的降低,实现了全文自动索引能力已被常规地纳入最先进的信息管理软件

文本索引可以通过其他语法技术来补充,以提高其精度或鲁棒性。其中一种方法是标准通用标记语言(SGML),利用编辑器使用的标准文本标记来确定文档元素(例如,段落和表)的位置和其他特征。在索引空间数据,如地图和天文图像,文本索引指定搜索区域,每个搜索区域由一组定义矩形或不规则多边形的坐标进一步描述。然后使用这些数字空间文档属性检索和显示文档的特定点或选定区域。还有其他专门的技术可以用来增加特定文档类型的索引,比如百科全书,电子邮件、目录、公告牌、表格和地图。

语义内容分析

分析数字记录自然语言从语义的角度来看,信息是一个相当复杂的问题,它是这种复杂性的基础初期的从数据库自动回答问题或通过不受限制的自然语言查询进行检索等应用程序。一般的方法是计算语言学:推导句子的语言元素和文档的较大部分之间的句法和语义关系的表示。语法关系由解析(分解)句子的语法(图3).对于语义表示,三种相关的形式主义占主导地位。在一个所谓的语义网络概念上的对象、操作或事件等实体表示为连结节点(图4).在类似的图形网络中,“帧”表示对象的物理或抽象属性,并在某种意义上定义对象。在“脚本”中,事件和操作而不是对象是根据它们的属性定义的。

文本的索引和语言分析生成了给定集合中文档的语义关系或主题相似性的相对总体度量。然而,主题相似性是一个务实的随观察者和观察环境(目的、时间等)而变化的现象。20世纪60年代中期曾有一项技术进行过短暂试验,即为每个文档分配一个或多个“角色”(函数)和一个或多个“链接”(指向具有相同或类似角色的其他文档的指针),显示出实用主义度量相似性的潜力;然而,它的使用对于计算来说太笨拙了环境今天的。大约20年后,类似的技术以这个名字流行起来“超文本”。在这种技术中,一个人或一群人认为相关的文档(通过概念、顺序、层次、经验、动机或其他特征)通过这些文档连接起来“超链接”,模仿人类联想想法的方式。这样链接的对象不一定只是文本;演讲和音乐,图形和图像,动画和视频都可以相互连接成一个“超媒体”数据库。对象与其超链接一起存储,用户可以通过单击控件轻松地浏览关联网络鼠标在计算机屏幕上的一系列条目上。另一个技巧是引出来自文本体的语义关系是SGML。