采集和记录在数字形式的信息

现代信息系统的多功能性源于电子信息表示为数字信号的能力和自动操纵它以极高的速度。信息存储在二进制设备的基本组件数字技术。因为这些设备只存在于两个州之一,信息反映在他们的缺席或能量的存在(电脉冲)。二进制的两个州设备方便地指定的二进制数字,或比特,零(0)和一个(1)。

通过这种方式,自然语言的字母符号书写系统可以表示数字的组合0(无脉冲)和1(脉冲)。表的等值问题的二进制数字的字母数字字符和字符串编码系统,对应的书写系统。三个二进制数字的组合可以代表8个字符;一个组成四位数,16字符;等等。选择一个特定的编码系统的大小取决于字符集表示。广泛使用的系统是美国标准信息交换(美国信息交换标准代码),7 -或八位代码代表英文字母,数字,和某些特殊字符的标准电脑键盘;和相应的八位扩充的二进制编码的十进制交换码(EBCDIC),用于电脑由IBM(国际商业机器公司)和最大兼容的系统。由8位字符的数字表示被称为字节

七位ASCII代码能够代表128字母数字和特殊characters-sufficient容纳许多音标的书写系统脚本,包括拉丁和西里尔。一些字母脚本需要超过7位;例如,阿拉伯语字母,也用于乌尔都语和波斯语的语言,有28个辅音的角色(以及一些元音和变音符号),但这些可能有四个形状,取决于它的位置在这个词。

的数字表示nonalphabetic书写系统,即使是八位代码容纳256个字符是不够的。一些使用汉字的书写系统,例如,有超过50000的象形文字(最小标准字体汉字系统在中国和日本有大约7000个象形文字的汉字系统)。数字表示这样的脚本可以从三个方面来完成。一种方法是开发一个语音字符集;中国的拼音,韩文,日文平假名语音方案都有类似数量的字母集拉丁字母。在东方使用拼音字母文化还不普遍,他们可能会转化为表意的字典查找。第二种技术是象形文字分解为少量的小学叫中风迹象,这的总和构成shape-oriented nonphonetic字母表。第三种方法是使用超过8位编码大量象形文字;例如,两个字节可以表示独特的象形文字超过65000。因为八位ASCII代码的书写系统不足,因为它们nonalphabetic或者因为他们的语音脚本拥有大量的变音符号,电脑行业1991年开始制定一个新的国际编码标准基于16位。

记录媒体

穿孔卡片和穿孔纸带曾经广泛用于存储数据二进制形式。今天他们已经被媒体取代基于电磁和光电技术除了在一些特殊的应用程序

现在的存储媒介有两种类型:随机-和系列,或顺序,访问。在随机存取媒体(如主内存),所需的时间访问给定的数据独立于它的位置,而在串行存取媒体访问时间取决于数据的位置和读写头的位置。典型的串行存取介质是磁带。磁带的存储密度大大增加在过去的几年里,主要是通过增加数量的跟踪包装胶带的宽度。

当磁带仍然是一个受欢迎的选择应用程序需要低成本辅助存储和数据交换,新磁带变体1990年代开始进入市场。录像磁带已经适应数字存储数字音频磁带(DAT)超过所有磁带存储设备提供数据密度最高的区域。DAT技术使用螺旋扫描记录方法,同时录音和记录头移动,它允许记录密度极高。早期four-millimetre DAT磁带有能力最高可达八十亿个字节(8个字节)。

另一种类型的磁存储介质磁盘提供了快速、随机访问数据。1962年开发的这个装置,由一个铝或塑料滚筒涂有金属材料。信息被记录在磁盘的读写头打开和关闭,产生磁“点”代表二进制数字在圆形的轨道上。一块数据在给定跟踪可以访问,而无需经过很大一部分的内容顺序,如磁带的情况。数据检索时间从而显著降低。硬盘驱动器内置到个人电脑和工作站有几个g的存储容量。大型计算机使用磁盘墨盒可以提供几乎无限的大容量存储器。

在1970年代软盘——小,灵活的磁盘已被引入用于个人电脑和其他微机系统。相比之下,传统的存储容量硬盘,这样的“软”软盘是伏在三百万个字符。这种媒介主要用于加载和备份个人电脑。

一个完全不同的记录和存储介质,光学盘,在1980年代初成为可用。光盘使用激光技术:数字数据记录通过燃烧的一系列微观孔,或坑,一束激光在金属薄膜表面上的43/4英寸(12-centimetre)塑料盘。通过这种方式,信息从主盘磁带编码;随后,主复制的过程称为冲压。读模式,低强度激光反射盘表面,由光敏二极管“读”。的辐射能由二极管接收不同根据坑的存在,这个输入数字化的二极管电路。然后转换成数字信号模拟信息在屏幕上或打印形式。

因为这项技术的引入,三个主要类型的光存储媒体已经成为可用:(1)可重写的,(2)写一次读多次(蠕虫),(3)光盘只读存储器(光盘)。可重写光盘的功能与磁光盘,尽管前者更慢。蠕虫光盘作为一次档案存储介质输入数据和检索它很多次。cd - rom的首选媒介是数字图书馆和电子分布软件。提高存储容量,光盘被排成“音乐盒”持有多达1000万页的文本或超过1 tb(一万亿字节)的图像数据。高存储容量和磁随机存取,可重写光盘光盘尤其适合存储多媒体信息,在文本、图像和声音相结合。

录音技术

通常称为数字化存储信息数据,其模拟对应源数据。大量的nondocument模拟数据收集、数字化,并自动压缩通过适当的仪器在天文学等领域,环境监测,科学实验和建模,和国家安全。被人类捕获的信息生成,以包的形式符号的文件,是通过手工来完成,越来越多的自动化技术。手动输入数据的键键盘、触摸电脑屏幕或手写数字平板或其变体,所谓的电脑。手工数据输入,缓慢且容易出错的过程,促进在某种程度上通过特殊的计算机程序,包括编辑软件,来插入格式化命令,验证拼写,并使文本变化,和文件格式化软件,安排和重新排列文本和图形输出页面上灵活。

据估计,5%的所有文档美国以数字化形式存在,三分之二的文件不能通过键盘转录因为它们包含数字化图纸或静态图像,因为这样的转录将是非常不经济的。这些文件是由这一过程被称为数字化经济文档成像(见图2)。

文档成像利用数字扫描仪来生成一个数字表示文档的页面。一个图像扫描器将页面划分为分钟画面区域像素并产生一个二进制数字数组,每个代表一个像素的亮度。由此产生的比特流增强和压缩(至原体积的10%)的设备称为图像控制器和存储在磁性或光学介质。大存储容量是必需的,因为它需要大约45000字节存储2500个字符的典型压缩文本页面和高达1000000字节来存储页面包含一个图像。除了文档成像应用,数字扫描用于传输的文件通过传真、卫星摄影,在其他应用程序中。

整个文档页面图像扫描数字化存储和显示一个图像,不识别字符和文本的话语。因此不能语言存储材料操纵文本处理和其他软件技术。当需要这样操作,软件程序执行光学字符识别(OCR)函数通过将每个光学扫描字符转换成一个电信号,比较的内部存储表示的字母字符,以便从中选择一个相匹配的扫描字符最接近或拒绝它作为一个无法辨认的令牌。今天的OCR程序区分的更复杂的形状,大小和间距的象征,包括书法、从经验中学习。一个普遍的OCR甚至不可用,然而,对于一个字母。

仍然照片可以通过扫描数字化或从电影转移到数码光盘持有超过100的图像。最近的发展,数码相机使成为可能绕过这部电影/纸完全通过捕获图像的步相机的随机存取内存或一个特殊的软盘,然后转移到一个个人电脑。因为技术产生一个图形文件,在这两种情况下的图像编辑通过合适的软件。

数字记录的声音是很重要的,因为语言是最常用的自然传染病的信息载体。直接捕获的声音进入个人电脑完成的数字信号处理器(DSP)芯片、专用设备内置计算机执行数组处理操作。转换模拟音频信号的数字录音是一个平凡的过程,已经使用多年的通信和娱乐行业。虽然产生的数字声道可以编辑,自动语音recognition-analogous识别的字符和单词的文本通过光学字符识别是仍在发展。完善时,语音识别是肯定对人类有巨大的影响与记录信息,电脑,和。

到1990年代初,技术记录(或转换),以数字形式存储,并编辑所有视觉和听觉上——感知信号文本运动、图形、图片、动画、视频和声音是否可用和可负担得起的。这些功能打开一种新的多媒体文档的方式,采用印刷、视频和声音产生更强大的和丰富多彩的信息,它们安全地通信电子的速度,并允许他们几乎要修改。传统的商业信函,报纸、杂志和将不再是相同的。