本发明一般涉及到一种计算机,特别是涉及到一种具有头支撑目镜显示和声音识别能力的不用手而由使用者承载的便携式计算机。 今天,很多印刷刊物,特别是很多技术手册正在被一些电子技术手册(ETM)和交互电子技术手册(IETM)所取代,这种ETM和IETM基本上是一些电子数据库,这些电子数据库通常置于传统的计算机之内,这种计算机具有使用户进行输入的键盘的用于信息显示的全范围监视器,操作人员可以使用这种计算机对存贮在ETM和IETM中的数据进行存取和显示,从而对包括对一个系统,子系统或其部件进行调试、修理和替换等在内的各种用途。
ETM和IETM在服务和修理之中是特别有用的,因为在这个领域中,技术人员经常须要从技术手册中得到详细的信息去修理和维护出现故障的设备。例如,ETM和IETM在汽车修理中心是非常有用的,在那里,维修人员发现,为了对出现故障的汽车进行维修,必须对在汽车技术手册中的信息进行存取。另外,ETM和IETM在军队服务中心内也是非常有用的,在这些军队服务中心内,军内技术人员经常需要对车队技术手册中的信息进行存取,以便维护和修理出现故障的武器系统。在这种情况下,由于所述的印刷刊物是多卷的,所以,在ETM和IETM中存取信息要比从所述的印刷刊物中存取信息要高效的多。
如上所述,所述的ETM和IETM被传统地存贮于具有操作者输入所使用地键盘和为显示数据所使用的全范围视频监视器的常用计算机中,并从中对其进行存取。这样一种计算机经常被置于靠近需要修理的设备的维修区域内。在操作过程中,维修人员必须在所述计算机需修理的设备之间来回移动以获取为维修待修理设备所需的数据,这样一种在所述计算机和需要修理的设备之间的移动花费了为从ETM和IETM中提取数据之目的所需的相当多的时间量和精力耗费。因此,由于这种惯用计算机导致了把ETM和IETM的信息的数据低效率地送给操作者,所以对于存贮ETM和IETM而言,这种惯用计算机对于存储ETMS和IETMS而言不是一种有效设备。
本发明致力于一种紧致,自包容便携式计算装置,这种装置完全可以由一个用户负重,并在不使用手册的情况下为所述用户提取和显示信息。所述的计算机装置包括一个外壳该外壳具有一个固定装置,用于将所述的外壳可活动地固定于用户身上以便于用于承重。所述的外壳还包括一个存贮装置,以用于存贮先前所输入的信息,同时还包括一个处理器装置,该处理器装置和所述的存贮器装置相互通信,以根据所存贮的程序接收,提取和处理信息和用户命令。所述的计算装置还包括一个音频传感器和多个转换器装置,它们与所述的处理器装置相互通信,用于接收来自用户的音频命令,从而将所接收的音频命令转换成电信号并用于识别转换后的电信号,同时将经识别的电信号传送给所述的处理器装置,所述的音频传感器使转换器装置也是由所述用户来承重的,所述的计算装置还包括一个与所述处理器装置进行通信的显示装置,用于从所述的处理装置中接收信息,并向用户显示所接收的信息,所述的显示装置也是由所述用户承载的,借此,所述用户可以仅利用音频指令的脱手方式操作所述计算装置下显示所述信息。
当结合附图进行阅读时,可以对前面的概述以及下面将要描述的最佳实施例有更好的理解。为了展示本发明,在附图中示出了当前所提供的最佳实施例。但是,应当理解,本发明并不局限于这里所披露的特定设备和方法,这些附图是:
图1示出了根据本发明佩带有一台计算机的一个操作人员的简要示图的前视图;
图2示图1佩有一台计算机的一个操作人员的简要示图的侧视图;
图3示出构成了图1所示之计算机一部份的一个系统单元的透视图;
图4示出了图3所示之系统单元的底平面图;
图5是图1所示计算机的简要方框图;
图6是图1所示计算机另外一个实施例的部份简要方框图;
图7示出了图1所示之计算机的工作流程图,其中所述的计算机包括一个从属的声音识别模块;
图8示出了所述从属的声音识别模块的附加工作流程图;
图9示出了图1所示计算机的工作流程图,其中所述的计算机包括一个独立的声音识别模块;
图10示出了所述独立的声音识别模块的附加的工作流程图;
图11示出了依据光闸轮(Shutter-Wheel)技术所进行的显示屏幕工作状态的方框图;和
图12示出了一个口头发音的数字化波形。
参看附图,在所有这些附图中,相同的数字用于表示相同的元件。图1示出了根据本发明佩有一个密致便携式计算机102的一个操作者(也称为用户)的前视简图,图2示出了带有所述计算机102的操作者的侧视图。为图1和图2所示的前述计算机各部件在所述操作者身上的位置仅作为一种表示并且可以根据操作者的方便和舒适程度予以改变。所述计算机102它包括一个诸如具有固定装置的系统单元106的外壳,在本实施例中,所述的固定装置是一个固定夹板或皮带104,该固定装置适于围绕所述操作者的腰而佩带,以用于将所述的外壳或系统单元固定到用户身上,从而由所述用户加以承载。
所述计算机102进一步包括一个显示装置,用于从所述的系统单元106接收信息,并为用户或操作者显示所接收的信息,在本实施例中,所述的显示装置包括一个头箍108,一个显示屏110和一个将所述显示屏110连接到所述头箍108上的可调节臂12。所述头箍108适宜佩带在用户的任一方便位置上,但最好如图所示地佩带于用户的前额部。显示屏110的位置可以通过所述的可调节臂112进行调节,从而使操作者能够很舒适地看到在所述显示屏110上所显示的信息,显示屏110电气地连接到系统106虽然可以采取另外的连接手段,但在本实施例中,所述的显示屏110是以电缆连接方式连接到所述系统单元106上的。
所述计算机102还包括与所述系统单元106相互通信的一个音频传感器和转换器装置,用于从用户那里接收音频命令,将所接收的音频命令转换成电信号,识别转换后的电信号并且将识别后的电信号传送给所述系统单元106中的一个处理器。在本实施例中,所述的音频传感器和转换器装置包括一个用于从操作者接收发音命令的话筒122。尽管本专业领域以内的普通技术人员都知道可以使用任一种音频输入或传感器设备并且这种音频输入或传感器输入设备可由用户的借与靠近嘴或咽喉的其它位置来支撑,但是在本实施例中,通过电缆124而与所述系统单元106进行电连接的话筒122最好是一个耳支撑话筒。
在本实施例中,所述的计算机102还包括一个与所述系统单元106进行通信的测量装置,该装置用于在正由所述计算机102进行评值(这种评值包括但不受限于测试,校准、调试、诊断和维修)的设备上执行一个电测量。在当前实施例中,所述测量装置包括一个仪表组件116,该仪表组件116附着于所述腰带104上并通过电缆118与需要进行测试,分析和修理等的设备120进行电连接。在本实施例中,所述的仪表组件116还通过电缆126与所述的系统单元106进行电连接。
从前面结合图1和图2所述可以看出,所述计算机系统102适于完全由一个用户或操作者来承载,设置了显示屏110,以允许用户时不时的看一眼显示屏110上包含有正被执行任务的信息的同时完成其它的,例如是维修一个设备的任务。所述话筒122允许用户在脱手方式并且不损害执行任务的同时去口头控制所述计算机系统122,以显示所需的信息。最后,所述的仪表组件116允许在相对于所述计算机系统102保持用户处于脱手方式的同时,使所述计算机102从一个诸如正在被维修的设备中获得信息(注意,用户可以在使用计算机系统102的同时,对正在对被维修的设备进行处理测试该设备或其它设备)。由于用户能够在脱手方式下,随着至多不过是从正被执行任务的最小的分散注意力而对所述的计算机系统102进行取出和输入数据,所以,通过使用计算机102,用户能够以更加有效的方式或执行任务。
图3是系统单元106的外观投影图。由于所述的系统单元106打算由一个操作者来承载,所以,所述的系统单元106重量很轻,且尺寸很小,在本实施例中,大约为5×6×3英寸,其重量约为3磅重。所述的系统单元106包括顶面板302,底板310,前面板312,后面板308,第一侧板304和第二侧板306。接到后面板308上的是一个夹子328,用于将所述的系统单元106附着于腰带104上,位于顶面板302上的是一个话筒插座314这是一种公知类型的插座。连接到话筒122的电缆124利用(来示出)的适当的连接器通过所述的话筒插座314可拆卸地连接到所述系统单元106。另外,在顶面板302上还设置有一个最好由发光二极管(LED)形成的声音输入指示器318,它的燃亮直观地反映所述耳话筒132从所述操作者那里接收到发音输入。
另外,在顶面板302上还设置有一个声音输出指示器316和一个音量控制器320。在某些实施例中,顶面板302还包括一个喇叭332。最好是一个单一LED的所述声音输出指示器316的燃亮直观地确认所述计算机102通过喇吧332正在输出合成的或数字化语音向所述用户提供信息、询问、指令、消息或其它反馈。最好是一个可转动旋扭或可按压钮的所述音量控制器320用于控制所述喇叭332的音频输出的音量大小。另外,顶面板302上还设置有一个复位系统按钮322,电源通/断按钮324和一个电源接通指示器326。最好是一个单一LED的电源接通指示器326的燃亮直观地确认所述系统单元106通过所述通/断按钮324接通电源。当按压复位系统按钮322时,系统单元106被初始化。另外,在顶面板302上还设置有一个以点输入设备320的形式存在的诸如是触敏衰减器、操纵杆;滚球或回旋式鼠标器(gyrscopic mouse)的输入装置。为图3所示的上述在顶面板302上特殊设置的这些元件仅仅是示意性的,且由于人机控制或其它的原因,这些元件可以在特定的仪器中加以变化。还应当理解,所述这些元件(例如LED作为用作指示器)也是可以改变的。
在本发明的另外一个实施例中,所述的话筒122(在图1中未示出)是一个话筒/喇叭组合装置,它具有用于接收音频信号的第一传感器和用于输出音频信号的第二传感器,所述的第二传感器基本上是一个音频喇叭。所述的话筒/喇叭组合件122可以是例如一种公知的骨架传导设备。根据另外一个实施例,如图1所示的喇叭332是不必要的,因此就可以不必设置在所述的前面板332上,并且实际上也不构成所述计算机系统102的一部份。
图4示出了所述系统单元106底板310的外观平面视图。所述的底板310包括一个监视器或显示端口402,两个串联端口404a和404b,一个并联端口406,一个键盘端口410,一个鼠标端口412的和一个外部电源端口408。根据所述的最佳实施例,所述的串联端口404a和404b是与RS-232可相互兼容的,所述的并联端口406是与centronics可兼容的。可以对所述的系统单元106进行修改,以使其包括附加的和/或不同的端口而不脱离本发明的精神和意图。
图5示出了根据当前实施例的所述计算机102的主要结构特征的简要方柜图。所述计算机102包括总线502,最好它的数据宽度至少为16位。根据当前实施例,所述总线502包含于系统单元106之中。所述计算机102还包括一个诸如中央处理单元(CPU)504的一个处理的装置,该装置被连接到总线502,并且最好也包含在系统单元106之中。所述的CPU504最好是可从Intel获得的80286或80386SX微处理器。本专业技术领域以内的普通技术人员将会理解,在推荐使用80286或80386SX微处理器时,无论是现在,亦或是将来可以获得的任何中央处理机或微处理器都可以使用。
所述的计算机102还包括一个存贮器506,它具有一兆字节到20兆字节的随机存取存贮器(RAM)。在所述计算机102进行工作的同时,同样连接到总线502并最好也包容于系统单元106之中的存贮器506存贮一个应用程序508,所述的应用程序508可以按照操作者的指令从一个磁存贮设备519(下面将要叙述)置入所述存贮器506中。
所述计算机102还包括一个输入/输出接口510,用于控制在所述CPU504和某些与CPU504发生通信联系统但并不直按连接到总线502上的其它部件(此后称之为外围设备)之间的所有数据传输。所述的输入/输出端口510最好包括一个视频接口,一个用于至少两个RS-232兼容串联端口的控制器,一个用于与centronics相兼容的并联端口的控制器,键盘和鼠标控制器4,一个软盘控制器和一个硬驱动接口。然而,本技术领域以内的普通技术人员可以理解,所述输入/输出接口510还应当包括一些附加的和/或不同的接口和控制器,所以诸如以太网,阿可网(Arcnet)标记环接口共用。所述的输入/输出接口510连接到总线502并最好置于系统单元106之中。
所述计算机102还包括一个输入/输出连接器518,它集中地体现了上述实际外围端口以及与之相关的电路。所述的输入/输出连接器518最好包括一个监视器端口402,串联端口404a和404b,并联端口406,键盘端口410和鼠标端口412,这些如图4所示。然而,本专业技术领域以内的普通技术人员将理解,所述的输入/输出连接器518还应当包括多个附加的和/或不同类型的实际端口。
计算机102还包括一个电源变换器536,它连接到内部电池539,同时还包括一个外部电池540和/或一个诸如是惯用交流电AC输出端(图5中未示出)的交流电源。所述的电源变换器536和内部电池539最好被置于系统单元106的内部,而所述的外部电池540被置于系统单元106的外部,并最好被系在腰带104上。(在图1和图2中未示出外部电池。)所述外部电池540为图4所示通过一个外部电源端口408连接到电源变换器536上。当所述的计算机102作为台式和(即非便携式)使用时,所述的电源转换器536可以连接到所述的交流电源上,以向所述的计算机102提供经调节的直流电源。当所述计算机102用于便携模式时,电源变换器536通常被连接到内部电池539和/或外部电池540,以向计算机102提供经调节的直流电。最好是只有当所述的电源变换器536既没有连接到所述的外部电池540,也没有连接所述交流电源时,所述的内部电池539才向所述的电源转换器536(从而最终向计算机102)提供能量。计算机102还包括一个分开的电池充电器534,用于在未使用状态下周期性地对所述内部电池539和外部电池540进行充电。计算机102还可以包括一个附着于系统单元106前面板302上的电池供电指示器,用于指示在什么时候所述外部电池540/或内部电池539的较低电平是低的。
最好使用底板电路插件板,处理器电路插件板,存贮器电路插件板,输入/输出电路插件板和输入/输出连接电路插件板,以本技术领域内普通技术人员所公知的方式去实现以上所述的总线502,CPU504,存贮器506,输入/输出接口510,输入/输出连接器518以及电源转换器536。所述的处理器电路插件板,存贮器电路插件板,输入/输出电路插件板和输入/输出连接电路插件板被插入到所述的底板电路插件板内.最好使用可从Dover Electronics Menufacturing of Longmont.co and Ampro Computers of Sunnyvale获得的IBM PC/AT兼容和/或80386可兼容电路插件板。得自Dover Electronics Manufacturing的电路插件板大约作用2×5×2英寸的三维空间,而来自Ampro的每个电路插件板大约是3.8×3.6英寸。但是,本计术领域的普通技术人员将会理解,可以使用与所述系统单元106相对小尺寸相一致的任一种功能兼容的电路来插件板来取代从Dover Electrorics Manufacturing获得的电路插件板。
所述的计算机102还包括一个显示装置,在结合图1,图2所如上所述的当前实施例中,这个显示装置包括一个头箍108,一个显示屏110。一个把显示屏110连接到头箍108上的可调节臂112。如图5所示。所述的显示装置还包括一个显示屏驱动模块514,该模块514最好被置于系统单元106之内并且定边可以有选择地置于系统单元106的外面靠近所述显示屏110的地方。所述的显示屏驱动模514将从CPU504(通过输入/输出接口510,总线502和输入/输出连接器518)所接收的显示信息(即:需要向操作者显示的信息)转换成视频信号。该视频信号被送往显示屏110并与其相兼容。所述的显示屏驱动模块514是本技术领域普通技术人员所公知的标准设计。
所述的显示屏110最好是一个称之为“目镜监视器”的小型监视器,这种监视器提供等效于12英寸监视器的显示(即大约25行,每行80个字符),但其观察屏的对角线长度约为一英寸。由于所述显示屏110的位置靠近所述操作者的眼镜并且利用所述观察者的头加以支撑,所以跟随所述操作者的头部运动。所述的操作者就可以通过仅从正在被修理的设备到所述显示屏110看上一眼去观察所述显示屏110上的信息,而不必离开它的工作台(在那里,例为有一台设备正在被修理。)由于这种信息可以在不太大地转移所述操作者对其工作注意力的情况下被观察到,所以如上所述的显示屏110可以很方便地保持包含在一个电子数据库中的信息。本技术领域以内的普通技术人员将可以理解,使用在目前或将来可以获得的任一视频技术,诸如彩色图象适配器(CGA),加强的图象适配器(EGA)视频图象阵列(VGA)和超VGA都可以完成所述的显示屏110和显示屏驱动模块514然而,根据当前的实施例,所述的显示屏110和显示屏驱动模块514是利用公知的彩色图象适配器(CGA)技术来完成的。所述CGA目镜监视器可以从包括Waltham的Rtflecfion Fechnology Inc在内的许多卖主那里获得,上述公司生产和销售民用目镜监视器。另外,所述的显示屏110和显示屏驱动模块514还可以使用众所周知的(单色或彩色)视频图象适配器(VGA)技术来完成。依据公知的彩色光栅轮(shutter wheel),技术而进行工作的VGA目镜监视器可以得自于诸如由Tektronix Inc.,of Beaverton Oregon所生产的Nucolor光栅shutter。所述的显示装置还可以是一种附着于所述系统单元106上的扁平面板显示屏。
图11示出了连接到一个通用显示屏驱动模块514的惯用显示屏110的功能方框图,上述二者都依据彩色光栅轮技术而进行工作,所述的显示屏110具有一个单色阴极射线管(CRT)1106和一个具有彩色偏振器1110的滤光器1108,所述的彩色偏振器1110用于将来自CRT1106的光产生偏振,并分离成青色(即兰色和绿色)和红色成份。滤光器1108还包括一个纸绝缘单元(Pi-cell)1112,该单元1112最好是一个相对快速的液晶开关以用于使来自所述彩色偏振器1110偏振光旋转0度或90度。所述的滤光器1108还包括一个第二彩色偏振器1114,以用于将来自所述纸绝缘单元1112的光产生偏振,并分离成黄色(即红色和绿色)和兰色,这就有效的使所述的兰色成份从绿色中分离出来所述的滤光器1108还包括一个第二纸绝缘单元1116。以用于使来自彩色偏振器1114的偏振光旋转0度或90度。
所述的显示屏驱动模块514包括一个视频接口1102,该接口接收来自总线502,并代表在所述显示屏110上将要显示的数据的信号。并且将所述信号转换成通常具有图象和彩色信息的视频信号。所述的视频信号被光栅控制器1104所接收,从而使得所述CRT1106根据所述的图象信息去显示一个图象,并根据所述的彩色信息控制滤光器1108,从而把所述CRT1106所显示的图象转换成彩色图象。
通过选择所述纸绝缘单元1112和1116适当和状态组合,所述的光栅控制器1104使得滤光器1108发送红色,绿色或兰色图象,例如,为了发送绿色,所述的光栅控制器1104就要置位纸绝缘单元1112和1116,以使其旋转0角度,这样,来向所述第一彩色偏振器1110的兰色和绿色成份就可以不受形响地通过第一纸绝缘单元1112。然后,垂直取向的黄色偏振器1114吸收兰色成份,并仅仅留下绿色成份(注意:由于通过滤光器1108所发送的光总是垂直偏振的,所以,在这里仅考虑了垂直成份)。
为了发送红色光,所述的光栅控制器1104将置位第一纸绝缘单元1112,使其旋转90度,并置位第二纸绝缘单元1116,使其旋转0度。这样一种调整将红色成份置于垂直位置,从而使红色成份不受形响地通过黄色偏振器1114。为了发送兰色光,所述的光栅控制器1104使纸绝缘单元1112和1116同时旋转90度,借此使最出垂直偏振的兰色成分产生旋转,并通过水平取向的兰色偏振器1110。彩色光栅轮技术在Thomas J.Haven的“再创造彩色轮”(信息显示.Vol.7 No.1 January 1991.Pages 11-15)一文中进行了进一步的描述。在这里以其全文作为参考。
再参看图5,所述计算机102还包括各种外围设备,诸如为内部指示设备230,诸如是磁存贮设备519的存贮装置,诸如是仪表组件116的测量装置,话筒122和声音识别模块522,所有这些装置都通过所述的输入/输出连接器518连接到系统单元106(和特别是连接到用于对所述外围设备和CPU504之间的数据传输进行控制的输入/输出接口510)。所述的内部指示设备是一个公知的诸如鼠标器,触敏盘或回旋鼠标的指示设备,所述的回旋鼠标器被连接到所述系统单元106的顶面板302上(为图3所示),它代表了如下所述的在所述操作者不希望或不能够通过声音(即通过话筒122和声音识别模块522)与所述计算机102相互作用的情况下,为所述操作者的提供的与计算机102相互作用(即向CPU504提供命令和数据)而提供的另一种装置。例如,在环境噪声大大超过外部听觉保护能力的工作场合,所述操作者不可能通过声音与所述计算机相互作用。本发明还提供了诸如条形码阅读器,触摸存贮阅读器以及邻近扫描器等其它的非音频输入设备,当所述的操作者不希望或不能通过声音与所述计算机102相互作用时,可以使用这些设备。
所述计算机102还包括一个色转换部件542以及一个天线544,在本实施例中,所述天线504最好被包容在所述系统单元106之中,并使得计算机102能够通过公知的这段通讯装置,诸为通过电话或卫星向一个远程位置传送或从这些位置接收信息。对于伴随着从一个远程计算机或其它数据源所接收的信息实时地对存贮于磁存贮设备519(下面叙述)中的数据库520进行更新而言,所述的色交换部件542和天线544是特别有用的。所述的计算机102可以包括一个全局置位系统构件(在图5中未示出)以用于(通过天线544)接收和处理来自一个导航系统,诸为是一个全局置位系统的置位信息。
所述的磁存贮设备519最好被包容在系统单元106之中,它是一个诸如是可取下或不可取下的硬磁盘驱动器的具有相对大存贮容量的静态读/写存贮器。在使用可取下存贮设备519的实施例中,所述系统单元106含有一个外部槽,以允许操作者插入或取下存贮磁盘。一个任选存贮设备519可以是一个诸如CR-ROM的只读存贮器。所述的磁存贮设备519最好包括和80兆字节到一千兆字节存贮器。适宜于用作所述磁存贮设备519且其规模和所述系统单元106的规模相兼容的磁存贮设备是由诸如Integral.Conner.Staga在和Syquest等各制造厂生产和销售的。如图5所示,所述的磁存贮设备519存贮一个数据库520(该数据库可以是一个ETM或一个IETM),该数据库520可以预先从一个软盘驱动器(图5中未示出)装入到所述的磁存贮设备519中,所述的软盘驱动器可以通过所述输入/输出连接518上的一个端口连接到计算机102上,或者是通过一个利用所述色交换构件542和天线544使其连接到所述计算机上的远程通讯链路从一个远程计算机连接到所述计算机102上,或通过一个直通电缆连接到计算机102上。
所述的仪表组件116包括诸如是万用表524,计数器/定时器526的电子测量仪器和用于将这些电子测量仪器连接到诸如是一个IEEE-1708连接器528,一个IEEE-1553连接器530和一个IEEE-1708连接器532等的正在被评价和服务的设备之上的多个端口。本技术领域以内的普通技术人员将会认识到,所述的仪表组件116可以包含其它类型的电子测量仪器和端口。参看图1,在工作过程中,在所述仪表组件116中的电子测量仪器通过连接到连接口528,530和532中的任一个(取决于在DUT120上接口的特定类型)的电缆118被连接到正在被评价和维修的一个设备上,这种设备下面将称之为测试下的设备(DUT)。来自DUT120的数据由万用表524计数器/计时器526和/或包容于所述仪表组件116中的任一其它测量仪器进行测试(在对正在被执行的试验适当的情况下)。这种测试结果通过输入/输出连接器518和总线502从所述的仪表组件被传送给CPU504。因此,它们可以被存贮在以电池供电的存贮器芯片上。
再一次参看图5,所述的计算机102还可以包括一个不用操作者承重(例如,宁可说是放在桌上)并且通过所述监视器端口(为图4所示)连接到系统单元106。所述的外部监视器516和显示屏(通过显示屏驱动模块514)一样从CPU接收相同的显示信息。所述的计算机102还可以包括一个外键盘和鼠标器(未示出),它们通过键盘端口410和鼠标端口412分别连接到系统单元106上。所述的外部键盘和鼠标代表了一种使操作者和计算机106相互作用的惯用装置。当所述和计算机102工作于非便携模式(即作为台式计算机)时,所述的外部监视器516,外部键盘和外部鼠标器最好都被连接到系统单元106上。
所述的声音识别模块522最好被包容于系统单元106之中,并被连接到话筒122(该话筒最好是一个置于系统单元106之外的耳话筒)。因此,所述的声音识别模块522可以被置于系统单元106之外,并且例如与所述话筒可以作为共同工作一个单一的装置。因此,所述声音识别模块522的一个模/数转换器构件被置于系统单元102之外,而所述声音识别模块522的其余构件被置于系统单元102之内,所述的外部模/数转换器最好通过一个串联通讯流与所述的系统单元进行通信,所述的话筒122,从所述的操作者那里接收音频输入(也称之为发音表达),将所述的音频输入转换成电子信号并将所述的电子信号数字化。所述的声音识别模块122识别所述的发音表达(这些发音表达以数字化的电信号形式存在),并将识别后的发音表达传送给CPU504,以根据应用程序508对其进行处理。然后,就向一个惯用键盘驱动器将由操作员在惯用键盘上打字所产生的电信号翻译成字符或文字一样,所述的声音识别模块522将所述操作员靠近话筒122发音或进入话筒122的声音所引起的数字化电信号翻译(或识别)成字者或文字。接着,与惯用的输入设备,诸如键盘和点入设备相类似,与话筒122相互组合的所述声音识别模块522提供一种装置,用于使操作者能与计算机102相互作用,并能控制其操作。
所述的声音识别模块522最好依据公知的相关声音识别算法进行工作,并且利用公知类型的硬件来完成。根据一个最佳实施例,所述的声音识别模块522是一个可以从Irving California的Voice Connection获得的相关声音识别电路插件版。然而,本技术领域的普通技术人员将会理解,可以使用任何其规模与系统单元106的规模相兼容的相关声音识别电路插件。
所述的声音识别模块522基于公知的独立声音识别算法而工作,所述独立声音识别算法表示在相关声音识别算法基础上的一种改进。特别是,一个独立声音识别模块能够识别由多个扬声器所发出的声音,并且可以包括一个“好听者”,一个用于对培训用语模块进行实时修改的学习特性。相反,一个相关声音识别模块仅能识别一个单一扬声器发出的声音。
另外,一个独立声音识别模块可以和一个应用程序集成到一起。一个应用程序应当可以和一个独立声音识别模块相互作用,以使得所述独立声音识别模块能够去识别对着整个培训用语模块的一个子集的发音表达。所述的用语子集应当包括,例如相应于在所述应用程序的当前上下文关系中菜单选择的字句。相反,所述的相关声音识别模块不能与所述的应用程序集成到一起。因此,由于相关声音识别模块通常试图从整个用语中去识别所述的发音表达。所以,它的可靠性比起独立声音识别模块来讲要差。在美国专利5,025,471、4,969,193和4,672,667中描述了与独立声音识别,特别是与独立声音识别相关的系统和方法,这里以它们的全文作为参考。
图6示出了计算机102的部分方框图,其中,所述的声音识别模块522是以软件的形式而不是以硬件的形式来完成的,关于这一点请参见图5。特别是图6示出了(与图5相比较)计算机102结构差异的局部方框图,这种计算机用于去完成另外一个实施例,在这个实施例中,所述的声音识别模块522是由软件来完成的。如图6所示,软件执行程序是用522’而不是522来指示的以便强调其软件特性,并且在计算机102在工作时所述的软件执行程序被存贮于存贮器506之中。随然,所述的声音识别模块522’最好依据独立声音识别算法进行工作,并且作为由Scott Instrumtnts of Denton,Texas所生产的独立声音识别软件来加以执行,但它仍然可以基于相关或独立声音识别算法进行工作。实际上,所述的应用程序和声音识别模块522’可以被链接成一个单一的计算机程序,该程序可以按照操作员的指令从所述的磁存贮装置519加载到存贮器506中。
根据其中所述声音识别模块522’是由一个软件来完成的另一实施例,所述的计算机102包括一个模/数转换器608,该模/数转换器608具有缓冲器610,并且它最好被置于系统单元106之中。所述的模/数转换器608连接到话筒122。在工作过程中,所述话筒122将由操作员所发出的音频输入转换成电信号。模/数转换器608将所述的电信号数字化,并将数字化的电信号存入缓冲器610。中以备将来由CPU504加以恢复。
下面参考图7、8、9和10来描述所述计算机系统102的工作情况,其中,图7和图8表示了使用相关声音识别模块(利用硬件或软件完成的)的计算机102的工作情况,图9和10表示了使用独立声音识别模块(利用硬件或软件完成的)的计算机102的工作情况。
首先参看图7。它示出了根据其中使用了相关声音识别模块的实施例中所述计算机系统102的工作流程图。当执行图7所示的步骤时,计算机系统102根据包含在应用程序508之中的编程进行工作。虽然应当理解,图6所示的计算机102的另一个构成实施例其工作方式基本上与图7所示之流程图相同,但为简化起见,还是参照图5所示计算机102的结构实施例对图7加以描述。
在步骤704,CPU504等待用户从一个键盘缓冲器(未示出)输入信息。实际上,所述CPU504可以通过对键盘缓冲器进行定时询问或通过在键盘缓冲器满载时接收一个中断来执行步骤704。在上述任一种情况下,当所述键盘缓冲器被键盘驱动器或者是与所述键盘缓冲器相关的其它操作系统工具所齐平时,所述的CPU504从键盘缓冲器接收用户输入。注意,所述在键盘缓冲器中的用户输入可以产生于诸如键盘或点输入设备的惯用输入设备,或产生于所述的声音识别模块522。
在步骤706,所述CPU504根据包含于应用程序508之中的编程对用户输入进行处理。例如,用户输入可以代表一个来自用户的命令,以用于从存贮于所述磁存贮设备519内的数据库520中恢复特定数据。通过从所述数据库520中存取和恢复所需数据并将恢复的数据传送给向用户作显示用的显示屏110,CPU504处理所述的用户命令。特别是,所述CPU504将以恢复的数据和一个在显示屏110上对所述数据进行显示的请求一起传送给输入/输出接口510。所述的输入/输出接口510将所恢复的数据转换成大体上适宜于在所述监视器上进行显示的类视频信号。并通过所述的输入/输出连接器518将这些类视频信号传送给显示屏驱动模块514。所述的显示屏驱动模块514将所述的类视频信号转换成与特定显示屏110相兼容的视频信号。另外,所述的用户输入应当是一个由所述用户提供给计算机102的信息(例如是一个在所述存贮设备520中进行存贮的信息)。
在步骤708,CPU504判断所述的用户命令是否是一个退出请求。若所述的用户命令不表示一个退出请求,那么CPU504返回到步骤704以等待进一步的用户输入。
图8示出了一个声音识别模块522(图5所示)或一个声音识别模块522’所述模/数转换器608(图6所示)相结合的工作流程图,其中,所述的声音识别模块522或522’是依据相关声音识别算法而进行工作的。注意,在执行图8所示各步骤之前,使用与特定操作员相关的公知方法对所述的声音识别模块522或522’进行排序以产生包含有由所述声音识别模块522或522’能够识别的字或词组的用语模式。由于它是公知的,所以除了应当注意对于每个由所述声音识别模块522或522’所能够识别的字或词组而言,所述的用语模块仅包含有限数量(诸为5个)相应于在其中所述特定操作员(对他而言,所述识别模块522或522’被排序讲述一个字或词组的不同发音方式的数字化波形以外,这里就不再讨论所述的用语模式了,图12示出了一个两字词的一个这种波形的例如(所述两字词诸为是“Next Menu”或“End Program”),其中所述第一字是由时间4和13之间的点所表示的,而第二字是由时间16和22之间的点表示的。所述字的分界是由时间。和3、14和15以入23和26之间的点所确定的,所述的时间26已降到能量阈值以下,且它是针对某个特定操作员而确定的。所述的用语模式也含有与所述声音识别模块522或522’所识别的每个字和词组相关的一个或多个操作员所选择的键盘笔划。例如,若所述应用程序508将键盘笔划“Ctrl”,“X”识别成“End Program”命令的话,那么,词组“End Program”就可能涉及到键盘笔划“Ctrl”“X”。
下而来描述图8。为简便起见,下面将结合图5所示之计算机102的构成实施例对图8进行描述,尽管应当理解图6所示之计算机102的另一个构成实施例基本下也以与图8所示之流程图相同的方式工作。
参看图8,在步骤806,所述的声音识别模块522从所述的话筒122接收代表一个由操作珞所发出的发音表达的电信号,将所接收的电信号数字化,并将数字化的电信号传送给所述的声音识别模块522。
在步骤808,所述的声音识别模块522通过在相对于某个特定操作员而言降到能量阈值(例如,为图12所示)以下的数字化电信号中设置多个点来鉴别包含在数字化电信号中的字或词组的边界,所设置的多个点表示了多个字的边界。如果在数字化电信号中的多个字是由少于预定数量(这个数量是根据特定操作员的讲话特征而设定的)的降至能量阈值以下的点进行分隔的,那么,所述的声音模块522将确定在数字化电信号中包含的是一个词组(即:多个字,而不是一个单字。在相应一个字或一个词组的数字化电信号中的多个点表示了数字化的发音表达波形,这种发音表达波形是从操作员那里接收的(即:它是由操作员的讲述的)。例如,如果图12表示了所述数字化电信号,并假设预先规定量为5,那么所述的声音识别模块522将确定(在步骤808):由于仅利用4个降到能量阈值以下的点(时间13和15之间),来间隔两个字,那么,所述数字化的电信号含有具有两个字的一个词组。在相应于两字词的数字化电信号中的多个点表示了所接收数字化的发音表达波形。
在步骤810,812,814和816中,通过相对于存贮在所述用语模式中的所有数字化波形(对应于在其中某个特定操作员讲述不同字的不同方式)来匹配所接收的数字化发音表达波形使得所述的声音识别模块522能够识别所接收的数字化发音表达波形。特别是,在步骤810,所述的声音识别模块522从所述的用语模式中选择下一个字以进行处理。不要忘记,所述的用语模式包含有与所选择的字相关的有限量的数字化波形,这些所选择的字相应于不同的方式,而地这些方式中,特定操作员讲述着所选择的字,并且还要记住,所述的用语模式包含有与所选择字相关的一个或多个操作员所选择的键盘笔划。
在步骤812,所述的声音识别模块522执行的接收的数字化发音表达波形和与所选择字相关的数字化波形的逐点比较,并确定在所接收的数字化发音表达波形和任一与所选择字相关的数字化波形之间是否存在有匹配关系。所述的声音识别模块522确定:如果在两个点之间的差别少于操作员所预先规定的限量,那么,在所接收的数字化发音表达波形中某个点和在一个数字化波形中所包含的恰好相应点之间就会发生匹配。所述的操作员预先规定的限量在某些执行过程中可以是零。
在步骤814,所述的声音识别模块522确定在步骤812中是否获得了匹配,如果没有获得匹配,处理进行到步骤816。在步骤816中,所述的声音识别模块512确定所述的用语模块是否还留有任意一个多个字待进行处理。如果在步骤816中,所述的声音识别模块522确定有任意一个多个字尚须进行处理,那么,所述的声音识别模块522将返回到步骤810以从所述的用语模块中选择下一个字进行处理。否则,所述的声音识别模块522将确定根据所述用语模块当前的,没有能够识别出所接收的数字化发音表达波形并返回到步骤860,以等待进一步的操作员输入。注意,当依据相关声音识别算法进行工作时,所述的声音识别模块522不与所述的操作员相互作用去更新所述用语模块的训练以达到识别所接收的数字化发音表达波形。
如果在步骤814中所述的声音识别模块522确定在步骤812中获得了匹配那么所述的声音识别模块522将执行步骤818。在步骤818中,所述的声音识别模块522将所接收的数字化发音表达波形变换成包容于所述用语模块之中并与所述选择的字(该字与所接收的数字化发音表达波形相匹配)相关的键盘笔划。在步骤820,所述的声音识别模块522将所述的键盘笔划存贮于所述的键盘缓冲器之中。如上所述,当所述的键盘缓冲器被齐平时,利用CPU504对所述键盘缓冲器中的键盘笔划进行处理(见对图2步骤704叙述的有关正文)。
图9示出了根据本发明为下一个实施例的计算机系统102的工作流程图,在该实施例中,使用了独立的声音识别模块。在执行图9所示之步骤时,所述的计算机系统102是依据包含于应用程序508之中的编程进行工作的。
为简便起见,下面结合图6所示计算机102的构成实施例对图9进行叙述,尽管应当理解图5所示之计算机102的另一个构成实施例基本上以与图9所示之流程图相同的方式进行工作的。
注意,在执行图9所示之各步骤以前,利用众所周知的方法相对于多个操作员对所述的声音识别模块522’进行了排序,以产生一个包含有由所述声音识别模块522’进行识别的字和词组的用语模块。由于它是一种公知技术,所以除了要注意对于由所述声音识别模块522所识别的每一个字或词组而言,所述的用语模块包含有相应于所述字或词组的基线读法的单一数字化波形以外,这里就不现再对所述的用语模块进行讨论了。上面已经叙述过的图12是一个这种包含有两字词的数字化波形的例子。所述的用语模块还包括与由所述声音识别模块522’所识别的每一个字或词组相关的操作员所选择的信息串(每一个都具有一个或多字字符)。例如,如果所述应用程序508能够将所述的信息串“<ctri>x”识别成“End Program”命令,那么,词组“End Program”就可能和字串“<ctri>x”结合起来。
所述的用语模块还包括有与数字化基线波形中多个点中每一个点相关的可能用语,所述的可能用语代表了由多个操作员所读的字或词组的不同方式,而为了这些操作员,所述的声音识别模块522’进行了排序。例如,假定图12中的数字化滤形代表一个包含在所述用语模块中的数字化基线波形,并假定在与时间10处的所述点相关的可能变化为2,同时假定在时间10的点数字幅值为15。根据这个例子,至少相对于要时间10处的所述点而言,在时间点10处其幅值在从13到17这个范围以内的数字化发音表达波形将与图12的数字化基线波形相匹配。
现在参看图9,在步骤904,所述的CPU504确定在所述的模/数转换器608中是否存在由一个操作出讲出并进入话筒122的发音表达。实际上,所述的话筒122将来自一个操作员的音频信号(即来自一个操作员的发音表达),转换成电信号,并将所述的电信号传送给模/数转换器608。所述的模/数转换器608将所接收的电信号数字化,并把这些数字化的电信号放入缓冲器610。CPU504通过对所述的模/数转换器608进行定时询问以执行步骤904,从而确定在什么时候所述的缓冲器被填充满。当所述的缓冲器被填充满时,CPU504指令所述的模/数转换器608通过总线502从所述的缓冲器610向CPU504传送数字化的电信号(这些电信号代表数字化的发音表达)。
在步骤906,CPU504通过总线502从模/数转换器608接收数字化的发音表达。
在步骤908,CPU504使所述的声音识别模块522’针对包含在所述用语模块中的字和词组的一个子集去识别数字化的发音表达。即,CPU504将一定数量的字和词组传送给所述的声音识别模块522’,并指令所述的声音识别模块522’去确定所述的数字化发音表达是否与涉及到所传送的字和词组和任一所存贮的数字化基线波形相匹配,其结果是考虑到了与每个数字化基线波形相关的可能变化。执行步骤908的结果是所述的声音识别模块522’将存贮于所述用语模块并与所述匹配字或词组相关的信息串传送给CPU504以用作处理。
在实际中,由CPU504传送给所述声音识别模块522’的字表示了从应用程序508的当前上下文中所进行的菜单选择。例如,所述的应用程序508可以要求所述的操作员从一个菜单选择中进行选择。在处理步骤908,所述的声音识别模块522’将确定所述操作者的发音响应是否与任一菜单选择相匹配。实际上,在图9的处理步骤中,CPU504可以按照在应用程序508中的编程,通过调用存贮于所述声音识别模块522’中的软件程序与所述的声音识别模块522’相互作用。
在步骤916,CPU504根据应用程序508中的特殊编程对所识别的字或词组进行处理(即,在步骤908中被返回的字串)。例如,所识别的字或词组可以表示一个来自所述操作员并对来自数据库520的一个特定信息进行存取的命令。在这种情况下,CPU504将从设置于所述磁存贮设备519中的数据库520中存取和恢复所需的数据。然后,CPU504将把所恢复的数据传送给显示屏110,以用于向操作员进行显示。
在步骤918,CPU504确定所识别的字或词组是否表示了一个退出命令,假如所识别的字或词组并不代表一个退出命令,那么,CPU504将返回到步骤904,以等待操作员的进一步指令。否则,CPU504将在步骤920结束所述的应用程序。
所述声音识别模块522’执行步骤908(示于图9)的方式示于图10,它表示了所述声音识别模块522’的工作流程图,其中,所述的声音识别模块522’依据独立的声音识别算法而进行工作。注意,在执行图10所示各步骤以前,利用参考图9所指述的公知方法相对于多个操作员对所述的声音识别模块522’进行了排序。
在步骤1004,所述的声音识别模块522’通过在降到所述能量阈值以下的数字化电信号(例如,如图12所示)设置多个点来鉴定包含中所述数字化电信号(它们表示了所述的数字化发音表达)的字或词组的边界,所设置的多个点表示了多个字的边界。若在所述数字化电信号中的多个字是由少于预定数量(这个预定数量是依据某个特定操作员的发音特征而设置的)的降至所述能量阈值以下的多个点所隔开的,那么,所述的声音识别模块522’就确定所述的数字化电信号所包含的词组是(即多个字)而不是单字。在相应于一个字或词组的数字化电信号中的多个点代表了接收自所述操作员的数字化发音表达波形(即,它是由所述操作员讲述的)。例如,假设图12表示所述和数字化电信号并假定预先确定量为5,那么,所述的声音识别模块522’就(在步骤1004)确定:由于仅使用了降至所述能量阈值以下的4个点(在时间13和15之间)对两个字进行分割,所以,所述的数字化电信号包含有一个具有两个字的词组。在相应于两字词的数字化电信号中的多个点表示所接收的数字化发音表达波形。
在步骤1006,所述的声音识别模块522’将从由CPU504传送给所述声音识别模块522’的字和词组的一个子集中选择下一个字或词组。
要步骤1008中,所述的声音识别模块522’将对所述的数字化发音表达波形和与所选择的字或词组相关的数字化扫描行波形进行逐点比较,并根据与所述数字化基线波形相关的许可变化确定在所接收的数字化发音表达波形和所述的数字化基线波形之间是否存在有匹配。如果有两个点之间的差异少于与那个特定点相关的许可变化,那么,所述的声音识别模块522’就确定在所接收的数字化发音表达波形和包含在所述数字化基线波形中恰好的一个点之间产生了匹配。在处理步骤1008,所述的声音识别模块522’将产生一个与所选择的字或词组相关的识别得分,该识别得分基本上代表了在每个点处所接收的数字化发音表达波形和所述数字化扫描的波形之间差异的累积和。因此,一个较低的识别得分表现在所接收的数字化发音表达波形和所述的数字化扫描行波形更接近于相互匹配。
在步骤1010,所述的声音识别模块522’确定与所选择字或词组相关的识别得分是否少于一个最大值的许可得分,该最大值许可得分是一个可由操作员进行调节的软件。若与所选择的字或词组相关的识别得分大于最大值许可得分,那么,所述的声音识别模块522’就确定所选择的字或词组和所接收的数字化发音表达波形相互不匹配,并且处理进行到1014。若与所选择的字或词组相关的识别得分小于最大值许可得分,那么,所述的声音识别模块522’就确定所选择的字或词组与所接收的数字化发音表达波形相互匹配(到如下所述的某个置信级)并且处理进行到步骤1012。
在步骤1012,所述的声音识别模块522’将所选择的字或词组加到一个可接受的字表上。在所述可接受字表中的多个字和词组利用它们各自识别得分按照升序被排队,从而使得在所述可接受字表中的第一个输入具有最低的识别得分。
在步骤1014,所述的声音识别模块522’确定由CPU504传送给所述声音识别模块522’的所有的字和词组是否都已经被处理了。若还有多个字和/或词组需要进行处理,那么,CPU504将返回到步骤1006。否则,CPU504进行步骤1016的处理。
在图10的剩余步骤中,所述的声音识别模块522’与操作员相互作用,以确定在所述的可接受字表中的哪一个字或词组是所述操作员讲述的字或词组。特别是,步骤1016,所述的声音识别模块522’选择可接受字表中的第一个输入。不要忘记,所述的第一输入具有可接收字表中所有输入的最低声音识别得分。
在步骤1018,所述的声音识别模块522’通过从所述第一输入的识别得入分中减去所述第二输入的识别得分来产生一个与所述第一输入相关的置信值。所述第一输入的置信值定量地表示由所述的声音识别模块522’将其确定为由操作员所讲述的是一个字或一个词组的可信程度。在步骤1020,所述的声音识别模块522’通过将所述的置信值和由操作员所选择的最小置信值相比较来确定所述第一输入的置信值是高还是低。假如所述的置信值大于所述的最小置信值,那么,所述的置信值为高,所述的声音识别模块522’执行步骤1030所规定的处理。在步骤1030,由于所述第一输入的置信值为高,所以所述声音识别模块522’返回到CPU504,即与所述第一输入相关的信息串返回到CPU504以进行相关处理(图9的步骤916)。
若在步骤1020所述的置信值小于所述的最小置信值,那么置信值为低,所述的声音识别模块522’执行步骤1022。在步骤1022中,所述的声音识别模块522’询问操作员所述的第一输入是否是一个正确的字或词(即是否是由操作员所讲述的字或词)。所述的声音识别模块522’可以通过在显示屏110上向操作者显示一个消息或者是通过利用扬声器322以音频的形式向操作员传递一个消息(或者如果话筒/扬声器122是一个耳式话筒,则向该话筒/扬声器传递消息,或者如果所述的话筒122是一个耳机式话筒并且没有用于输出音频信号的传感器,那么将向一个独立的扬声器传送音频形式的消息)对所述操作员进行询问。操作员可以诸如对话筒122讲话或者操纵点入设备330的多种方式对来自声音识别模块522’的询问作出响应。假如操作员的反应是所述第一输入是正确的,那么,声音识别模块522’进入到处理步骤1028(以下将要叙述),否则,所述的声音识别模块522’执行步骤1024的处理。
在步骤1024,由于操作员指示所述的第一输入是不正确的,所述的声音识别模块522’确定在所述可接受的字表中是否还有多个输入需要进行处理。如果还有多个输入需要处理,那么,所述的声音识别模块522’执行步骤1026的处理。在其中,所述的声音识别模块522’选择可接受字表中的下一个输入,然后返回到步骤1022去询问操作员新选择的输入是否正确的。反之,若没有形成输入需要处理(见步骤1024),所述的声音识别模块522’执行步骤1028的处理。
如上所述,在下述两种情况之一时到达步骤1028,它们是:(1)、在步骤1022,操作员指出所选择的输入是正确的;或(2)、在步骤1024,操作员有效地表示在所述可接收字表内的所有输入都是不正确的。在步骤1028,所述的声音识别模块522’与操作员相互作用,以根据公知的方法对用语模块的排序进行修正,从而使得所述声音识别模块522’在将来能够更加可靠地识别操作员的发音表达,由于所述的声音识别模块522’在步骤1028中使用了公知的方法,所以步骤1028就不再这里加以描述了。
在对所述用语模块的排序进行修正以后,所述的声音识别模块行522’执行步骤1030的处理。在其中,所述的声音识别模块522’返回到CPU504以用于处理(图9步骤916)与某个字或词相关的排序,所述的某个字或词与由操作员所指出发音表达相匹配(步骤1022和1028)。
在描述了本发明最佳实施例和建议了对它的某些修改的同时,本专业技术领域以内的普通技术人员应该认识到,可以在不脱离本发明范围和精神的前提下对本发明的上述实施例作出另外的变化。因此,应当理解,本发明并不局限于特定实施例,但却覆盖了由所附权利要求所规定的落入本发明范围和精神之内的所有修改。例如,本发明的计算机系统102可以应用于很多场合,包括(但并不局限于)有限度地应用于教育目的,测试和维修目的以及商品物质清单等目的。