自动产生关键词分类表的系统.pdf

摘要
申请专利号：	CN03157159.X	申请日：	2003.09.16
公开号：	CN1598816A	公开日：	2005.03.23
当前法律状态：	撤回	有效性：	无权
法律详情：	发明专利申请公布后的视为撤回\|\|\|实质审查的生效\|\|\|公开
IPC分类号：	G06F17/30	主分类号：	G06F17/30
申请人：	崇越科技股份有限公司;
发明人：	郭智辉; 陈严; 蔡秀铃; 杨绍禹; 董作鹏; 黄耀宗; 曾慧欣
地址：	台湾省台北市
优先权：
专利代理机构：	北京三友知识产权代理有限公司	代理人：	马娅佳
PDF下载：	PDF下载

内容摘要

自动产生关键词分类表的系统，包括有原始数据库，与中央处理单元相连接，储放有原始文件资料，接收并删除原始资料文件资料的标题名称及内文资料中重复出现的文字，获得前置文件资料，且储存至与中央处理单元相连接的前置数据库中，前置文件资料包含有原始数据库名称、新标题名称、新内文资料及所相对应的序列号；接着中央处理单元再将前置文件资料的文字，以每单一文字作为查询字并配合所相对应的序列号，而储存至检索数据库中，即每一查询字相对有一序列号，当使用者输入至少一关键词时，中央处理单元依据输入的关键词与每一查询字比对，产生关键词分类表，表中会呈现与关键词相同的查询字及相对于查询字的序列号，以便于使用者获得所需的资料。

权利要求书

1.  一种自动产生关键词分类表的系统，其特征在于，包括有至少一原始数据库，该原始数据库储放有原始文件资料，该原始文件资料包含有一标题名称及一内文资料；一中央处理单元，与该原始数据库相连接，以接收处理该原始文件资料，其删除该标题名称及该内文资料中重复出现的文字，获得一新标题名称及一新内文资料及所相对应的一序列号，并连同该原始数据库的名称而一并储存至一与该中央处理单元相连接的一前置数据库中，前置文件资料的文字会再经该中央处理单元处理，以每一单一文字作为查询字并配合所相对应的该序列号，而储存至一检索数据库中，即每一查询字相对有一序列号，当至少一关键词被输入该系统时，该中央处理单元会将该关键词与每一该查询字进行比对，产生一关键词分类表，表中会呈现与关键词相同的查询字及相对于该查询字的序列号。

2.  如权利要求1所述的自动产生关键词分类表的系统，其特征在于，当该关键词为二个字以上时，该中央处理单元会以交集的方式进行比对，即于各个该查询字皆有出现的序列号，才会被显示出该序列号。

3.  如权利要求1所述的自动产生关键词分类表的系统，其特征在于，该前置文件资料内更进一步包含一读取权限字段，以限制该使用者的检索资料的权限，透过该使用者的一身分确认的方式，判别该使用者的读取权限。

说明书

自动产生关键词分类表的系统
技术领域
本发明有关于一种自动产生关键词分类表的系统，特别是关于一种可处理复数数据库内的资料，而产生检索文件资料，且可依据使用者所输入的关键词，自动产生关键词分类表，以让使用者可快速获知欲查询数据的功用。
背景技术
按，建立数据库旨在希望使用者快速地整理资料和进行统计分析，进而提供有用的信息给管理者。例如建立数据库，可以帮助使用者实时的搜寻到相关的资料；以建立正确的判断，可以帮助使用者确认工作任务，适当地修改个人决策的方向，并计画未来计画的策略，有了完整的数据库，将有助于我们后续的决策方向。
数据库大致上可区分为两种，一种是独立表格(flat table)，而另一种是关系数据库(relational database)。独立表格为一普通建立的数据库格式，表格与表格间的字段没有特定的关系，字段名会重复，每段子程序执行时会呼叫各别的表格，各个表格彼此间并无关联，因此主程序内就有上百个数据库，相当复杂。有别于独立表格，关系数据库可被定义为由一个共同的资料种类将一大群来自不同表格的数据链路到其它的资料表上。关联性数据库的资料可以由一个共同的变项，从多个不同的数据库撷取资料出来一起分析，然后再结合成一个新的表格以供打印和报告。
一般数据库的建置方式，以出现于许多文献杂志上，例如：专利第432300号的白字归类方法、白字数据库、白字数据库建立的方法及白字输入查询系统，其揭示透过一种利用将日常的国字归类成六种，透过输入国字的方式以进行查询，其为一种透过将资料分类的方式以进行检索的方法，而专利第459187号的数据库快速查询方法，将数据库以阶层式加以组织，透过将资料以序类号的方式以进行检索，由于要先将序类号建置出来，故为一种较为复杂的数据库建置的方法。
发明内容
本发明的主要目的，在于提供一种自动产生关键词分类表的系统，其可依据使用者输入欲查询数据的关键词，而自动产生关键词的分类表，以可提高使用者查询资料的速度，而增加查询资料的便利性。
本发明的另一目的，在于提供一种自动产生关键词分类表的系统，其将原始数据库的文字资料透过删除重复出现的文字的处理方式，以产生检索文件资料并储存于检索数据库内，由于经过删除重复出现的文字的处理步骤，使得提高产生关键词分类表的速度，进而提高使用者的查询的速度。
本发明自动产生关键词分类表的系统，其包含至少一原始数据库，原始数据库内的原始文件资料包含有一标题名称及一内文资料，标题名称及内文资料经由一中央处理单元进行删除重复出现的文字处理步骤，而获得一新标题名称、一新内文资料(未重复出现文字)及相对应的一序列号，此时并将所得的新标题名称、新内文资料、序列号连同原始数据库的名称一并储存至一前置数据库中，即每一笔前置文件资料有相对应的序列号，前置数据库与中央处理单元相连接；之后前置数据库内的每一笔前置文件资料的文字资料再经中央处理单元，以单一文字作为查询字，并配合该笔前置文件资料的序列号，而储存至一检索数据库中，即每一查询字相对有一序列号，检索数据库系与中央处理单元相连接。
再者，当使用者输入至少一欲获知资料的关键词时，中央处理单元会将该关键词与检索数据库中的每一查询字进行比对，若关键词为二个以上时，即会以交集的方式进行比对，经中央处理单元比对处理后，其会产生一关键词分类表，表中会呈现与关键词相同的查询字及相对于该查询字的序列号，使用者即可点选序列号，而直接连接至前置数据库，再连接至原始数据库，透过原始数据库、前置数据库与检索数据库的建置，使用者即可快速获知欲查询的资料。
图1为本发明的架构示意图；
图2为本发明数据处理的流程图；
图3为本发明实施例的实施流程示意图；
图4为本发明关键词的判断流程图；
图5为本发明与现有技术实施例的搜寻速度比较图；
图6A为本发明的一较佳实施例的原始数据库所存文件资料的示意图；
图6B为本发明地一较佳实施例的前置数据库所存文件资料的示意图；
图6C为本发明的一较佳实施例的检索数据库所存文件资料的示意图；
图6D为本发明的一较佳实施例的关键词″世″输入所得的关键词分类表示意图；
图6E为本发明的一较佳实施例的关键词″界″输入所得的关键词分类表示意图；
图6F为本发明的一较佳实施例的关键词″世界″输入所得的分类表示意图。
图号说明
100   第一单元            200    第二单元             300     第三单元
102   第一原始数据库      202    第二原始数据库       302     第三原始数据库
350   中央处理单元        400    前置数据库           500     检索数据库
10    使用者              20     文件资料             30      检索文件资料
40    前置文件资料        50     原始文件资料         600     标题字段
610   内文字段            620    序列号字段           630     数据库名称字段
640   读取权限字段
一般现有的数据库的检索方式为使用关键词，透过关键词与大量数据库内的资料进行比对，由于数据库的庞大且每一资料的文字繁多，使得进行关键词比对时，耗费许多时间于比对重复出现的文字，故，本发明揭示一种删除重复出现的文字及透过一序列号的方式，以方便使用者可以快速检索到相关的文献资料。
请参与图1及图2，其为本发明的架构示意图及数据处理的流程图；如图所示，本发明主要提供使用者可快速获知资料的方法，一般公司行号的系统繁多，例如：日报系统、财务报表系统、人事差勤系统及公告系统等等，由于知识管理的重要已日渐深入该企业核心，为提供与企业内部查询相关资料，或者可以应用于整合多个数据库的快速查询的方法，其包含有一第一单元100、一第二单元200及一第三单元300，而分别包含有一第一原始数据库102、一第二原始数据库202及一第三原始数据库302，每一原始数据库102、202、302皆有名称。
各原始数据库102、202、302如步骤S10所示存放有原始文件资料，其包含有一标题名称及一内文资料，且各原始数据库102、202、302与一中央处理单元350相连接，中央处理单元会读取各原始数据库102、202、302内的原始文件资料，并如步骤S12所示，中央处理单元350会分别对每一个原始数据库102、202、302内的原始文件资料进行比对，之后如步骤S14，将同一个标题名称与内文资料重复出现过的文字删除，以获得一新标题名称、一新内文资料及所相对应的一序列号，即一个新标题名称及一新内文资料相对应一序列号，接着如步骤S16，将原始数据库的名称，连同所得的新标题名称、新内文资料及序列号储存至与中央处理单元350相连接之一前置数据库400中。
最后，中央处理单元350会如步骤S18，将前置数据库400内的文字资料，以每一单一文字即作为一查询字的方式并搭配所对应的序列号，而作处理储存至与中央处理单元350相连接之一检索数据库500中；当使用者透过输入欲获知资料的至少一关键词时，中央处理单元350即会将输入的该关键词与检索数据库500中之每一查询字进行比对，以自动产生一关键词分类表，以供使用者可快速获知所需的数据，上述的查询字、关键词可为一中文字或一英文，而内文资料、新内文资料、标题名称及新标题名称皆可为一文字资料或一影像资料。
上述的第一单元100、第二单元200及第三单元300皆为计算机系统，而中央处理单元350为一中央伺服计算机，使用者欲查询欲获知的资料时，可透过键盘输入至少一关键词至中央伺服计算机中，中央伺服计算机即会进行比对而自动产生关键词分类表，而呈现于显示装置上；然，上述的中央处理单元350亦可为一中央处理器(CPU)，而第一单元100、第二单元200及第三单元300皆为计算机系统中的资料储存装置，此外前置数据库400与检索数据库500亦是资料储存装置。
再者，请一并参阅图3，为本发明实施例的实施流程示意图；如图所示，当一使用者10经由输入至少一关键词的文件资料20时，中央处理单元350会依据输入的关键词于检索数据库500内进行比对，其中检索数据库500所呈现的检索文件资料30包含有查询字及序列号字段，透过查询字与关键词进行比对后，中央处理单元350会产生关键词分类表，于显示装置上显示出相同于输入关键词的查询字与相对应的序列号，使用者可透过点选序列号即可连接至与序列号相对应的前置数据库400内的前置文件资料40，前置文件资料40包含有序列号、原始数据库名称、新标题名称及新内文资料，使用者透过再点选新内文资料即可连接至所对应的原始数据库内，原始数据库所呈现的原始文件资料50包含有一标题名称及内文数据域位，如此使用者即可快速获知欲查询资料。
请一并参阅图4，为本发明关键词的判断流程图；如图所示，当使用者输入欲获知资料的一关键词，透过中央处理单元350与检索数据库500的每一查询字进形比对判断后，即可产生关键词分类表，以供使用者可快速找到欲获知的资料，其主要步骤包括：
步骤S20，输入至少一关键词；
步骤S21，中央处理单元350依据输入的关键词，而与检索数据库500内的每一查询字进行精确性比对(该关键词与该查询字完全相同)或模糊性比对(该关键词包含该查询字)；
步骤S22，中央处理单元350产生一关键词分类表，显示相同于关键词之查询字及相对于查询字的序列号；
步骤S23，点选显示的序列号而连接至前置数据库400内的所相对应的前置文件资料40；
步骤S24，点选前置资料文件资料40内的新内文资料而连接至所对应的原始数据库内；以及
步骤S25，显示该原始数据库的内文资料。
最后，请参阅图5，为本发明与现有技术实施例的搜寻速度比较图；如图所示，采用本发明所揭示的技术用于搜寻时，其中SE1代表一般检索，其方程式如下所示：
搜寻所需时间(以符号t表示)＝单一比对所需时间(依机器性能而定；以符号K表示)*文件总数(以符号D表示)*每篇文件平均字数(以符号A表示)。
另就本发明来看，为以SE2作代表，其方程式如下所示：
搜寻所需时间(以符号T表示)＝单一比对所需时间(依机器性能而定；以符号K表示)*文件总数(以符号D1表示)*每篇文件平均字数(以符号A1表示)。
依据本发明实际实验证明，输入一关键词，每10万件文件平均仅需于检索数据库中比对300个查询字，另外，每篇文件内容平均有二分之一的重复的字出现。故D1＝D*(300/100000)；W1＝W(1/2)；亦即
T＝K*D1*W1
＝K*D*(300/100000)*W(1/2)
＝t(3/2000)。
由上述推算，本发明较于传统全文逐字比对，可提高搜寻效率666.67倍。此外，由关键词建文件，并可自动根据以最近或最常使用之查询字设立权重排序亦有助于提高搜寻效率。
以下本发明以一实施例做一说明，其描述如下：
请一并参阅图6A及图6B，为本发明的一较佳实施例的原始数据库及前置数据库所存文件资料的示意图；如图所示，以一公告数据库为例其原始文件资料如图所示，其包含有标题字段600以及内文字段610的部分，由于内文字段的部分出现许多重复的字眼，如图中以底下及黑体所表示重复的字眼，例如：所、本所、于、之及为等等，透过中央处理单元350删除重复字的方式产生前置文件资料，如图6B所示，其前置文件资料包含一序列号字段620、数据库名称字段630、读取权限字段640、标题字段600及内文字段610。
绪参阅图6C，为本发明的一较佳实施例的检索数据库所存资料的示意图；如图所示，中央处理单元350再以该前置文件资料的该序列号以及每一查询字而产生检索文件资料，并储存至检索数据库500内。
当使用者输入一关键词『世』时，透过中央处理单元350经过与检索数据库500内的每一检索文件资料的查询字比对后，中央处理单元350即会产生一关键词分类表，请参阅图6D所示，若为输入之关键词为『界』时，其出现的列表如图6E，当使用者输入『世界』时，即将其结果做一交集，故其出现的列表如图6F所示，使用者透过点选显示的序列号即可与前置数据库400做一连接，并于显示装置上显示与点选序列号相对应的前置文件资料，之后在透过点选新内文资料，即可进入公告数据库(原始数据库)检索全文，且前置文件资料内更包含一读取权限栏，透过使用者的辨识，例如：职工编号，若为可读取的权限该字段640会显示1，若为非读取权限时，该读取字段640会显示0，此时其它字段及不会显示任何资料。
故，本发明提供至少一原始数据库102、202、302、一前置数据库400、一检索数据库500及一中央处理单元350，其中原始数据库102、20 2、302内的原始文件资料包含有有一标题名称及一内文资料的字段，中央处理单元350会读取标题名称及内文资料，并将标题名称及内文资料重复出现的文字部分删除且储存至前置数据库400为前置文件资料，其包含有新标题名称、新内文资料、相对应的序列号及原始数据库名称字段；接着中央处理单元350再将各个文字独立出作为查询字并配合所对应的序列号而产生检索文件资料，并储存至检索数据库500内，故检索资料文件具有一查询字及序列号的字段。
此时，一使用者若输入至少一关键词时，中央处理单元350会依据输入的关键词而与检索数据库500内的每一查询字进行比对，以产生关键词分类表，使用者再透过点选的序列号使中央处理单元350与该前置数据库400做连结，而显示对应所点选的前置文件资料，当使用者再点选新内文资料，即可连接至原始数据库查阅该原始文件资料，本发明中央处理单元350透过删除重复出现的文字，而产生一前置文件资料并产生一简易的检索文件资料，以提供使用者可快速查询资料的系统。
惟以上所述者，仅为本发明的一较佳实施例而已，并非用来限定本发明实施的范围，举凡依本发明申请专利范围所述的形状、构造、特征及精神所为的均等变化与修饰，均应包括于本发明的申请专利范围内。