文档文件种类识别装置以及文档文件种类识别方法.pdf

上传人:62****3 文档编号:4572313 上传时间:2018-10-20 格式:PDF 页数:19 大小:591.25KB
返回 下载 相关 举报
摘要
申请专利号:

CN201010292914.1

申请日:

2010.09.20

公开号:

CN102054171A

公开日:

2011.05.11

当前法律状态:

撤回

有效性:

无权

法律详情:

发明专利申请公布后的视为撤回IPC(主分类):G06K 9/20申请公布日:20110511|||实质审查的生效IPC(主分类):G06K 9/20申请日:20100920|||公开

IPC分类号:

G06K9/20; G06K9/46

主分类号:

G06K9/20

申请人:

株式会社东芝; 东芝泰格有限公司

发明人:

富沢肇

地址:

日本东京

优先权:

2009.10.30 US 61/256,515

专利代理机构:

北京康信知识产权代理有限责任公司 11240

代理人:

余刚;吴孟秋

PDF下载: PDF下载
内容摘要

本发明涉及一种文档文件种类识别装置以及文档文件种类识别方法。该文档文件种类识别装置包括:提取部,用于提取表示文档文件中包含的文档的特征性信息的文档特征信息;评价部,用于评价所述文档特征信息提取部所提取的所述文档特征信息的妥当性;以及文档种类识别部,当所述文档特征信息具有妥当性时,所述文档种类识别部识别与所述文档特征信息提取部所提取的所述文档特征信息相对应的所述文档文件的种类。

权利要求书

1: 一种文档文件种类识别装置, 包括 : 提取部, 用于提取表示文档文件中包含的文档的特征性信息的文档特征信息 ; 评价部, 用于评价所述提取部所提取的所述文档特征信息的妥当性 ; 以及 文档种类识别部, 当所述文档特征信息具有妥当性时, 所述文档种类识别部识别与所 述提取部所提取的所述文档特征信息相对应的所述文档文件的种类。
2: 根据权利要求 1 所述的文档文件种类识别装置, 其中, 所述文档文件有多个种类, 各种类的所述文档特征信息互不相同, 所述文档文件种类识别装置还包括用于保存提取方法信息的提取方法保存部, 所述提 取方法信息记载了用于从所述文档文件提取所述文档特征信息的、 按所述文档文件的种类 而不同的多种方法, 其中, 所述提取部根据所述提取方法保存部中保存的所述提取方法信息, 从所述文档 文件中提取所述文档特征信息。
3: 根据权利要求 1 所述的文档文件种类识别装置, 其中, 所述文档文件有多个种类, 各种类的所述文档特征信息互不相同, 所述文档文件种类识别装置还包括特征信息保存部, 对应所述多个种类的各个种类, 保存应被所述提取部提取的所述文档特征信息的参照文档特征信息, 其中, 所述评价部根据在所述特征信息保存部中保存的所述参照文档特征信息, 评价 所述提取部所提取的所述文档特征信息的妥当性。
4: 根据权利要求 1 所述的文档文件种类识别装置, 还包括 : 文件取得部, 扫描记录有文档的记录介质以取得扫描图像, 并解析所述扫描图像以取 得包括所述文档特征信息的所述文档文件 ; 文档文件保存部 ; 文档文件登记部, 将所述文档种类识别部所识别的所述文档文件的种类、 所述文档文 件、 所述文档特征信息相关联地保存在所述文档文件保存部 ; 以及 文档文件显示部, 将所述文档文件保存部中保存的所述文档文件单独进行显示, 或者 将所述文档文件保存部中保存的所述文档文件与所述文档特征信息两者一起显示。
5: 根据权利要求 2 所述的文档文件种类识别装置, 其中, 所述文档文件有多个种类, 各种类的所述文档特征信息互不相同, 所述提取方法信息对每种所述文档文件的种类记载用于提取所述文档特征信息的所 述文档文件中的位置信息。
6: 根据权利要求 2 所述的文档文件种类识别装置, 其中, 所述提取部将所述提取方法保存部中存储的所述提取方法信息中记载的所有所述方 法应用于所述文档文件, 并提取所述文档特征信息。
7: 根据权利要求 2 所述的文档文件种类识别装置, 其中, 所述提取部依次假设所述文档文件是所述多个种类中的一种, 按照这些依次假设的种 类的顺序, 根据与假设的所述种类对应的所述方法, 从所述文档文件中提取所述文档特征 信息。
8: 根据权利要求 2 所述的文档文件种类识别装置, 其中, 所述评价部将所述特征信息保存部中保存的全部所述参照文档特征信息应用于所述 2 文档特征信息提取部所提取的所述文档特征信息, 并评价所述文档特征信息的妥当性。
9: 根据权利要求 3 所述的文档文件种类识别装置, 其中, 所述文档文件有多个种类, 各种类的所述文档特征信息互不相同, 与所述文档文件的所述多个种类中的每一种相对应地分别记载所述参照文档特征信 息。
10: 根据权利要求 1 所述的文档文件种类识别装置, 其中, 所述文档文件有多个种类, 各种类的所述文档特征信息互不相同, 对于所述多个种类的所述文档文件中的每一种, 多个所述文档文件的各所述文档特征 信息的格式分别为固定格式。
11: 一种文档文件种类识别方法, 包括 : 提取表示文档文件中包含的文档的特征性信息的文档特征信息 ; 评价所提取的所述文档特征信息的妥当性 ; 以及 在所述文档特征信息具有妥当性的情况下, 识别与所提取的所述文档特征信息相对应 的所述文档文件的种类。
12: 根据权利要求 11 所述的文档文件种类识别方法, 其中, 所述文档文件有多个种类, 各种类的所述文档特征信息互不相同, 所述文档文件种类识别方法还包括 : 将提取方法信息保存至提取方法保存部, 所述提取方法信息记载了用于从所述文档文 件提取所述文档特征信息的、 按所述文档文件的种类而不同的多种方法, 在所述文档文件种类识别方法中, 所述文档特征信息的提取是指根据所述提取方法保 存部中保存的所述提取方法信息, 从所述文档文件中提取所述文档特征信息。
13: 根据权利要求 12 所述的文档文件种类识别方法, 其中, 所述提取方法信息对每种所述文档文件的种类记载用于提取所述文档特征信息的所 述文档文件中的位置信息。
14: 根据权利要求 11 所述的文档文件种类识别方法, 其中, 所述文档文件有多个种类, 各种类的所述文档特征信息互不相同, 所述文档文件种类识别方法还包括 : 按所述多个种类将应被提取的所述文档特征信息的参照文档特征信息保存至特征信 息保存部, 在所述文档文件种类识别方法中, 所述妥当性的评价是指根据所述特征信息保存部中 保存的所述参照文档特征信息, 评价提取的所述文档特征信息。
15: 根据权利要求 14 所述的文档文件种类识别方法, 其中, 与所述多个种类的文档文件的每一种相对应地分别记载所述参照文档特征信息。
16: 根据权利要求 11 所述的文档文件种类识别方法, 还包括 : 扫描记录有文档的记录介质并取得扫描图像 ; 解析所述扫描图像, 并取得包括所述文档特征信息的所述文档文件 ; 将识别出的所述文档文件的种类、 所述文档文件和所述文档特征信息相关联地保存至 文档文件保存部 ; 以及 将所述文档文件保存部中保存的所述文档文件单独进行显示, 或者将所述文档文件保 3 存部中保存的所述文档文件与所述文档特征信息两者一起显示。
17: 根据权利要求 12 所述的文档文件种类识别方法, 其中, 所述文档特征信息的提取是将所述提取方法保存部中存储的所述提取方法信息中记 载的所有所述方法应用于所述文档文件, 并提取所述文档特征信息。
18: 根据权利要求 12 所述的文档文件种类识别方法, 其中, 所述文档特征信息的提取是依次假设所述文档文件是所述多个种类中的一种, 按照这 些依次假设的种类的顺序, 根据与假设的所述种类对应的所述方法, 从所述文档文件中提 取所述文档特征信息。
19: 根据权利要求 14 所述的文档文件种类识别方法, 其中, 所述妥当性的评价是将所述特征信息保存部中保存的全部所述参照文档特征信息应 用于提取的所述文档特征信息, 并评价所述文档特征信息的妥当性。

说明书


文档文件种类识别装置以及文档文件种类识别方法

    相关申请的参考
     本申请基于并要求 2009 年 10 月 30 日提交的美国临时申请 No.61/256515 的优先 权权益, 其全部内容结合于此作为参考。
     技术领域
     本发明涉及一种文档文件种类识别装置, 用于识别通过例如扫描读取而取得的文 档图像的种类以及与文档图像的种类相对应的特征信息。 背景技术 在记录纸张等记录介质上所记录的文档文件有多种。 多种文档文件分别被扫描器 读取而成为各文档图像。各文档图像分别适用根据各文档种类而预定的处理。当输入文档 种类未知的文档图像时, 文档处理装置识别文档图像的文档种类, 并根据识别结果, 对文档 图像进行预定的处理。
     自动识别文档种类的方法是预先收集多个文档种类的特征, 例如记录介质的大 小、 字符数等, 并保存在数据库中。 当输入文档种类未知的文档图像时, 通过该方法, 比较输 入的文档图像中包括的特征与数据库中保存的文档种类的特征, 并检索符合的文档种类。 文档识别方法的技术公布在例如日本专利特开 2001-318941 号公报中。
     发明内容
     本发明涉及一种文档文件种类识别装置, 其包括 : 提取部, 用于提取表示文档文件 中包含的文档的特征性信息的文档特征信息 ; 评价部, 用于评价所述文档特征信息提取部 所提取的所述文档特征信息的妥当性 ; 以及文档种类识别部, 当所述文档特征信息具有妥 当性时, 所述文档种类识别部识别与所述文档特征信息提取部所提取的所述文档特征信息 相对应的所述文档文件的种类。
     本发明还涉及一种文档文件种类识别方法, 其包括 : 提取表示文档文件中包含的 文档的特征性信息的文档特征信息 ; 评价所提取的所述文档特征信息的妥当性, 以及在所 述文档特征信息具有妥当性的情况下, 识别与所提取的所述文档特征信息相对应的所述文 档文件的种类。
     本发明还涉及一种记录介质, 存储计算机可读的文档文件种类识别程序, 包括 : 根 据保存在提取方法保存部中的提取方法信息, 从文档文件中提取表示所述文档文件中包含 的文档的特征性信息的文档特征信息, 所述提取方法信息记载用于从所述文档文件中提取 所述文档特征信息的按所述文档文件的种类而不同的多种方法 ; 根据特征信息保存部中保 存的参照文档特征信息, 评价所提取的所述文档特征信息的妥当性, 所述参照文档特征信 息分种类作为应从所述文档文件提取的所述文档特征信息的参照 ; 以及在所述文档特征信 息具有妥当性的情况下, 识别与提取的所述文档特征信息对应的所述文档文件的种类。附图说明
     图 1 是表示第一实施方式的文档文件种类识别装置的功能块构成图。 图 2 是表示通过本装置识别的 A 国申请委托书格式的示例图。 图 3 是表示通过本装置识别的来自 cc 专利事务所的原稿校阅委托书格式的示例图。 图 4 是表示通过本装置识别的驳回对应讨论委托书格式的示例图。
     图 5 是表示用于通过本装置的提取部提取文档中的文档特征信息的提取方法信 息的示例图。
     图 6 是表示本装置中特征信息保存部中保存的参照文档特征信息的示意图。
     图 7 是表示适用了本装置的文档 (document) 系统的构成图。
     图 8 是本装置的文档文件种类识别流程图。
     图 9 是表示一例通过本装置的提取部提取的文档特征信息的示例图。
     图 10 是表示一例本装置的文档文件保存部中保存的文档文件保存信息的示例 图。
     图 11 是示出本装置的文档文件种类识别流程的变形例示意图。
     具体实施方式 以下, 参照附图说明实施方式。
     图 1 表示文档文件种类的识别装置的功能块构成图。本装置包括扫描文件取得部 1、 文档种类识别部 2、 文档特征信息提取部 ( 以下简称提取部 )3、 文档特征信息提取方法保 存部 ( 以下简称提取方法保存部 )4、 文档特征信息评价部 ( 以下简称评价部 )5、 文档特征 信息保存部 6、 文档文件登记部 7、 文档文件保存部 8、 文档文件显示部 9。
     扫描文件取得部 1 扫描记录有文档的记录介质, 并取得扫描图像, 通过解析扫描 图像取得包括文档特征信息的文档文件。 记录有文档的记录介质包括例如记录有文档的记 录纸张。文档特征信息表示文档文件中包括的文档的特征性信息。文档特征信息是清楚地 表示例如文档的标题等文档内容的信息。文档文件包括字符信息、 字符的布局信息。文档 文件例如可包括 PDF(portable document format) 文件等。
     文档种类识别部 2 从扫描文件取得部 1 输入文档文件, 并识别文档文件种类。文 档文件种类包括例如专利申请的申请委托书、 专利申请的原稿校阅委托书、 用于应对专利 申请的驳回理由的讨论委托书 ( 驳回应对讨论委托书 )。
     根据各种类, 文档文件的文档特征信息各不相同。 根据各种类, 文档文件的格式各 不相同。根据文档文件的各种类, 格式分别是规定格式。
     文档文件按种类分别包括各种文档特征信息。 例如申请委托书的文档特征信息包 括例如 A 国申请委托书、 B 国申请委托书、 C 国申请委托书。图 2 是例如 A 国申请委托书 F1 格式的一个示例。A 国申请委托书 F1 第 1 行写有 “申请委托” 、 第 2 行写有 “A 国申请委托” 。
     原稿校阅委托书的文档特征信息包括例如 aa 专利事务所、 bb 专利事务所、 cc 专利 事务所。图 3 是来自例如 cc 专利事务所的原稿校阅委托书 F2 的格式的一个示例。原稿校 阅委托书 F2 第 1 行写有 “年月日” 、 第 2 行写有 “... 公司敬启” 、 第 3 行写有 “cc 专利事务 所” 。
     驳回应对讨论委托书例如包括有需要授权、 不需要授权、 其他。 需要授权表示需要 实现专利申请的授权。不需要授权表示不需要考虑专利申请的授权。图 4 是例如驳回应对 讨论委托书 F3 的格式的一个示例。驳回应对讨论委托书 F3 在其中央部记载有需要确认 (check) 的文字, 例如需要授权、 不需要授权、 以及其他确认项。
     提取部 3 通过文档种类识别部 2 接收来自扫描文件获取部 1 的文档文件, 并提取 文档文件中包括的表示文档的特征性信息的文档特征信息。提取部 3 可对提取方法保存部 4 进行信息读取。
     在提取方法保存部 4 中保存用于从文档文件中提取文档特征信息的提取方法信 息 100。提取方法信息 100 按文档文件种类定义多种方法。
     图 5 是提取方法信息 100 的示例图。提取方法信息 100 成对地记录文档种类与文 档特征信息的提取方法。提取方法信息 100 按照作为文档种类的申请委托书、 原稿校阅委 托书、 驳回应对讨论委托书分别记录文档特征信息的提取方法。对于每一种文档文件种类 例如申请委托书、 原稿校阅委托书、 驳回应对讨论委托书, 提取方法信息 100 记录用于提取 文档特征信息的文档文件中的位置信息。申请委托书的提取方法例如是 “取得第 2 行的文 字” 。原稿校阅委托书的提取方法例如是 “取得第 3 行的文字” 。驳回应对讨论委托书的提 取方法例如是 “取得文档中央的已经被确认的语句” 。 提取部 3 根据提取方法保存部 4 保存的提取方法信息 100 从文档文件中提取文档 特征信息。具体地说, 提取部 3 将提取方法保存部 4 中保存的提取方法信息 100 中记录的 全部方法应用于文档文件, 并提取文档特征信息。提取部 3 依次设定文档文件是多个种类 中的一种, 按照这些依次设定的顺序, 基于与种类对应的方法, 从文档文件中提取文档特征 信息。提取部 3 依次设定为例如申请委托书、 原稿校阅委托书、 驳回应对讨论委托书, 通过 与依次设定的申请委托书、 原稿校阅委托书、 驳回应对讨论委托书对应的方法, 从文档文件 中提取文档特征信息。
     评价部 5 评价通过提取部 3 提取的文档特征信息的妥当性。评价部 5 根据特征信 息保存部 6 中保存的参照文档特征信息评价通过提取部 3 提取的文档特征信息的妥当性。 评价部 5 可对特征信息保存部 6 读取信息。
     在特征信息保存部 6 中, 按照多个种类保存参照文档特征信息 101, 该参照文档特 征信息 101 为作为通过提取部 3 提取的文档特征信息的参照的文档特征信息。图 6 是在特 征信息保存部 6 中保存的参照文档特征信息 101 的示意图。与例如多个文档文件种类的每 一种对应地分别定义参照文档特征信息 101。参照文档特征信息 101 成对地定义文档种类 和作为参照的文档特征信息。作为文档文件种类, 参照文档特征信息 101 记录申请委托书、 原稿校阅委托书、 驳回应对讨论委托书。在申请委托书的文档特征信息中记录例如 A 国申 请委托书、 B 国申请委托书、 C 国申请委托书。在原稿校阅委托书的文档特征信息中记录例 如 aa 专利事务所、 bb 专利事务所、 cc 专利事务所。在驳回应对讨论委托书的文档特征信息 中定义例如有需要授权、 不需要授权、 其他。
     评价部 5 将在特征信息保存部 6 中保存的全部参照文档特征信息 101 应用于通过 提取部 3 提取的文档特征信息, 并评价文档特征信息的妥当性。
     如上所述, 文档种类识别部 2 识别文档文件种类。在这种情况下, 根据通过评价部 5 评价的妥当性的结果, 若文档特征信息有妥当性, 则文档种类识别部 2 识别与通过提取部
     3 提取的文档特征信息对应的文档文件种类。
     文档文件登记部 7 将通过文档种类识别部 2 识别的文档文件种类、 文档文件以及 文档特征信息相关联地保存在文档文件保存部 8 中。
     文档文件显示部 9 将文档文件保存部中 8 保存的文档文件单独显示给外部, 或者 将文档文件保存部中 8 保存的文档文件与文档特征信息两者同时显示给外部。文档文件显 示部 9 将文档文件保存部 8 中保存的文档文件和文档文件相关联的文档文件名、 文档文件 种类或文档特征信息一起显示给用户。
     图 7 是适用了本装置的文档系统 (document system)10 的构成图。文件系统 10 包括数字复合装置 ( 以下称为 MFP)11。MFP 11 作为记录有文档的记录介质的复印机、 在记 录介质上打印从外部发送来的图像数据的打印机等进行动作。 MFP 11 对作为文档种类的申 请委托书、 原稿校阅委托书、 驳回应对讨论委托书这三种进行处理。
     MFP 11 与扫描器 12、 控制面板 13 相连接。扫描器 12 扫描记录有文档的记录介质 并取得扫描图像。控制面板 13 例如接受用户的操作并设定 MFP 11 的各种动作。MFP 11 通 过局域网 (LAN)14 与文件处理服务器 15、 文件管理服务器 16、 客户个人电脑 ( 以下称为客 户 PC)17 相连接。文件处理服务器 15 例如对文档文件进行各种处理。文件管理服务器 16 例如管理文档文件。客户 PC 17 例如是客户使用的个人电脑。 MFP 11 包括扫描文件获取部 1。文件处理服务器 15 包括文档种类识别部 2、 提取 部 3、 提取方法保存部 4、 评价部 5、 文档特征信息保存部 6。文件管理服务器 16 包括文档文 件登记部 7、 文档文件保存部 8、 文档文件显示部 9。客户 PC 17 包括文档文件显示部 9。客 户 PC 17 具有 Web 浏览器。 客户 PC 17 接受用户的操作, 可通过 Web 浏览器访问由文档文件 显示部 9 提供的文档文件以及与文档文件相关联的文档文件种类或文档特征信息。 客户 PC 17 可访问文档文件保存部 8, 可阅览文档文件以及与文档文件相关联的文档文件种类或文 档特征信息。
     MFP 11、 文档处理服务器 15、 文档管理服务器 16、 客户 PC 17 通过局域网 15 相连 接, 可相互进行数据的发送和接收。
     文件处理服务器 15 具有程序存储器 15m。 程序存储器 15m 存储可在文档处理服务 器 15 上安装的电脑可读取的文档文件种类识别程序。文档文件种类识别程序根据提取方 法保存部 4 中保存的提取方法信息 100, 从文档文件中提取表示文档文件中包含的文档的 特征性信息的文档特征信息, 根据特征信息保存部 6 中保存的参照文档特征信息 101 评价 提取的文档特征信息的妥当性, 若文档特征信息有妥当性, 则与提取的文档特征信息相对 应的文档文件种类进行识别。
     提取方法信息 100 记载用于从文档文件提取文档特征信息的基于文档文件种类 的多种方法。
     参照文档特征信息 101 按照多个种类作为用于应该从文档文件提取的文档特征 信息的参照。
     另外, 文档文件种类识别程序也可以在文档处理服务器 15 或文档管理服务器 16 两者的一者中或分散至两者并进行存储。
     接下来, 参照图 8 所示的文档文件种类识别流程图, 对扫描记录有文档的记录介 质, 并将扫描文件登记在文档文件保存部 8 的处理进行说明。
     扫描器 12 扫描记录有文档的记录介质、 例如写有图 3 所示的 EF 公司敬启、 来自 cc 专利事务所的原稿校阅的委托的记录介质, 并取得扫描图像 (ACT1)。
     扫描文件取得部 1 接收扫描器 12 取得的扫描图像, 解析扫描图像并通过包括文档 特征信息的文档文件。 具体而言, 扫描文件通过部 1 对扫描图像实施光学式字符识别 (OCR) 处理 (ACT2)。
     扫描文件取得部 1 实施 OCR 处理, 获取字符位于扫描图像中的何处这样的布局信 息, 并取得记载了什么这样的字符信息等。扫描文件取得部 1 综合扫描图像、 布局信息、 字 符信息, 并制作成文档文件。文档文件的文件格式例如是 PDF 文件。
     提取部 3 为了对文档特征信息的提取方法的使用次数进行计数而设定 i = 1(ACT3)。
     提取部 3 依次设定文档文件为多个种类中的一种, 按照这些依次设定的顺序, 基 于与所设定的该种类相对应的方法从文档文件中提取文档特征信息。例如提取部 3 将如图 5 所示的提取方法信息 100 中例如申请委托书设为第 i = 1、 将原稿校阅委托书设为第 i = 2、 将驳回应对讨论委托书设为第 i = 3。
     对于文档种类未知的文档文件, 提取部 3 应用与提取方法保存部 4 中保存的所有 文档种类对应的提取方法 (ACT4-6)。
     以下说明提取方法。尽管作为对象的文档文件的文档种类未知, 提取方法暂时设 定其为某一文档种类, 并针对所设定的文档种类应用提取方法。
     提取部 3 将第 i = 1 的申请委托书的提取方法应用至文档文件, 并提取文档特征 信息 (ACT4)。 也就是说, 提取部 3 设定文档文件为申请委托书, 并应用与申请委托书对应的 提取方法。申请委托书的提取方法如图 5 所示, 例如为 “获取第 2 行文字” 。
     提取部 3 根据提取方法 “获取第 2 行文字” , 从图 3 所示的原稿校阅委托书 F2 的文 档文件取得第 2 行文字。提取部 3 取得 “EF 公司敬启” 。
     提取部 3 判断是否已将全部的提取方法 (i = 3) 应用于图 5 所示的原稿校阅委托 书 F2 的文档文件 (ACT5)。其判断的结果是已将第 i = 1 的申请委托书的提取方法应用于 文档文件, 提取部 3 使 i = i+1 结束计数, 并再次返回 ACT4, 将第 i = 2 的原稿校阅委托书 的提取方法应用于文档文件, 并提取文档特征信息。也就是说, 提取部 3 设定文档文件为原 稿校阅委托书, 并应用与原稿校阅委托书对应的提取方法。原稿校阅委托书的提取方法如 图 5 所示, 是例如 “获取第 3 行文字” 。
     提取部 3 根据提取方法 “获取第 3 行文字” , 从图 3 所示的原稿校阅委托书 F2 的文 档文件取得第 3 行文字。提取部 3 取得文字列 “cc 专利事务所” 。
     提取部 3 再次判断是否已将全部的提取方法 (i = 3) 应用于图 5 所示的原稿校阅 委托书 F2 的文档文件 (ACT5)。其判断的结果是已将第 i = 2 的原稿校阅委托书的提取方 法应用于文档文件, 因此, 提取部 3 使 i = i+1 结束计数, 并再次返回 ACT4, 将第 i = 3 的驳 回应对讨论委托书的提取方法应用于文档文件并提取文档特征信息。也就是说, 提取部 3 设定文档文件为驳回应对讨论委托书, 并应用与驳回应对讨论委托书对应的提取方法。驳 回应对讨论委托书的提取方法如图 5 所示例如是 “获取文档中央的已经被确认的文字” 。
     提取部 3 对如图 3 所示的原稿校阅委托书 F2 的文档文件实行 “获取文档中央的已 经被确认的文字” 。图 3 所示的原稿校阅委托书 F2 的文档文件不存在已经被确认的文字。提取部 3 获得表示原稿校阅委托书 F2 的文档文件中不存在 “文档中央的已经被确认的文 字” 的 “无效 (null)” 的结果。
     提取部 3 再次判断是否已将全部的提取方法 (i = 3) 应用于图 3 所示的原稿校阅 委托书 F2 的文档文件 (ACT5)。其判断的结果是已将第 i = 3 的驳回应对讨论委托书的提 取方法应用于文档文件, 提取部 3 判断已将全部的提取方法 (i = 3) 应用于图 3 所示的原 稿校阅委托书 F2 的文档文件。
     图 9 是通过提取部 3 提取的文档特征信息的一个示例。在设定文档文件为申请委 托书的情况下, 提取了 “EF 公司敬启” 。在设定文档文件为原稿校阅委托书的情况下, 提取 了文字列 “cc 专利事务所” 。在设定文档文件为驳回应对讨论委托书的情况下, 是 “null” 。
     评价部 5 评价通过提取部 3 提取的文档特征信息的妥当性。评价部 5 根据特征信 息保存部 6 中保存的如图 6 所示的参照文档特征信息 101, 评价通过提取部 3 提取的文档特 征信息的妥当性 (ACT7)。这种情况下, 评价部 5 将特征信息保存部 6 中保存的全部参照文 档特征信息 101 应用于通过提取部 3 提取的文档特征信息, 并评价文档特征信息的妥当性。
     评价部 5 评价在设定如图 9 所示的原稿校阅委托书 F2 的文档文件为申请委托书 的情况下获得的 “EF 公司敬启” 的字符列是否妥当。参照图 6 所示的参照文档特征信息 101, 申请委托书的文档特征信息应该是 A 国申请委托、 B 国申请委托、 C 国申请委托的三者 之一。另一方面, 实际取得的文档特征信息如图 9 所示是 “EF 公司敬启” , 与 A 国申请委托、 B 国申请委托、 C 国申请委托的任一个都不符合。因此, 评价部 5 将设定原稿校阅委托书 F2 的文档文件为申请委托书并提取的 “EF 公司敬启” 的文档特征信息评价为不妥当。 评价部 5 评价在设定如图 9 所示的原稿校阅委托书 F2 的文档文件为原稿校阅委 托书的情况下获得的 “cc 专利事务所” 的字符列是否妥当。参照图 6 所示的参照文档特征 信息 101, 原稿校阅委托书的文档特征信息应该是 aa 专利事务所、 bb 专利事务所、 cc 专利 事务所的三者之一。另一方面, 实际获得的文档特征信息如图 9 所示是 “cc 专利事务所” , 符合 aa 专利事务所、 bb 专利事务所、 cc 专利事务所中的一个。因此, 评价部 5 将设定原稿 校阅委托书 F2 的文档文件为原稿校阅委托书而提取的 “cc 专利事务所” 的文档特征信息评 价为妥当。
     评价部 5 评价在设定如图 9 所示的原稿校阅委托书 F2 的文档文件为驳回应对讨 论委托书的情况下获得的 “null” 字符列是否妥当。 参照如图 6 所示参照文档特征信息 101, 驳回应对讨论委托书的文档特征信息应该是需要授权、 不需要授权、 其他这三者之一。 另一 方面, 实际取得的文档特征信息如图 9 所示是 “null” , 不符合需要授权、 不需要授权、 其他 中的任一个。因此, 评价部 5 将设定原稿校阅委托书 F2 的文档文件为驳回应对讨论委托书 而提取的 “null” 文档特征信息评价为不妥当。
     其结果是, 评价部 5 评价在设定原稿校阅委托书 F2 的文档文件为原稿校阅委托书 的情况下获得的 “cc 专利事务所” 的字符列为妥当。
     文档种类识别部 2 接受来自评价部 5 的评价结果, 并确定原稿校阅委托书 F2 的文 档文件的文档种类及文档特征信息 (ACT8)。 评价设定了文档种类的情况下的文档特征信息 的妥当性的结果是, 只有将文档文件设定为原稿校阅委托书的情况下, 才判断为妥当的。 文 档种类识别部 2 确定原稿校阅委托书 F2 的文档文件的文档种类为原稿校阅委托书、 文档特 征信息为 cc 专利事务所。
     文档文件登记部 7 将文档种类识别部 2 识别的文档文件种类、 文档文件以及文档 特征信息相关联地保存在文档文件保存部 8(ACT9) 中。图 10 是文档文件保存部 8 中保存 的文档文件保存信息 102 的一例示意图。文档文件保存信息 102 将文档文件名、 文档种类 以及文档特征信息相关联地进行保存。
     文档文件显示部 9 将在文档文件保存部 8 中保存的文档文件和与文档文件相关联 的文档文件名、 文档文件种类或文档特征信息一起显示给用户。
     如上所述, 根据上述实施方式, 根据提取方法信息 100 从文档文件中提取文档文 件包含的文档特征信息, 并根据参照文档特征信息 101 评价提取的文档特征信息的妥当 性, 若文档特征信息有妥当性, 则识别对应于被提取的文档特征信息的文档文件种类。因 此, 即使取入文档种类未知的记录介质的文档文件, 也可同时确定文档文件的文档种类与 文档特征信息。对于文档文件的文档种类与文档特征信息的的确定, 不用经过判定文档文 件的文档种类、 其后提取与文档种类对应的特征信息这样两个阶段的步骤。
     文档文件显示部 9 可接受用户的操作, 并将文档文件保存部 8 中保存的文档文件 名、 文档文件种类、 文档特征信息显示给用户。用户除了知道文档文件名, 还可以知道文档 文件种类、 文档特征信息。 上述实施方式可进行如下的变形。
     图 11 是图 8 所示的文档文件种类识别流程图的变形例。对与图 8 所示的文档文 件种类识别流程图的不同之处进行说明。
     提取部 3 将第 i = 1 的申请委托书的提取方法应用于文档文件, 并提取文档特征 信息 (ACT4)。
     评价部 5 根据特征信息保存部 6 中保存的图 6 所示的参照文档特征信息 101, 评价 由提取部 3 提取的文档特征信息的妥当性 (ACT7)。
     提取部 3 将全部的提取方法 (i = 3) 应用于图 5 所示的原稿校阅委托书 F2 的文 档文件, 并判断是否评价了通过全部的提取方法提取的文档特征信息的妥当性 (ACT5)。
     判断的结果是, 如果将全部的提取方法 (i = 3) 应用于文档文件、 且未评价妥当 性, 则提取部 3 使 i = i+1 结束计数, 并再次返回 ACT4, 将下一个原稿校阅委托书的提取方 法应用于文档文件, 并提取文档特征信息。
     判断的结果是, 如果将全部的提取方法 (i = 3) 应用于文档文件、 且已评价妥当 性, 则文档种类识别部 2 接受来自评价部 5 的评价结果, 并确定原稿校阅委托书 F2 的文档 文件的文档种类及文档特征信息 (ACT8)。
     文档文件种类不限于例如申请委托书、 原稿校阅委托书、 驳回应对讨论委托书, 也 可应用于各种委托书等的识别。 申请委托书、 原稿校阅委托书、 驳回应对讨论委托书等各种 文档文件中的文档特征信息不限于图 2 所示的 A 国申请委托书、 B 国申请委托书、 C 国申请 委托书、 ...、 aa 专利事务所、 bb 专利事务所等, 也可使用文档文件中其他的特征性信息。
     文档文件的文档特征信息的提取方法也可根据各种类的各自格式变更文档文件 中的提取位置。
     文档文件的格式并不限定于规定格式。 例如, 从格式中提取特征信息时, 对规定的 语句, 将前后的在字符列作为特征信息并提取。 因此, 可形成不依赖于文档中的字符的绝对 位置的提取方法。也可从非定型格式中提取特征信息。
     尽管说明了上述实施方式, 但这些实施方式仅仅是通过例子来表达的, 并非有意 限制发明的范围。实际上, 这里所说明的实施方式可以多种其他形式来实现。而且, 可以对 这里所说明的实施方式做出各种省略、 替代与改变, 但并不与本发明的思想有所区别。 附加 的声明及其等价体意在包括那些属于本发明的范围和思想之中的形式或改动。

文档文件种类识别装置以及文档文件种类识别方法.pdf_第1页
第1页 / 共19页
文档文件种类识别装置以及文档文件种类识别方法.pdf_第2页
第2页 / 共19页
文档文件种类识别装置以及文档文件种类识别方法.pdf_第3页
第3页 / 共19页
点击查看更多>>
资源描述

《文档文件种类识别装置以及文档文件种类识别方法.pdf》由会员分享,可在线阅读,更多相关《文档文件种类识别装置以及文档文件种类识别方法.pdf(19页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 CN 102054171 A (43)申请公布日 2011.05.11 CN 102054171 A *CN102054171A* (21)申请号 201010292914.1 (22)申请日 2010.09.20 61/256,515 2009.10.30 US G06K 9/20(2006.01) G06K 9/46(2006.01) (71)申请人 株式会社东芝 地址 日本东京 申请人 东芝泰格有限公司 (72)发明人 富沢肇 (74)专利代理机构 北京康信知识产权代理有限 责任公司 11240 代理人 余刚 吴孟秋 (54) 发明名称 文档文件种类识别装置以及文档文。

2、件种类识 别方法 (57) 摘要 本发明涉及一种文档文件种类识别装置以及 文档文件种类识别方法。该文档文件种类识别装 置包括 : 提取部, 用于提取表示文档文件中包含 的文档的特征性信息的文档特征信息 ; 评价部, 用于评价所述文档特征信息提取部所提取的所述 文档特征信息的妥当性 ; 以及文档种类识别部, 当所述文档特征信息具有妥当性时, 所述文档种 类识别部识别与所述文档特征信息提取部所提取 的所述文档特征信息相对应的所述文档文件的种 类。 (30)优先权数据 (51)Int.Cl. (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书 3 页 说明书 8 页 附图 7 页。

3、 CN 102054178 A1/3 页 2 1. 一种文档文件种类识别装置, 包括 : 提取部, 用于提取表示文档文件中包含的文档的特征性信息的文档特征信息 ; 评价部, 用于评价所述提取部所提取的所述文档特征信息的妥当性 ; 以及 文档种类识别部, 当所述文档特征信息具有妥当性时, 所述文档种类识别部识别与所 述提取部所提取的所述文档特征信息相对应的所述文档文件的种类。 2. 根据权利要求 1 所述的文档文件种类识别装置, 其中, 所述文档文件有多个种类, 各种类的所述文档特征信息互不相同, 所述文档文件种类识别装置还包括用于保存提取方法信息的提取方法保存部, 所述提 取方法信息记载了用于。

4、从所述文档文件提取所述文档特征信息的、 按所述文档文件的种类 而不同的多种方法, 其中, 所述提取部根据所述提取方法保存部中保存的所述提取方法信息, 从所述文档 文件中提取所述文档特征信息。 3. 根据权利要求 1 所述的文档文件种类识别装置, 其中, 所述文档文件有多个种类, 各种类的所述文档特征信息互不相同, 所述文档文件种类识别装置还包括特征信息保存部, 对应所述多个种类的各个种类, 保存应被所述提取部提取的所述文档特征信息的参照文档特征信息, 其中, 所述评价部根据在所述特征信息保存部中保存的所述参照文档特征信息, 评价 所述提取部所提取的所述文档特征信息的妥当性。 4. 根据权利要求。

5、 1 所述的文档文件种类识别装置, 还包括 : 文件取得部, 扫描记录有文档的记录介质以取得扫描图像, 并解析所述扫描图像以取 得包括所述文档特征信息的所述文档文件 ; 文档文件保存部 ; 文档文件登记部, 将所述文档种类识别部所识别的所述文档文件的种类、 所述文档文 件、 所述文档特征信息相关联地保存在所述文档文件保存部 ; 以及 文档文件显示部, 将所述文档文件保存部中保存的所述文档文件单独进行显示, 或者 将所述文档文件保存部中保存的所述文档文件与所述文档特征信息两者一起显示。 5. 根据权利要求 2 所述的文档文件种类识别装置, 其中, 所述文档文件有多个种类, 各种类的所述文档特征信。

6、息互不相同, 所述提取方法信息对每种所述文档文件的种类记载用于提取所述文档特征信息的所 述文档文件中的位置信息。 6. 根据权利要求 2 所述的文档文件种类识别装置, 其中, 所述提取部将所述提取方法保存部中存储的所述提取方法信息中记载的所有所述方 法应用于所述文档文件, 并提取所述文档特征信息。 7. 根据权利要求 2 所述的文档文件种类识别装置, 其中, 所述提取部依次假设所述文档文件是所述多个种类中的一种, 按照这些依次假设的种 类的顺序, 根据与假设的所述种类对应的所述方法, 从所述文档文件中提取所述文档特征 信息。 8. 根据权利要求 2 所述的文档文件种类识别装置, 其中, 所述评。

7、价部将所述特征信息保存部中保存的全部所述参照文档特征信息应用于所述 权 利 要 求 书 CN 102054171 A CN 102054178 A2/3 页 3 文档特征信息提取部所提取的所述文档特征信息, 并评价所述文档特征信息的妥当性。 9. 根据权利要求 3 所述的文档文件种类识别装置, 其中, 所述文档文件有多个种类, 各种类的所述文档特征信息互不相同, 与所述文档文件的所述多个种类中的每一种相对应地分别记载所述参照文档特征信 息。 10. 根据权利要求 1 所述的文档文件种类识别装置, 其中, 所述文档文件有多个种类, 各种类的所述文档特征信息互不相同, 对于所述多个种类的所述文档文。

8、件中的每一种, 多个所述文档文件的各所述文档特征 信息的格式分别为固定格式。 11. 一种文档文件种类识别方法, 包括 : 提取表示文档文件中包含的文档的特征性信息的文档特征信息 ; 评价所提取的所述文档特征信息的妥当性 ; 以及 在所述文档特征信息具有妥当性的情况下, 识别与所提取的所述文档特征信息相对应 的所述文档文件的种类。 12. 根据权利要求 11 所述的文档文件种类识别方法, 其中, 所述文档文件有多个种类, 各种类的所述文档特征信息互不相同, 所述文档文件种类识别方法还包括 : 将提取方法信息保存至提取方法保存部, 所述提取方法信息记载了用于从所述文档文 件提取所述文档特征信息的。

9、、 按所述文档文件的种类而不同的多种方法, 在所述文档文件种类识别方法中, 所述文档特征信息的提取是指根据所述提取方法保 存部中保存的所述提取方法信息, 从所述文档文件中提取所述文档特征信息。 13. 根据权利要求 12 所述的文档文件种类识别方法, 其中, 所述提取方法信息对每种所述文档文件的种类记载用于提取所述文档特征信息的所 述文档文件中的位置信息。 14. 根据权利要求 11 所述的文档文件种类识别方法, 其中, 所述文档文件有多个种类, 各种类的所述文档特征信息互不相同, 所述文档文件种类识别方法还包括 : 按所述多个种类将应被提取的所述文档特征信息的参照文档特征信息保存至特征信 息。

10、保存部, 在所述文档文件种类识别方法中, 所述妥当性的评价是指根据所述特征信息保存部中 保存的所述参照文档特征信息, 评价提取的所述文档特征信息。 15. 根据权利要求 14 所述的文档文件种类识别方法, 其中, 与所述多个种类的文档文件的每一种相对应地分别记载所述参照文档特征信息。 16. 根据权利要求 11 所述的文档文件种类识别方法, 还包括 : 扫描记录有文档的记录介质并取得扫描图像 ; 解析所述扫描图像, 并取得包括所述文档特征信息的所述文档文件 ; 将识别出的所述文档文件的种类、 所述文档文件和所述文档特征信息相关联地保存至 文档文件保存部 ; 以及 将所述文档文件保存部中保存的所。

11、述文档文件单独进行显示, 或者将所述文档文件保 权 利 要 求 书 CN 102054171 A CN 102054178 A3/3 页 4 存部中保存的所述文档文件与所述文档特征信息两者一起显示。 17. 根据权利要求 12 所述的文档文件种类识别方法, 其中, 所述文档特征信息的提取是将所述提取方法保存部中存储的所述提取方法信息中记 载的所有所述方法应用于所述文档文件, 并提取所述文档特征信息。 18. 根据权利要求 12 所述的文档文件种类识别方法, 其中, 所述文档特征信息的提取是依次假设所述文档文件是所述多个种类中的一种, 按照这 些依次假设的种类的顺序, 根据与假设的所述种类对应的。

12、所述方法, 从所述文档文件中提 取所述文档特征信息。 19. 根据权利要求 14 所述的文档文件种类识别方法, 其中, 所述妥当性的评价是将所述特征信息保存部中保存的全部所述参照文档特征信息应 用于提取的所述文档特征信息, 并评价所述文档特征信息的妥当性。 权 利 要 求 书 CN 102054171 A CN 102054178 A1/8 页 5 文档文件种类识别装置以及文档文件种类识别方法 0001 相关申请的参考 0002 本申请基于并要求 2009 年 10 月 30 日提交的美国临时申请 No.61/256515 的优先 权权益, 其全部内容结合于此作为参考。 技术领域 0003 本。

13、发明涉及一种文档文件种类识别装置, 用于识别通过例如扫描读取而取得的文 档图像的种类以及与文档图像的种类相对应的特征信息。 背景技术 0004 在记录纸张等记录介质上所记录的文档文件有多种。 多种文档文件分别被扫描器 读取而成为各文档图像。各文档图像分别适用根据各文档种类而预定的处理。当输入文档 种类未知的文档图像时, 文档处理装置识别文档图像的文档种类, 并根据识别结果, 对文档 图像进行预定的处理。 0005 自动识别文档种类的方法是预先收集多个文档种类的特征, 例如记录介质的大 小、 字符数等, 并保存在数据库中。 当输入文档种类未知的文档图像时, 通过该方法, 比较输 入的文档图像中包。

14、括的特征与数据库中保存的文档种类的特征, 并检索符合的文档种类。 文档识别方法的技术公布在例如日本专利特开 2001-318941 号公报中。 发明内容 0006 本发明涉及一种文档文件种类识别装置, 其包括 : 提取部, 用于提取表示文档文件 中包含的文档的特征性信息的文档特征信息 ; 评价部, 用于评价所述文档特征信息提取部 所提取的所述文档特征信息的妥当性 ; 以及文档种类识别部, 当所述文档特征信息具有妥 当性时, 所述文档种类识别部识别与所述文档特征信息提取部所提取的所述文档特征信息 相对应的所述文档文件的种类。 0007 本发明还涉及一种文档文件种类识别方法, 其包括 : 提取表示。

15、文档文件中包含的 文档的特征性信息的文档特征信息 ; 评价所提取的所述文档特征信息的妥当性, 以及在所 述文档特征信息具有妥当性的情况下, 识别与所提取的所述文档特征信息相对应的所述文 档文件的种类。 0008 本发明还涉及一种记录介质, 存储计算机可读的文档文件种类识别程序, 包括 : 根 据保存在提取方法保存部中的提取方法信息, 从文档文件中提取表示所述文档文件中包含 的文档的特征性信息的文档特征信息, 所述提取方法信息记载用于从所述文档文件中提取 所述文档特征信息的按所述文档文件的种类而不同的多种方法 ; 根据特征信息保存部中保 存的参照文档特征信息, 评价所提取的所述文档特征信息的妥当。

16、性, 所述参照文档特征信 息分种类作为应从所述文档文件提取的所述文档特征信息的参照 ; 以及在所述文档特征信 息具有妥当性的情况下, 识别与提取的所述文档特征信息对应的所述文档文件的种类。 说 明 书 CN 102054171 A CN 102054178 A2/8 页 6 附图说明 0009 图 1 是表示第一实施方式的文档文件种类识别装置的功能块构成图。 0010 图 2 是表示通过本装置识别的 A 国申请委托书格式的示例图。 0011 图 3 是表示通过本装置识别的来自 cc 专利事务所的原稿校阅委托书格式的示例 图。 0012 图 4 是表示通过本装置识别的驳回对应讨论委托书格式的示例。

17、图。 0013 图 5 是表示用于通过本装置的提取部提取文档中的文档特征信息的提取方法信 息的示例图。 0014 图 6 是表示本装置中特征信息保存部中保存的参照文档特征信息的示意图。 0015 图 7 是表示适用了本装置的文档 (document) 系统的构成图。 0016 图 8 是本装置的文档文件种类识别流程图。 0017 图 9 是表示一例通过本装置的提取部提取的文档特征信息的示例图。 0018 图 10 是表示一例本装置的文档文件保存部中保存的文档文件保存信息的示例 图。 0019 图 11 是示出本装置的文档文件种类识别流程的变形例示意图。 具体实施方式 0020 以下, 参照附图。

18、说明实施方式。 0021 图 1 表示文档文件种类的识别装置的功能块构成图。本装置包括扫描文件取得部 1、 文档种类识别部2、 文档特征信息提取部(以下简称提取部)3、 文档特征信息提取方法保 存部 ( 以下简称提取方法保存部 )4、 文档特征信息评价部 ( 以下简称评价部 )5、 文档特征 信息保存部 6、 文档文件登记部 7、 文档文件保存部 8、 文档文件显示部 9。 0022 扫描文件取得部 1 扫描记录有文档的记录介质, 并取得扫描图像, 通过解析扫描 图像取得包括文档特征信息的文档文件。 记录有文档的记录介质包括例如记录有文档的记 录纸张。文档特征信息表示文档文件中包括的文档的特征。

19、性信息。文档特征信息是清楚地 表示例如文档的标题等文档内容的信息。文档文件包括字符信息、 字符的布局信息。文档 文件例如可包括 PDF(portable document format) 文件等。 0023 文档种类识别部 2 从扫描文件取得部 1 输入文档文件, 并识别文档文件种类。文 档文件种类包括例如专利申请的申请委托书、 专利申请的原稿校阅委托书、 用于应对专利 申请的驳回理由的讨论委托书 ( 驳回应对讨论委托书 )。 0024 根据各种类, 文档文件的文档特征信息各不相同。 根据各种类, 文档文件的格式各 不相同。根据文档文件的各种类, 格式分别是规定格式。 0025 文档文件按种类。

20、分别包括各种文档特征信息。 例如申请委托书的文档特征信息包 括例如 A 国申请委托书、 B 国申请委托书、 C 国申请委托书。图 2 是例如 A 国申请委托书 F1 格式的一个示例。A 国申请委托书 F1 第 1 行写有 “申请委托” 、 第 2 行写有 “A 国申请委托” 。 0026 原稿校阅委托书的文档特征信息包括例如aa专利事务所、 bb专利事务所、 cc专利 事务所。图 3 是来自例如 cc 专利事务所的原稿校阅委托书 F2 的格式的一个示例。原稿校 阅委托书 F2 第 1 行写有 “年月日” 、 第 2 行写有 “. 公司敬启” 、 第 3 行写有 “cc 专利事务 所” 。 说 。

21、明 书 CN 102054171 A CN 102054178 A3/8 页 7 0027 驳回应对讨论委托书例如包括有需要授权、 不需要授权、 其他。 需要授权表示需要 实现专利申请的授权。不需要授权表示不需要考虑专利申请的授权。图 4 是例如驳回应对 讨论委托书 F3 的格式的一个示例。驳回应对讨论委托书 F3 在其中央部记载有需要确认 (check) 的文字, 例如需要授权、 不需要授权、 以及其他确认项。 0028 提取部 3 通过文档种类识别部 2 接收来自扫描文件获取部 1 的文档文件, 并提取 文档文件中包括的表示文档的特征性信息的文档特征信息。提取部 3 可对提取方法保存部 4。

22、 进行信息读取。 0029 在提取方法保存部 4 中保存用于从文档文件中提取文档特征信息的提取方法信 息 100。提取方法信息 100 按文档文件种类定义多种方法。 0030 图 5 是提取方法信息 100 的示例图。提取方法信息 100 成对地记录文档种类与文 档特征信息的提取方法。提取方法信息 100 按照作为文档种类的申请委托书、 原稿校阅委 托书、 驳回应对讨论委托书分别记录文档特征信息的提取方法。对于每一种文档文件种类 例如申请委托书、 原稿校阅委托书、 驳回应对讨论委托书, 提取方法信息 100 记录用于提取 文档特征信息的文档文件中的位置信息。申请委托书的提取方法例如是 “取得第。

23、 2 行的文 字” 。原稿校阅委托书的提取方法例如是 “取得第 3 行的文字” 。驳回应对讨论委托书的提 取方法例如是 “取得文档中央的已经被确认的语句” 。 0031 提取部 3 根据提取方法保存部 4 保存的提取方法信息 100 从文档文件中提取文档 特征信息。具体地说, 提取部 3 将提取方法保存部 4 中保存的提取方法信息 100 中记录的 全部方法应用于文档文件, 并提取文档特征信息。提取部 3 依次设定文档文件是多个种类 中的一种, 按照这些依次设定的顺序, 基于与种类对应的方法, 从文档文件中提取文档特征 信息。提取部 3 依次设定为例如申请委托书、 原稿校阅委托书、 驳回应对讨。

24、论委托书, 通过 与依次设定的申请委托书、 原稿校阅委托书、 驳回应对讨论委托书对应的方法, 从文档文件 中提取文档特征信息。 0032 评价部 5 评价通过提取部 3 提取的文档特征信息的妥当性。评价部 5 根据特征信 息保存部 6 中保存的参照文档特征信息评价通过提取部 3 提取的文档特征信息的妥当性。 评价部 5 可对特征信息保存部 6 读取信息。 0033 在特征信息保存部 6 中, 按照多个种类保存参照文档特征信息 101, 该参照文档特 征信息 101 为作为通过提取部 3 提取的文档特征信息的参照的文档特征信息。图 6 是在特 征信息保存部 6 中保存的参照文档特征信息 101 。

25、的示意图。与例如多个文档文件种类的每 一种对应地分别定义参照文档特征信息 101。参照文档特征信息 101 成对地定义文档种类 和作为参照的文档特征信息。作为文档文件种类, 参照文档特征信息 101 记录申请委托书、 原稿校阅委托书、 驳回应对讨论委托书。在申请委托书的文档特征信息中记录例如 A 国申 请委托书、 B 国申请委托书、 C 国申请委托书。在原稿校阅委托书的文档特征信息中记录例 如 aa 专利事务所、 bb 专利事务所、 cc 专利事务所。在驳回应对讨论委托书的文档特征信息 中定义例如有需要授权、 不需要授权、 其他。 0034 评价部 5 将在特征信息保存部 6 中保存的全部参照。

26、文档特征信息 101 应用于通过 提取部 3 提取的文档特征信息, 并评价文档特征信息的妥当性。 0035 如上所述, 文档种类识别部 2 识别文档文件种类。在这种情况下, 根据通过评价部 5 评价的妥当性的结果, 若文档特征信息有妥当性, 则文档种类识别部 2 识别与通过提取部 说 明 书 CN 102054171 A CN 102054178 A4/8 页 8 3 提取的文档特征信息对应的文档文件种类。 0036 文档文件登记部 7 将通过文档种类识别部 2 识别的文档文件种类、 文档文件以及 文档特征信息相关联地保存在文档文件保存部 8 中。 0037 文档文件显示部 9 将文档文件保存。

27、部中 8 保存的文档文件单独显示给外部, 或者 将文档文件保存部中 8 保存的文档文件与文档特征信息两者同时显示给外部。文档文件显 示部 9 将文档文件保存部 8 中保存的文档文件和文档文件相关联的文档文件名、 文档文件 种类或文档特征信息一起显示给用户。 0038 图 7 是适用了本装置的文档系统 (document system)10 的构成图。文件系统 10 包括数字复合装置 ( 以下称为 MFP)11。MFP 11 作为记录有文档的记录介质的复印机、 在记 录介质上打印从外部发送来的图像数据的打印机等进行动作。 MFP 11对作为文档种类的申 请委托书、 原稿校阅委托书、 驳回应对讨论。

28、委托书这三种进行处理。 0039 MFP 11 与扫描器 12、 控制面板 13 相连接。扫描器 12 扫描记录有文档的记录介质 并取得扫描图像。控制面板 13 例如接受用户的操作并设定 MFP 11 的各种动作。MFP 11 通 过局域网 (LAN)14 与文件处理服务器 15、 文件管理服务器 16、 客户个人电脑 ( 以下称为客 户 PC)17 相连接。文件处理服务器 15 例如对文档文件进行各种处理。文件管理服务器 16 例如管理文档文件。客户 PC 17 例如是客户使用的个人电脑。 0040 MFP 11 包括扫描文件获取部 1。文件处理服务器 15 包括文档种类识别部 2、 提取 。

29、部 3、 提取方法保存部 4、 评价部 5、 文档特征信息保存部 6。文件管理服务器 16 包括文档文 件登记部 7、 文档文件保存部 8、 文档文件显示部 9。客户 PC 17 包括文档文件显示部 9。客 户PC 17具有Web浏览器。 客户PC 17接受用户的操作, 可通过Web浏览器访问由文档文件 显示部9提供的文档文件以及与文档文件相关联的文档文件种类或文档特征信息。 客户PC 17 可访问文档文件保存部 8, 可阅览文档文件以及与文档文件相关联的文档文件种类或文 档特征信息。 0041 MFP 11、 文档处理服务器 15、 文档管理服务器 16、 客户 PC 17 通过局域网 15。

30、 相连 接, 可相互进行数据的发送和接收。 0042 文件处理服务器15具有程序存储器15m。 程序存储器15m存储可在文档处理服务 器 15 上安装的电脑可读取的文档文件种类识别程序。文档文件种类识别程序根据提取方 法保存部 4 中保存的提取方法信息 100, 从文档文件中提取表示文档文件中包含的文档的 特征性信息的文档特征信息, 根据特征信息保存部 6 中保存的参照文档特征信息 101 评价 提取的文档特征信息的妥当性, 若文档特征信息有妥当性, 则与提取的文档特征信息相对 应的文档文件种类进行识别。 0043 提取方法信息 100 记载用于从文档文件提取文档特征信息的基于文档文件种类 的。

31、多种方法。 0044 参照文档特征信息 101 按照多个种类作为用于应该从文档文件提取的文档特征 信息的参照。 0045 另外, 文档文件种类识别程序也可以在文档处理服务器 15 或文档管理服务器 16 两者的一者中或分散至两者并进行存储。 0046 接下来, 参照图 8 所示的文档文件种类识别流程图, 对扫描记录有文档的记录介 质, 并将扫描文件登记在文档文件保存部 8 的处理进行说明。 说 明 书 CN 102054171 A CN 102054178 A5/8 页 9 0047 扫描器12扫描记录有文档的记录介质、 例如写有图3所示的EF公司敬启、 来自cc 专利事务所的原稿校阅的委托的。

32、记录介质, 并取得扫描图像 (ACT1)。 0048 扫描文件取得部1接收扫描器12取得的扫描图像, 解析扫描图像并通过包括文档 特征信息的文档文件。 具体而言, 扫描文件通过部1对扫描图像实施光学式字符识别(OCR) 处理 (ACT2)。 0049 扫描文件取得部 1 实施 OCR 处理, 获取字符位于扫描图像中的何处这样的布局信 息, 并取得记载了什么这样的字符信息等。扫描文件取得部 1 综合扫描图像、 布局信息、 字 符信息, 并制作成文档文件。文档文件的文件格式例如是 PDF 文件。 0050 提取部 3 为了对文档特征信息的提取方法的使用次数进行计数而设定 i 1(ACT3)。 00。

33、51 提取部 3 依次设定文档文件为多个种类中的一种, 按照这些依次设定的顺序, 基 于与所设定的该种类相对应的方法从文档文件中提取文档特征信息。例如提取部 3 将如图 5 所示的提取方法信息 100 中例如申请委托书设为第 i 1、 将原稿校阅委托书设为第 i 2、 将驳回应对讨论委托书设为第 i 3。 0052 对于文档种类未知的文档文件, 提取部 3 应用与提取方法保存部 4 中保存的所有 文档种类对应的提取方法 (ACT4-6)。 0053 以下说明提取方法。尽管作为对象的文档文件的文档种类未知, 提取方法暂时设 定其为某一文档种类, 并针对所设定的文档种类应用提取方法。 0054 提。

34、取部 3 将第 i 1 的申请委托书的提取方法应用至文档文件, 并提取文档特征 信息(ACT4)。 也就是说, 提取部3设定文档文件为申请委托书, 并应用与申请委托书对应的 提取方法。申请委托书的提取方法如图 5 所示, 例如为 “获取第 2 行文字” 。 0055 提取部 3 根据提取方法 “获取第 2 行文字” , 从图 3 所示的原稿校阅委托书 F2 的文 档文件取得第 2 行文字。提取部 3 取得 “EF 公司敬启” 。 0056 提取部 3 判断是否已将全部的提取方法 (i 3) 应用于图 5 所示的原稿校阅委托 书 F2 的文档文件 (ACT5)。其判断的结果是已将第 i 1 的申。

35、请委托书的提取方法应用于 文档文件, 提取部 3 使 i i+1 结束计数, 并再次返回 ACT4, 将第 i 2 的原稿校阅委托书 的提取方法应用于文档文件, 并提取文档特征信息。也就是说, 提取部 3 设定文档文件为原 稿校阅委托书, 并应用与原稿校阅委托书对应的提取方法。原稿校阅委托书的提取方法如 图 5 所示, 是例如 “获取第 3 行文字” 。 0057 提取部 3 根据提取方法 “获取第 3 行文字” , 从图 3 所示的原稿校阅委托书 F2 的文 档文件取得第 3 行文字。提取部 3 取得文字列 “cc 专利事务所” 。 0058 提取部 3 再次判断是否已将全部的提取方法 (i。

36、 3) 应用于图 5 所示的原稿校阅 委托书 F2 的文档文件 (ACT5)。其判断的结果是已将第 i 2 的原稿校阅委托书的提取方 法应用于文档文件, 因此, 提取部 3 使 i i+1 结束计数, 并再次返回 ACT4, 将第 i 3 的驳 回应对讨论委托书的提取方法应用于文档文件并提取文档特征信息。也就是说, 提取部 3 设定文档文件为驳回应对讨论委托书, 并应用与驳回应对讨论委托书对应的提取方法。驳 回应对讨论委托书的提取方法如图 5 所示例如是 “获取文档中央的已经被确认的文字” 。 0059 提取部3对如图3所示的原稿校阅委托书F2的文档文件实行 “获取文档中央的已 经被确认的文字。

37、” 。图 3 所示的原稿校阅委托书 F2 的文档文件不存在已经被确认的文字。 说 明 书 CN 102054171 A CN 102054178 A6/8 页 10 提取部 3 获得表示原稿校阅委托书 F2 的文档文件中不存在 “文档中央的已经被确认的文 字” 的 “无效 (null)” 的结果。 0060 提取部 3 再次判断是否已将全部的提取方法 (i 3) 应用于图 3 所示的原稿校阅 委托书 F2 的文档文件 (ACT5)。其判断的结果是已将第 i 3 的驳回应对讨论委托书的提 取方法应用于文档文件, 提取部 3 判断已将全部的提取方法 (i 3) 应用于图 3 所示的原 稿校阅委托书。

38、 F2 的文档文件。 0061 图 9 是通过提取部 3 提取的文档特征信息的一个示例。在设定文档文件为申请委 托书的情况下, 提取了 “EF 公司敬启” 。在设定文档文件为原稿校阅委托书的情况下, 提取 了文字列 “cc 专利事务所” 。在设定文档文件为驳回应对讨论委托书的情况下, 是 “null” 。 0062 评价部 5 评价通过提取部 3 提取的文档特征信息的妥当性。评价部 5 根据特征信 息保存部6中保存的如图6所示的参照文档特征信息101, 评价通过提取部3提取的文档特 征信息的妥当性 (ACT7)。这种情况下, 评价部 5 将特征信息保存部 6 中保存的全部参照文 档特征信息10。

39、1应用于通过提取部3提取的文档特征信息, 并评价文档特征信息的妥当性。 0063 评价部 5 评价在设定如图 9 所示的原稿校阅委托书 F2 的文档文件为申请委托书 的情况下获得的 “EF 公司敬启” 的字符列是否妥当。参照图 6 所示的参照文档特征信息 101, 申请委托书的文档特征信息应该是 A 国申请委托、 B 国申请委托、 C 国申请委托的三者 之一。另一方面, 实际取得的文档特征信息如图 9 所示是 “EF 公司敬启” , 与 A 国申请委托、 B 国申请委托、 C 国申请委托的任一个都不符合。因此, 评价部 5 将设定原稿校阅委托书 F2 的文档文件为申请委托书并提取的 “EF 公。

40、司敬启” 的文档特征信息评价为不妥当。 0064 评价部 5 评价在设定如图 9 所示的原稿校阅委托书 F2 的文档文件为原稿校阅委 托书的情况下获得的 “cc 专利事务所” 的字符列是否妥当。参照图 6 所示的参照文档特征 信息 101, 原稿校阅委托书的文档特征信息应该是 aa 专利事务所、 bb 专利事务所、 cc 专利 事务所的三者之一。另一方面, 实际获得的文档特征信息如图 9 所示是 “cc 专利事务所” , 符合 aa 专利事务所、 bb 专利事务所、 cc 专利事务所中的一个。因此, 评价部 5 将设定原稿 校阅委托书 F2 的文档文件为原稿校阅委托书而提取的 “cc 专利事务。

41、所” 的文档特征信息评 价为妥当。 0065 评价部 5 评价在设定如图 9 所示的原稿校阅委托书 F2 的文档文件为驳回应对讨 论委托书的情况下获得的 “null” 字符列是否妥当。 参照如图6所示参照文档特征信息101, 驳回应对讨论委托书的文档特征信息应该是需要授权、 不需要授权、 其他这三者之一。 另一 方面, 实际取得的文档特征信息如图 9 所示是 “null” , 不符合需要授权、 不需要授权、 其他 中的任一个。因此, 评价部 5 将设定原稿校阅委托书 F2 的文档文件为驳回应对讨论委托书 而提取的 “null” 文档特征信息评价为不妥当。 0066 其结果是, 评价部5评价在设。

42、定原稿校阅委托书F2的文档文件为原稿校阅委托书 的情况下获得的 “cc 专利事务所” 的字符列为妥当。 0067 文档种类识别部 2 接受来自评价部 5 的评价结果, 并确定原稿校阅委托书 F2 的文 档文件的文档种类及文档特征信息(ACT8)。 评价设定了文档种类的情况下的文档特征信息 的妥当性的结果是, 只有将文档文件设定为原稿校阅委托书的情况下, 才判断为妥当的。 文 档种类识别部2确定原稿校阅委托书F2的文档文件的文档种类为原稿校阅委托书、 文档特 征信息为 cc 专利事务所。 说 明 书 CN 102054171 A CN 102054178 A7/8 页 11 0068 文档文件登。

43、记部 7 将文档种类识别部 2 识别的文档文件种类、 文档文件以及文档 特征信息相关联地保存在文档文件保存部 8(ACT9) 中。图 10 是文档文件保存部 8 中保存 的文档文件保存信息 102 的一例示意图。文档文件保存信息 102 将文档文件名、 文档种类 以及文档特征信息相关联地进行保存。 0069 文档文件显示部9将在文档文件保存部8中保存的文档文件和与文档文件相关联 的文档文件名、 文档文件种类或文档特征信息一起显示给用户。 0070 如上所述, 根据上述实施方式, 根据提取方法信息 100 从文档文件中提取文档文 件包含的文档特征信息, 并根据参照文档特征信息 101 评价提取的。

44、文档特征信息的妥当 性, 若文档特征信息有妥当性, 则识别对应于被提取的文档特征信息的文档文件种类。因 此, 即使取入文档种类未知的记录介质的文档文件, 也可同时确定文档文件的文档种类与 文档特征信息。对于文档文件的文档种类与文档特征信息的的确定, 不用经过判定文档文 件的文档种类、 其后提取与文档种类对应的特征信息这样两个阶段的步骤。 0071 文档文件显示部 9 可接受用户的操作, 并将文档文件保存部 8 中保存的文档文件 名、 文档文件种类、 文档特征信息显示给用户。用户除了知道文档文件名, 还可以知道文档 文件种类、 文档特征信息。 0072 上述实施方式可进行如下的变形。 0073 。

45、图 11 是图 8 所示的文档文件种类识别流程图的变形例。对与图 8 所示的文档文 件种类识别流程图的不同之处进行说明。 0074 提取部 3 将第 i 1 的申请委托书的提取方法应用于文档文件, 并提取文档特征 信息 (ACT4)。 0075 评价部5根据特征信息保存部6中保存的图6所示的参照文档特征信息101, 评价 由提取部 3 提取的文档特征信息的妥当性 (ACT7)。 0076 提取部 3 将全部的提取方法 (i 3) 应用于图 5 所示的原稿校阅委托书 F2 的文 档文件, 并判断是否评价了通过全部的提取方法提取的文档特征信息的妥当性 (ACT5)。 0077 判断的结果是, 如果。

46、将全部的提取方法 (i 3) 应用于文档文件、 且未评价妥当 性, 则提取部 3 使 i i+1 结束计数, 并再次返回 ACT4, 将下一个原稿校阅委托书的提取方 法应用于文档文件, 并提取文档特征信息。 0078 判断的结果是, 如果将全部的提取方法 (i 3) 应用于文档文件、 且已评价妥当 性, 则文档种类识别部 2 接受来自评价部 5 的评价结果, 并确定原稿校阅委托书 F2 的文档 文件的文档种类及文档特征信息 (ACT8)。 0079 文档文件种类不限于例如申请委托书、 原稿校阅委托书、 驳回应对讨论委托书, 也 可应用于各种委托书等的识别。 申请委托书、 原稿校阅委托书、 驳回。

47、应对讨论委托书等各种 文档文件中的文档特征信息不限于图 2 所示的 A 国申请委托书、 B 国申请委托书、 C 国申请 委托书、 .、 aa 专利事务所、 bb 专利事务所等, 也可使用文档文件中其他的特征性信息。 0080 文档文件的文档特征信息的提取方法也可根据各种类的各自格式变更文档文件 中的提取位置。 0081 文档文件的格式并不限定于规定格式。 例如, 从格式中提取特征信息时, 对规定的 语句, 将前后的在字符列作为特征信息并提取。 因此, 可形成不依赖于文档中的字符的绝对 位置的提取方法。也可从非定型格式中提取特征信息。 说 明 书 CN 102054171 A CN 102054。

48、178 A8/8 页 12 0082 尽管说明了上述实施方式, 但这些实施方式仅仅是通过例子来表达的, 并非有意 限制发明的范围。实际上, 这里所说明的实施方式可以多种其他形式来实现。而且, 可以对 这里所说明的实施方式做出各种省略、 替代与改变, 但并不与本发明的思想有所区别。 附加 的声明及其等价体意在包括那些属于本发明的范围和思想之中的形式或改动。 说 明 书 CN 102054171 A CN 102054178 A1/7 页 13 图 1 图 2 说 明 书 附 图 CN 102054171 A CN 102054178 A2/7 页 14 图 3 图 4 说 明 书 附 图 CN 102054171 A CN 102054178 A3/7 页 15 图 5 图 6 说 明 书 附 图 CN 102054171 A CN 102054178 A4/7 页 16 图 7 说 明 书 附 图 CN 102054171 A CN 102054178 A5/7 页 17 图 8 说 明 书 附 图 CN 102054171 A CN 102054178 A6/7 页 18 图 9 图 10 说 明 书 附 图 CN 102054171 A CN 102054178 A7/7 页 19 图 11 说 明 书 附 图 CN 102054171 A 。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1