格式文档中的信息的抽取装置及抽取方法.pdf

摘要
申请专利号：	CN01123845.3	申请日：	2001.08.03
公开号：	CN1400547A	公开日：	2003.03.05
当前法律状态：	终止	有效性：	无权
法律详情：	未缴年费专利权终止IPC(主分类):G06F 17/21申请日:20010803授权公告日:20040915\|\|\|授权\|\|\|公开\|\|\|实质审查的生效申请日:2001.08.03
IPC分类号：	G06F17/21; G06F17/27	主分类号：	G06F17/21; G06F17/27
申请人：	富士通株式会社;
发明人：	黄晓宏; 徐国伟
地址：	日本神奈川县
优先权：
专利代理机构：	北京三友知识产权代理有限公司	代理人：	李强
PDF下载：	PDF下载

内容摘要

格式文档中的信息的抽取装置，包括：输入格式文档的输入单元(1)；对输入的格式文档进行分析，并保持特殊排印信息的排印信息保持单元(2)；对于分析的结果，利用字号、字体、颜色等排印信息来识别特殊字符串的特殊字符串判定单元(3)；抽取识别出来的特殊字符串的特殊字符串抽取单元(4)；以及输出抽取出来的字符串的输出单元(5)。当判断出某个字符串的排印信息为特殊排印信息时，将其判断为特殊字符串。由此，能够对于不同类型的格式文档自动地进行信息的抽取。

权利要求书

1：格式文档中的信息的抽取装置，包括：输入格式文档的输入单元 (1)；对输入的格式文档进行分析，并保持特殊排印信息的排印信息保持单元(2)；对于分析的结果，利用字号、字体、颜色等排印信息来识别特殊字符串的特殊字符串判定单元(3)；抽取识别出来的特殊字符串的特殊字符串抽取单元(4)；以及输出抽取出来的字符串的输出单元(5)。
2：权利要求1所述的格式文档中的信息的抽取装置，其特征在于，上述特殊字符串判定单元(3)利用格式文档的排印信息，当判断出某个字符串的排印信息为特殊排印信息时，将其判断为特殊字符串。
3：权利要求1或2所述的格式文档中的信息的抽取装置，其特征在于，上述格式文档为HTML文档，上述特殊字符串判定单元(3)根据对 HTML文档的分析结果，当判断出某个字符串的字号与周围相比为最大时将该字符串判断为特殊字符串。
4：权利要求1或2所述的格式文档中的信息的抽取装置，其特征在于，上述格式文档为HTML文档，上述特殊字符串判定单元(3)根据对 HTML文档的分析结果，当判断出某个字符串的颜色和字体与周围相比为特殊时将该字符串判断为特殊字符串。
5：权利要求1或2所述的格式文档中的信息的抽取装置，其特征在于，上述格式文档为HTML文档，上述特殊字符串判定单元(3)根据对 HTML文档的分析结果，当判断出某个字符串的字体与其他不同且为粗字，与周围相比为特殊时将该字符串判断为特殊字符串。
6：权利要求1或2所述的格式文档中的信息的抽取装置，其特征在于，上述格式文档为HTML文档，上述特殊字符串判定单元(3)根据对 HTML文档的分析结果，当判断出某个字符串的颜色与其他不同且为粗字，与周围相比为特殊时将该字符串判断为特殊字符串。
7：格式文档中的信息的抽取方法，包括以下步骤：输入格式文档的步骤；对输入的格式文档进行分析，并保持特殊排印信息的步骤；对于分析的结果，利用字号、字体、颜色等排印信息来识别特殊字符串的步骤；抽取识别出来的特殊字符串的步骤；以及输出抽取出来的字符串的步骤。
8：权利要求7所述的格式文档中的信息的抽取方法，其特征在于，在上述识别特殊字符串的步骤中利用格式文档的排印信息，当判断出某个字符串的排印信息为特殊排印信息时，将其判断为特殊字符串。
9：权利要求7或8所述的格式文档中的信息的抽取方法，其特征在于，上述格式文档为HTML文档，在上述识别特殊字符串的步骤中根据对HTML文档的分析结果，当判断出某个字符串的字号与周围相比为最大时将该字符串判断为特殊字符串。
10：权利要求7或8所述的格式文档中的信息的抽取方法，其特征在于，上述格式文档为HTML文档，在上述识别特殊字符串的步骤中根据对HTML文档的分析结果，当判断出某个字符串的颜色和字体与周围相比为特殊时将该字符串判断为特殊字符串。
11：权利要求7或8所述的格式文档中的信息的抽取方法，其特征在于，上述格式文档为HTML文档，在上述识别特殊字符串的步骤中根据对HTML文档的分析结果，当判断出某个字符串的字体与其他不同且为粗字，与周围相比为特殊时将该字符串判断为特殊字符串。
12：权利要求7或8所述的格式文档中的信息的抽取方法，其特征在于，上述格式文档为HTML文档，根据对HTML文档的分析结果，当判断出某个字符串的颜色与其他不同且为粗字，与周围相比为特殊时将该字符串判断为特殊字符串。

说明书

格式文档中的信息的抽取装置及抽取方法
    【技术领域】

    本发明涉及从输入的文档，例如进行网上销售的网页中自动地抽取出特殊字符串的文档中的信息的抽取装置及抽取方法。背景技术

    现有的从文档中抽取信息的装置，例如有S.Soderland“Learning toExtract Text-based Information from the World Wide Web”，Proc.3rd Intl Conf.on Knowledge Discovery and Data Mining(KDD-97)中公开地技术。在现有技术中，利用位于特殊字符串之前的属性名(例如“商品名”)的字符串来判别特殊字符串并将其抽出。

    在现有技术中，因为是利用位于特殊字符串之前的属性名(“商品名”等)的字符串来判别特殊字符串并将其抽出的，因而在像‘商品名：モノグラムアクセサリ一ポ一チ’那样的、齐备了作为属性名的‘商品名’和作为属性值的商品名称的场合是有效的。但是，像因特网的网页那样的文档有各种各样的格式，存在着没有属性名的情况。例如，存在着只有‘モノダラムアクセサリ一ポ一チ’的情况。在没有属性名的情况下，采用上述技术就不能抽出特殊字符串。另外，在现有技术中需要人工提供样本供机器学习，不能自动地抽取出特殊字符串。

    本发明是为了解决上述问题而作出的，其目的在于提供一种能够从输入的格式文档中自动地抽取出特殊字符串的文档中的信息的抽取装置及抽取方法。发明内容

    为了解决上述问题，本发明的格式文档中的信息的抽取装置，包括：输入格式文档的输入单元；对输入的格式文档进行分析，并保持特殊排印信息的排印信息保持单元；对于分析的结果，利用字号、字体、颜色等排印信息来识别特殊字符串的特殊字符串判定单元；抽取识别出来的特殊字符串的特殊字符串抽取单元；以及输出抽取出来的字符串的输出单元。

    本发明的格式文档中的信息的抽取方法，包括以下步骤：输入格式文档的步骤；对输入的格式文档进行分析，并保持特殊排印信息的步骤；对于分析的结果，利用字号、字体、颜色等排印信息来识别特殊字符串的步骤；抽取识别出来的特殊字符串的步骤；以及输出抽取出来的字符串的步骤。

    若采用本发明，因为对输入的格式文档进行分析，利用字号、字体、颜色等排印信息来判断出特殊字符串信息并抽取特殊字符串，故能够从输入的格式文档中自动地抽取出特殊字符串，并能够大幅度提高抽取准确度。另外，在现有技术中需要人工提供样本供机器学习，而本发明不需要学习样本，能够对于不同类型的格式文档自动地进行判断和抽取。附图说明

    图1为本发明的格式文档中的信息的抽取装置的结构框图。

    图2为说明本发明的实施例1的文档数据和流程图。

    图3为说明本发明的实施例2的文档数据和流程图。

    图4为说明本发明的实施例3的文档数据和流程图。

    图5为说明本发明的实施例4的文档数据和流程图。具体实施方式

    图1为本发明的格式文档中的信息的抽取装置的结构框图。

    在图1的格式文档中的信息的抽取装置中，1为输入格式文档的输入单元；2为利用某种方法对输入的格式文档进行分析，并保持特殊排印信息的排印信息保持单元；3为对于分析的结果，利用字号、字体、颜色等排印信息来识别特殊字符串的特殊字符串判定单元；4为抽取识别出来的特殊字符串的特殊字符串抽取单元；5为输出抽取出来的字符串的输出单元。

    下面，参照图2-图5，以从HTML(超文本标志语言)文档中抽取出特殊字符串为例来说明本发明的格式文档中的信息的抽取装置的动作。

    (实施例1)

    图2为说明本发明的实施例1的文档数据和流程图。其中，图2(a)为某个网上销售信息(HTML形式的文档)；图2(b)为图2(a)中的信息的HTML源文件；图2(c)为实施例1的信息抽取动作的流程图。

    下面说明实施例1的信息抽取动作的流程。在步骤101中，输入图2(b)所示的HTML源文件。在步骤102中对在步骤101中输入的HTML源文件进行分析，发现排印信息。接着在步骤103-107中进行特殊字符串的抽取。

    首先，在步骤103中根据步骤102的分析结果确定字符串判断对象。在步骤104中判断在步骤103中确定的字符串的字号与周围相比是否为最大。若判断为否则进入步骤106。在步骤106判断该字符串的排印信息是否超出了预先设定的范围，如果超出了预先设定的范围则进到步骤107，结束信息抽取动作。在步骤106中如果判断为没有超出预先设定的范围则返回步骤103，在步骤103确定下一个判断对象。

    若在步骤104中判断为是，具体说在本例中字符串“Windows操作及应用技术(第二版)”的排印信息为(FONT size＝5)，与周围相比为最大，因而判断为特殊排印信息。于是，进到步骤105，在步骤105中将字符串“Windows操作及应用技术(第二版)”判定为特殊字符串(商品名)。

    采用本实施例的信息抽取装置，利用字号这样的排印信息来判断出特殊字符串，故能够从输入的格式文档中自动地抽取出特殊字符串。

    (实施例2)

    图3为说明本发明的实施例2的文档数据和流程图。其中，图3(a)为某个网上销售信息(HTML形式的文档)；图3(b)为图3(a)中的信息的HTML源文件；图3(c)为实施例2的信息抽取动作的流程图。

    下面说明实施例2的信息抽取动作的流程。与上述实施例1相同的动作在此省略重复的说明，仅对不同的动作进行说明。

    在步骤204中判断在步骤203中确定的字符串的字体等是否与其他不同，与周围相比是否为特殊。若在步骤204中判断为是，具体说在本例中字符串“Windows操作及应用技术(第二版)”的排印信息为(字体“华文行楷”，且颜色为红(color＝#ff0000))，与周围相比为特殊，因而判断为特殊排印信息。于是，进到步骤205，在步骤205中将字符串“Windows操作及应用技术(第二版)”判定为特殊字符串(商品名)。

    采用本实施例的信息抽取装置，利用字体和颜色这样的排印信息来判断出特殊字符串，故能够从输入的格式文档中自动地抽取出特殊字符串。

    (实施例3)

    图4为说明本发明的实施例3的文档数据和流程图。其中，图4(a)为某个网上销售信息(HTML形式的文档)；图4(b)为图4(a)中的信息的HTML源文件；图4(c)为实施例3的信息抽取动作的流程图。

    下面说明实施例3的信息抽取动作的流程。与上述实施例1相同的动作在此省略重复的说明，仅对不同的动作进行说明。

    在步骤304中判断在步骤303中确定的字符串的字体等是否与其他不同，与周围相比是否为特殊。若在步骤304中判断为是，具体说在本例中字符串“Windows操作及应用技术(第二版)”的排印信息为(字体“华文行楷”，且为粗字(<B><FONT  …</B>))，与周围相比为特殊，因而判断为特殊排印信息。于是，进到步骤305，在步骤305中将字符串“Windows操作及应用技术(第二版)”判定为特殊字符串(商品名)。

    采用本实施例的信息抽取装置，利用字体和粗字这样的排印信息来判断出特殊字符串，故能够从输入的格式文档中自动地抽取出特殊字符串。

    (实施例4)

    图5为说明本发明的实施例4的文档数据和流程图。其中，图5(a)为某个网上销售信息(HTML形式的文档)；图5(b)为图5(a)中的信息的HTML源文件；图5(c)为实施例4的信息抽取动作的流程图。

    下面说明实施例4的信息抽取动作的流程。与上述实施例1相同的动作在此省略重复的说明，仅对不同的动作进行说明。

    在步骤404中判断在步骤403中确定的字符串的字体等是否与其他不同，与周围相比是否为特殊。若在步骤404中判断为是，具体说在本例中字符串“Windows操作及应用技术(第二版)”的排印信息为(颜色为红(color＝#ff0000)，且为粗字)，与周围相比为特殊，因而判断为特殊排印信息。于是，进到步骤405，在步骤405中将字符串“Windows操作及应用技术(第二版)”判定为特殊字符串(商品名)。

    采用本实施例的信息抽取装置，利用颜色和粗字这样的排印信息来判断出特殊字符串，故能够从输入的格式文档中自动地抽取出特殊字符串。

    以上的实施例1-4仅仅是用来说明本发明的，而不是限定本发明的。在不脱离本发明的精神实质的范围内的变更应包含在本发明中。例如，将上述实施例1-4进行适当组合和变更，同样可以达到本发明自动地抽取出特殊字符串的效果。