格式文档中的信息的抽取装置及抽取方法 【技术领域】
本发明涉及从输入的文档,例如进行网上销售的网页中自动地抽取出特殊字符串的文档中的信息的抽取装置及抽取方法。背景技术
现有的从文档中抽取信息的装置,例如有S.Soderland“Learning toExtract Text-based Information from the World Wide Web”,Proc.3rd Intl Conf.on Knowledge Discovery and Data Mining(KDD-97)中公开地技术。在现有技术中,利用位于特殊字符串之前的属性名(例如“商品名”)的字符串来判别特殊字符串并将其抽出。
在现有技术中,因为是利用位于特殊字符串之前的属性名(“商品名”等)的字符串来判别特殊字符串并将其抽出的,因而在像‘商品名:モノグラムアクセサリ一ポ一チ’那样的、齐备了作为属性名的‘商品名’和作为属性值的商品名称的场合是有效的。但是,像因特网的网页那样的文档有各种各样的格式,存在着没有属性名的情况。例如,存在着只有‘モノダラムアクセサリ一ポ一チ’的情况。在没有属性名的情况下,采用上述技术就不能抽出特殊字符串。另外,在现有技术中需要人工提供样本供机器学习,不能自动地抽取出特殊字符串。
本发明是为了解决上述问题而作出的,其目的在于提供一种能够从输入的格式文档中自动地抽取出特殊字符串的文档中的信息的抽取装置及抽取方法。发明内容
为了解决上述问题,本发明的格式文档中的信息的抽取装置,包括:输入格式文档的输入单元;对输入的格式文档进行分析,并保持特殊排印信息的排印信息保持单元;对于分析的结果,利用字号、字体、颜色等排印信息来识别特殊字符串的特殊字符串判定单元;抽取识别出来的特殊字符串的特殊字符串抽取单元;以及输出抽取出来的字符串的输出单元。
本发明的格式文档中的信息的抽取方法,包括以下步骤:输入格式文档的步骤;对输入的格式文档进行分析,并保持特殊排印信息的步骤;对于分析的结果,利用字号、字体、颜色等排印信息来识别特殊字符串的步骤;抽取识别出来的特殊字符串的步骤;以及输出抽取出来的字符串的步骤。
若采用本发明,因为对输入的格式文档进行分析,利用字号、字体、颜色等排印信息来判断出特殊字符串信息并抽取特殊字符串,故能够从输入的格式文档中自动地抽取出特殊字符串,并能够大幅度提高抽取准确度。另外,在现有技术中需要人工提供样本供机器学习,而本发明不需要学习样本,能够对于不同类型的格式文档自动地进行判断和抽取。附图说明
图1为本发明的格式文档中的信息的抽取装置的结构框图。
图2为说明本发明的实施例1的文档数据和流程图。
图3为说明本发明的实施例2的文档数据和流程图。
图4为说明本发明的实施例3的文档数据和流程图。
图5为说明本发明的实施例4的文档数据和流程图。具体实施方式
图1为本发明的格式文档中的信息的抽取装置的结构框图。
在图1的格式文档中的信息的抽取装置中,1为输入格式文档的输入单元;2为利用某种方法对输入的格式文档进行分析,并保持特殊排印信息的排印信息保持单元;3为对于分析的结果,利用字号、字体、颜色等排印信息来识别特殊字符串的特殊字符串判定单元;4为抽取识别出来的特殊字符串的特殊字符串抽取单元;5为输出抽取出来的字符串的输出单元。
下面,参照图2-图5,以从HTML(超文本标志语言)文档中抽取出特殊字符串为例来说明本发明的格式文档中的信息的抽取装置的动作。
(实施例1)
图2为说明本发明的实施例1的文档数据和流程图。其中,图2(a)为某个网上销售信息(HTML形式的文档);图2(b)为图2(a)中的信息的HTML源文件;图2(c)为实施例1的信息抽取动作的流程图。
下面说明实施例1的信息抽取动作的流程。在步骤101中,输入图2(b)所示的HTML源文件。在步骤102中对在步骤101中输入的HTML源文件进行分析,发现排印信息。接着在步骤103-107中进行特殊字符串的抽取。
首先,在步骤103中根据步骤102的分析结果确定字符串判断对象。在步骤104中判断在步骤103中确定的字符串的字号与周围相比是否为最大。若判断为否则进入步骤106。在步骤106判断该字符串的排印信息是否超出了预先设定的范围,如果超出了预先设定的范围则进到步骤107,结束信息抽取动作。在步骤106中如果判断为没有超出预先设定的范围则返回步骤103,在步骤103确定下一个判断对象。
若在步骤104中判断为是,具体说在本例中字符串“Windows操作及应用技术(第二版)”的排印信息为(FONT size=5),与周围相比为最大,因而判断为特殊排印信息。于是,进到步骤105,在步骤105中将字符串“Windows操作及应用技术(第二版)”判定为特殊字符串(商品名)。
采用本实施例的信息抽取装置,利用字号这样的排印信息来判断出特殊字符串,故能够从输入的格式文档中自动地抽取出特殊字符串。
(实施例2)
图3为说明本发明的实施例2的文档数据和流程图。其中,图3(a)为某个网上销售信息(HTML形式的文档);图3(b)为图3(a)中的信息的HTML源文件;图3(c)为实施例2的信息抽取动作的流程图。
下面说明实施例2的信息抽取动作的流程。与上述实施例1相同的动作在此省略重复的说明,仅对不同的动作进行说明。
在步骤204中判断在步骤203中确定的字符串的字体等是否与其他不同,与周围相比是否为特殊。若在步骤204中判断为是,具体说在本例中字符串“Windows操作及应用技术(第二版)”的排印信息为(字体“华文行楷”,且颜色为红(color=#ff0000)),与周围相比为特殊,因而判断为特殊排印信息。于是,进到步骤205,在步骤205中将字符串“Windows操作及应用技术(第二版)”判定为特殊字符串(商品名)。
采用本实施例的信息抽取装置,利用字体和颜色这样的排印信息来判断出特殊字符串,故能够从输入的格式文档中自动地抽取出特殊字符串。
(实施例3)
图4为说明本发明的实施例3的文档数据和流程图。其中,图4(a)为某个网上销售信息(HTML形式的文档);图4(b)为图4(a)中的信息的HTML源文件;图4(c)为实施例3的信息抽取动作的流程图。
下面说明实施例3的信息抽取动作的流程。与上述实施例1相同的动作在此省略重复的说明,仅对不同的动作进行说明。
在步骤304中判断在步骤303中确定的字符串的字体等是否与其他不同,与周围相比是否为特殊。若在步骤304中判断为是,具体说在本例中字符串“Windows操作及应用技术(第二版)”的排印信息为(字体“华文行楷”,且为粗字(<B><FONT …</B>)),与周围相比为特殊,因而判断为特殊排印信息。于是,进到步骤305,在步骤305中将字符串“Windows操作及应用技术(第二版)”判定为特殊字符串(商品名)。
采用本实施例的信息抽取装置,利用字体和粗字这样的排印信息来判断出特殊字符串,故能够从输入的格式文档中自动地抽取出特殊字符串。
(实施例4)
图5为说明本发明的实施例4的文档数据和流程图。其中,图5(a)为某个网上销售信息(HTML形式的文档);图5(b)为图5(a)中的信息的HTML源文件;图5(c)为实施例4的信息抽取动作的流程图。
下面说明实施例4的信息抽取动作的流程。与上述实施例1相同的动作在此省略重复的说明,仅对不同的动作进行说明。
在步骤404中判断在步骤403中确定的字符串的字体等是否与其他不同,与周围相比是否为特殊。若在步骤404中判断为是,具体说在本例中字符串“Windows操作及应用技术(第二版)”的排印信息为(颜色为红(color=#ff0000),且为粗字),与周围相比为特殊,因而判断为特殊排印信息。于是,进到步骤405,在步骤405中将字符串“Windows操作及应用技术(第二版)”判定为特殊字符串(商品名)。
采用本实施例的信息抽取装置,利用颜色和粗字这样的排印信息来判断出特殊字符串,故能够从输入的格式文档中自动地抽取出特殊字符串。
以上的实施例1-4仅仅是用来说明本发明的,而不是限定本发明的。在不脱离本发明的精神实质的范围内的变更应包含在本发明中。例如,将上述实施例1-4进行适当组合和变更,同样可以达到本发明自动地抽取出特殊字符串的效果。