提高孤独症儿童社会互动能力的人机互动多模态早期干预系统.pdf

摘要
申请专利号：	CN201110328413.9	申请日：	2011.10.26
公开号：	CN102354349A	公开日：	2012.02.15
当前法律状态：	授权	有效性：	有权
法律详情：	授权\|\|\|实质审查的生效IPC(主分类):G06F 19/00申请日:20111026\|\|\|公开
IPC分类号：	G06F19/00; G06F3/01	主分类号：	G06F19/00
申请人：	华中师范大学
发明人：	陈靓影; 陈丹; 杨宗凯
地址：	430079 湖北省武汉市洪山区珞瑜路152号
优先权：
专利代理机构：	湖北武汉永嘉专利代理有限公司 42102	代理人：	张安国;伍见
PDF下载：	PDF下载

内容摘要

一种提髙孤独症儿童社会互动能力的人机互动多模态早期干预系统。该系统包括一台多点触摸屏，一台计算机和三台分别安装在触摸屏左边、右边以及中上方的摄像头，摄像头带麦克风通过USB接口与计算机相连，系统设有视觉信号处理、语音信号处理、物理交互界面、多模态融合、智能控制台和真实场景模拟六个基本模块，其融合计算机视觉，语音识别，行为识别，智能体和虚拟现实技术来支持提高孤独症儿童的社会互动能力。通过半年时间跟踪数名儿童在此学习环境中的发展变化，其中多数儿童的社会互动能力有了明显提高，另外儿童的互动能力也有一定地进步。

权利要求书

1：一种提髙孤独症儿童社会互动能力的人机互动多模态早期干预系统，特征在于：该系统包括一台多点触摸屏 (1)，第 1 摄像头 (2-1)，第 2 摄像头 (2-2)，第 3 摄像头 (2-3)，计算机 (3)，第 1 摄像头、第 3 摄像头和第 2 摄像头分别安装在多点触摸屏的左边、右边以及中上方， 3 个摄像头带麦克风通过 USB 接口与计算机相连，系统设置有视觉信号处理、语音信号处理、物理交互界面、多模态融合、智能控制台和真实场景模拟六个基本模块，摄像头将获取的儿童的视频及音频信号传输给计算机，计算机通过视觉信号处理来检测儿童的注意力和表情，通过语音信号处理辨别儿童的声音，触摸屏捕捉儿童的动作，多模态信息融合模块把检测到的儿童的注意力、表情、声音和手势动作信号融合产生儿童的学习状态，然后反馈给智能控制台，智能控制台根据设计的学习活动内容产生儿童与虚拟动画人物 (5) 之间基于游戏的互动，真实场景模拟根据多模态信息融合模块与智能控制台发出的指令显示不同的虚拟场景 (4) 和输出各种声音。
2：如权利要求 1 所述的提髙孤独症儿童社会互动能力的人机互动多模态早期干预系统，其特征在于：所述的第 1 摄像头 (2-1) 和第 3 摄像头 (2-3) 选用 LogitechQuickcam 摄像头，第 2 摄像头 (2-2) 选用 Mironu Webcam 摄像头。
3：如权利要求 1 所述的提髙孤独症儿童社会互动能力的人机互动多模态早期干预系统，其特征在于：所述的多点触摸屏 (1) 尺寸为 42 寸触摸屏。
4：如权利要求 1 所述的提髙孤独症儿童社会互动能力的人机互动多模态早期干预系统，其特征在于：所述的视觉信号处理模块，采用 C++ 编程语言实现基于特征点方法的儿童注意力检测，以及基于稀疏表示表情识别方法的儿童心理状态估计。
5：如权利要求 1 所述的提髙孤独症儿童社会互动能力的人机互动多模态早期干预系统，其特征在于：所述的语音信号处理模块，分析儿童语音信号中的语调频率和共振峰频率参数，采用 C++ 编程语言实现基于隐马尔科夫模型的儿童语音识别算法。
6：如权利要求 1 所述的提髙孤独症儿童社会互动能力的人机多模态早期干预系统，其特征在于：所述的物理交互界面采用基于 PQLabs 的 Java 编程语言检测儿童在虚拟环境中触摸的准确位置。
7：如权利要求 1 所述的提髙孤独症儿童社会互动能力的人机互动多模态早期干预系统，其特征在于：所述的多模态融合模块是基于 Internet CommunicationsEngine 中间件的平台。
8：如权利要求 1 所述的提髙孤独症儿童社会互动能力的人机互动多模态早期干预系统，其特征在于：所述的智能控制台模块是基于 FAtiMA 结构，采用 Java 编程语言实现。
9：如权利要求 1 所述的提髙孤独症儿童社会互动能力的人机互动多模态早期干预系统，其特征在于：所述的真实场景模拟模块采用 Maya 动画技术和 SuperCollider 声音输出软件工具。

说明书

提高孤独症儿童社会互动能力的人机互动多模态早期干预系统
    【技术领域】
     本发明涉及一种计算机科学、认知科学和教育学的人机互动多模态智能学习系统，尤其涉及提髙孤独症儿童社会互动能力的人机互动多模态早期干预系统。背景技术
     儿童孤独症又称自闭症，是发生于儿童早期的一种由于神经系统失调导致的发育障碍，其病征包括不正常的社交能力、沟通能力、兴趣和行为模式。虽然孤独症发现于 1943 年，但是对孤独症的研究与治疗直到 20 世纪 80 年代才得到真正重视，长期以来，儿童孤独症病因仍然是个谜，很多研究人员怀疑孤独症是由基因控制，再由环境因素触发，目前尚无任何有效药物可以治疗，只能靠长期的教育干预帮助患儿逐渐好转，否则将导致终身残障。在发达国家，有很多干预训练机构及专业训练人员来帮助孤独症儿童，使他们能恢复到正常儿童的社会交流能力。我国对孤独症儿童的教育干预方法有一定研究，但对孤独症儿童的干预训练机构很少。我国孤独症的发病率以每年 10％ -17％速度增长。卫生部在 2010 年 7 月正式发布《儿童孤独症诊疗康复指南》，《指南》强调儿童孤独症的最佳治疗时间一般在 6 岁之前，其早期的正确诊断和干预治疗非常关键。但到目前为止国内仅有少数几家的民营康复训练学习机构，康复训练人员严重不足，致使许多患儿在最佳康复训练年龄错失了康复训练时机，导致不可逆转的终身残障。社会交流能力是儿童学习的基础，孤独症儿童，由于缺乏社会交流能力，使得学习过程比正常发展的儿童更加困难。最近研究证明了计算机辅助学习对孤独症儿童的有效性，因为孤独症儿童对人与人之间的交流感到不适应，他们更易于接收电子技术设备。计算机可以创造一个安全的，可重复的，可预测控制的训练学习环境更有助于孤独症儿童的学习。研究证明学习者能在多模态互动环境中比在单一模态非互动环境中获得更好的学习效果，并指出多模态互动是学习语言的最好途径。我国目前针对孤独症儿童的多模态人机互动学习研究尚为空白。国外的相关研究主要是采用各种虚拟现实技术辅助孤独症儿童学习，为儿童创造一个安全，可控制的学习环境，尚未建立一套针对提高孤独症儿童社会互动能力的、自适应于不同儿童个体的、多模态人机互动系统。发明内容
     本发明目的旨在建立多模态融合互动式的智能学习系统来有效干预、提高孤独症儿童的社交能力。此系统专门针对提高孤独症儿童的社会互动能力设计学习目标、建立相应的学习活动；根据在学习过程观察到的儿童的行为，认知和心理状态来调整学习活动以满足不同儿童个体的社会认知需求。
     实现上述目的的技术方案：一种提髙孤独症儿童社会互动能力的人机互动多模态早期干预系统，包括一台多点触摸屏， 3 个带麦克风的摄像头，计算机， 3 个摄像头分别安装在多点触摸屏的左边、右边以及中上方并通过 USB 接口与计算机相连 ( 见图 1)，系统设置有视觉信号处理、语音信号处理、物理交互界面、多模态融合、智能控制台和真实场景模拟六个基本模块，摄像头将获取的儿童的视频及音频信号传输给计算机，计算机通过视觉信号处理来检测儿童的注意力和表情，通过语音信号处理辨别儿童的声音，触摸屏捕捉儿童的动作，多模态信息融合模块把检测到的儿童的注意力、表情、声音和手势动作信号融合产生儿童的学习状态，然后反馈给智能控制台，智能控制台根据设计的学习活动内容产生儿童与虚拟动画人物之间基于游戏的互动，真实场景模拟根据多模态信息融合模块与智能控制台发出的指令显示不同的虚拟场景和输出各种声音 ( 见图 2)。视觉信号处理包括表情识别，视线跟踪和头部姿态估计；语音信号处理解决的关键问题是针对儿童的语音识别；物理交互界面通过触摸屏识别儿童在虚拟环境中触摸的准确位置；多模态融合处理和合成检测到的儿童的注意力、表情、声音和手势动作信号然后创建儿童学习状态；智能控制台根据学习活动内容产生儿童与虚拟动画人物之间基于游戏的互动；真实场景模拟采用三维动画和语音合成技术模仿真实社会场景，其负责根据多模态信息融合模块与智能控制台发出的指令显示不同的虚拟场景。在此系统中，使用者通过前端模块 ( 视觉、语音处理及物理交互界面 ) 直接与学习环境互动，后端模块 ( 多模态融合、智能控制台及真实场景模拟 ) 根据使用者的行为产生相应的互动虚拟场景。这个学习环境模拟真实世界，使用者可以通过说，看，指或触摸来表达对事物的兴趣。按上述方案，所述的第 1 摄像头 (2-1) 和第 3 摄像头 (2-3) 选用 Logitech Quickcam 摄像头，第 2 摄像头 (2-2) 选用 Mironu Webcam 摄像头。
     按上述方案，所述的触摸屏 (1) 尺寸为 42 英寸。
     按上述方案，所述的视觉信号处理模块，采用 C++ 编程语言实现基于特征点方法的儿童注意力检测，以及基于稀疏表示表情识别方法的儿童心理状态估计。
     按上述方案，所述的语音信号处理模块，分析儿童语音信号中的语调频率和共振峰频率参数，采用 C++ 编程语言实现基于隐马尔科夫模型的儿童语音识别算法。
     按上述方案，所述的物理交互界面，采用基于 PQLabs 的 Java 编程语言，检测儿童在虚拟环境中触摸的准确位置。
     按上述方案，所述的多模态融合模块是基于 Internet Communications Engine 中间件的平台。
     按上述方案，所述的智能控制台模块是基于 FAtiMA 结构，采用 Java 编程语言实现。
     按上述方案，所述的真实场景模拟模块采用 Maya 动画技术和 SuperCollider 声音输出软件工具。
     本发明的有益效果在于：第一、让孤独症儿童可以在一个安全的不受限制的自由空间里通过人机互动游戏形式探索不同社交场景和提高社会互动及合作技巧；第二、能够根据不同孤独症儿童的个体学习经验、当前学习状态和需求，通过变换与真实世界相仿的虚拟场景来调整学习活动以达到学习目标，支持包含不同的儿童发展路径；第三、通过实时检测多模态社会信号 ( 包括视觉，听觉及触觉信号 ) 来估计儿童的学习状态，认知状态 ( 例如：注意力 )，心理状态 ( 例如：高兴或悲伤等 ) 和学习行为；第四、采用多模态智能学习环境的方式，融合计算机视觉、语音识别、行为识别、结合儿童发展的心理机能理论、虚拟现实技术来支持提高孤独症儿童的社会互动能力。
     附图说明图 1 为人机多模态互动学习环境图中： 1. 多点触摸屏， 2-1. 第 1 摄像头， 2-2. 第 2 摄像头， 2-3. 第 3 摄像头， 3. 计算机， 4. 虚拟场景， 5. 虚拟动画人物。
     图 2 为本发明的系统框图
     具体实施方式
     下面结合附图具体说明实施方案。本发明的一种提髙孤独症儿童社会互动能力的人机互动多模态早期干预系统，包括一台多点触摸屏 1，第 1 摄像头 2-1，第 2 摄像头 2-2，第 3 摄像头 2-3，计算机 3，第 1 摄像头、第 3 摄像头和第 2 摄像头分别安装在多点触摸屏的左边、右边以及中上方， 3 个摄像头带麦克风通过 USB 接口与计算机相连 ( 见图 1)，系统设置有视觉信号处理、语音信号处理、物理交互界面、多模态融合、智能控制台和真实场景模拟六个基本模块，摄像头将获取的儿童的视频及音频信号传输给计算机，计算机通过视觉信号处理来检测儿童的注意力和表情，通过语音信号处理辨别儿童的声音，触摸屏捕捉儿童的动作，多模态信息融合模块把检测到的儿童的注意力、表情、声音和手势动作信号融合产生儿童的学习状态，然后反馈给智能控制台，智能控制台根据设计的学习活动内容产生儿童与虚拟动画人物 5 之间基于游戏的互动，真实场景模拟根据多模态信息融合模块与智能控制台发出的指令显示不同的虚拟场景 4 和输出各种声音 ( 见图 2)。
     本发明的视觉信号处理系统，采用三个摄像头，获得宽广的观察视野，从而使得儿童的行为在学习过程中不受外界条件的约束，并基于 HAAR 特征，熵原理图像分割和改进的主动形状模板的方法提取人脸面部特征，然后采用基于光子流与人脸三维模型的算法来跟踪特征点，最后基于特征点的算法估计头部姿态。在获取头部姿态的基础上，依据眼角和瞳孔的空间位置关系来确定眼睛的凝视方向。同时采用基于稀疏表示的表情识别方法来估计儿童的心理状态。
     本实施例采用 PQLabs 提供的 42 英寸多点触摸屏。对于孤独症儿童而言，触摸是一个非常重要的社会信号。触摸屏是儿童与虚拟世界最直接的交流方式。在此学习环境中，儿童将通过触摸屏与学习环境进行互动，物理交互界面模块识别儿童在虚拟环境中触摸的准确位置，例如，在一个虚拟花园里，儿童是触摸到了花还是其中的动画人物。
     语音识别部分，本发明着重分析儿童语音信号中的语调频率和共振峰频率等参数设计了基于隐马尔科夫模型 (HMM) 的适于互动学习环境的儿童语音识别算法。儿童发音和说话特点与成人不同，在声道长度，共振峰频率和语调频率等方面有很大区别。在互动环境中，儿童的语调含有很多情感，情绪成分。
     多模态信息融合是本发明学习环境中不可缺少的模块，它处理和合成前端多重信号然后创建后端事件。此模块把儿童的头部姿态、眼睛凝视方向、表情、声音和手势动作信号融合产生儿童的学习状态，然后反馈给智能控制台。
     本发明的智能体设计基于儿童发展理论和 FAtiMA 结构。FAtiMA 适用于控制有情感的虚拟人物行为。本发明同时采用监督学习方法建立儿童模型使智能控制台能为不同的儿童选择合适的学习目标和活动。儿童模型的建立基于： 1) 年龄、性别等静态信息， 2) 之前与学习环境互动的信息， 3) 当前与学习环境互动的实时信息。智能控制台根据学习活动内容产生儿童与虚拟动画人物之间基于游戏的互动。儿童在虚拟场景中与动画人物之间进行交流，其间不同场景的变换不是事先设定而是根据在互动过程中观察到的儿童的行为，认知和心理状态来选择，这更利于儿童的个体训练和自我提高，充分体现了以儿童个体为中心的学习理念。
     真实场景模拟采用三维动画和语音合成技术模仿真实社会场景，其负责根据多模态信息融合模块与智能控制台发出的指令显示不同的虚拟场景和输出各种声音等。本发明采用基于 Maya 的动画技术模拟真实场景以及 SuperCollider 软件输出声音。
     整个学习环境的实现通过不同的编程语言和软件完成相应的模块： 1、视觉处理： C++ 编程语言； 2、语音处理： C++ 编程语言； 3、交互界面：基于 PQLabs 的 Java 编程语言； 4、智能控制台：基于 FAtiMA 结构的 Java 编程语言； 5、真实场景模拟：采用 Maya 和 SuperCollider 等软件工具，各模块信息采用了基于 Internet Communications Engine(ICE) 中间件的平台来融合。
     本发明的系统是学习系统，包括两种类型的学习目标，一种是基于发展理论划分的三个阶段的具体学习目标，如增强儿童对事物因果关系的理解 ( 微观目标 )，另一种是关于儿童社会交流技巧的发展变化和把这些技巧推广运用到新场景的能力 ( 宏观目标 )。基于微观的学习成果由面向任务的方法来评定，它与每个独立的学习目标和相应的学习活动相关。例如评估与共同注意和对他人的信念和愿望推理这一学习目标相关的学习成果，申请人利用视觉跟踪技术来检测儿童视线是否成功跟随他人的社会线索和根据儿童响应的快慢来评定。从宏观上，结合社会交流问卷 (social communication questionnaire， SCQ 方法，社会反应量表 (social responsiveness scale， SRS 及心理教育量表修订版 (psycho-educatio nalprofile-revised， PEP-R) 与定性测评来评定儿童社会交流技巧的发展变化和把这些技巧推广运用到新场景的能力。在整个研究过程中申请人通过半年时间跟踪 5 名儿童在此学习环境中的发展变化，发现其中 3 名儿童的社会互动能力有了明显提高，另外两名儿童的互动能力也有一定地进步，例如，在刚开始使用此学习系统时，儿童需要辅导人员提示去完成任务，在训练过程中，辅导人员提示次数逐渐减少，最后儿童能独立正确地完成任务，并能在不同的场景下运用所学到的技巧。

资源描述

《提高孤独症儿童社会互动能力的人机互动多模态早期干预系统.pdf》由会员分享，可在线阅读，更多相关《提高孤独症儿童社会互动能力的人机互动多模态早期干预系统.pdf（7页珍藏版）》请在专利查询网上搜索。

1、10申请公布号CN102354349A43申请公布日20120215CN102354349ACN102354349A21申请号201110328413922申请日20111026G06F19/00200601G06F3/0120060171申请人华中师范大学地址430079湖北省武汉市洪山区珞瑜路152号72发明人陈靓影陈丹杨宗凯74专利代理机构湖北武汉永嘉专利代理有限公司42102代理人张安国伍见54发明名称提高孤独症儿童社会互动能力的人机互动多模态早期干预系统57摘要一种提髙孤独症儿童社会互动能力的人机互动多模态早期干预系统。该系统包括一台多点触摸屏，一台计算机和三台分别安装在触摸屏左边、。

2、右边以及中上方的摄像头，摄像头带麦克风通过USB接口与计算机相连，系统设有视觉信号处理、语音信号处理、物理交互界面、多模态融合、智能控制台和真实场景模拟六个基本模块，其融合计算机视觉，语音识别，行为识别，智能体和虚拟现实技术来支持提高孤独症儿童的社会互动能力。通过半年时间跟踪数名儿童在此学习环境中的发展变化，其中多数儿童的社会互动能力有了明显提高，另外儿童的互动能力也有一定地进步。51INTCL19中华人民共和国国家知识产权局12发明专利申请权利要求书1页说明书4页附图1页CN102354358A1/1页21一种提髙孤独症儿童社会互动能力的人机互动多模态早期干预系统，特征在于该系统包括一台多点。

3、触摸屏1，第1摄像头21，第2摄像头22，第3摄像头23，计算机3，第1摄像头、第3摄像头和第2摄像头分别安装在多点触摸屏的左边、右边以及中上方，3个摄像头带麦克风通过USB接口与计算机相连，系统设置有视觉信号处理、语音信号处理、物理交互界面、多模态融合、智能控制台和真实场景模拟六个基本模块，摄像头将获取的儿童的视频及音频信号传输给计算机，计算机通过视觉信号处理来检测儿童的注意力和表情，通过语音信号处理辨别儿童的声音，触摸屏捕捉儿童的动作，多模态信息融合模块把检测到的儿童的注意力、表情、声音和手势动作信号融合产生儿童的学习状态，然后反馈给智能控制台，智能控制台根据设计的学习活动内容产生儿童与虚。

4、拟动画人物5之间基于游戏的互动，真实场景模拟根据多模态信息融合模块与智能控制台发出的指令显示不同的虚拟场景4和输出各种声音。2如权利要求1所述的提髙孤独症儿童社会互动能力的人机互动多模态早期干预系统，其特征在于所述的第1摄像头21和第3摄像头23选用LOGITECHQUICKCAM摄像头，第2摄像头22选用MIRONUWEBCAM摄像头。3如权利要求1所述的提髙孤独症儿童社会互动能力的人机互动多模态早期干预系统，其特征在于所述的多点触摸屏1尺寸为42寸触摸屏。4如权利要求1所述的提髙孤独症儿童社会互动能力的人机互动多模态早期干预系统，其特征在于所述的视觉信号处理模块，采用C编程语言实现基于特征。

5、点方法的儿童注意力检测，以及基于稀疏表示表情识别方法的儿童心理状态估计。5如权利要求1所述的提髙孤独症儿童社会互动能力的人机互动多模态早期干预系统，其特征在于所述的语音信号处理模块，分析儿童语音信号中的语调频率和共振峰频率参数，采用C编程语言实现基于隐马尔科夫模型的儿童语音识别算法。6如权利要求1所述的提髙孤独症儿童社会互动能力的人机多模态早期干预系统，其特征在于所述的物理交互界面采用基于PQLABS的JAVA编程语言检测儿童在虚拟环境中触摸的准确位置。7如权利要求1所述的提髙孤独症儿童社会互动能力的人机互动多模态早期干预系统，其特征在于所述的多模态融合模块是基于INTERNETCOMMUNI。

6、CATIONSENGINE中间件的平台。8如权利要求1所述的提髙孤独症儿童社会互动能力的人机互动多模态早期干预系统，其特征在于所述的智能控制台模块是基于FATIMA结构，采用JAVA编程语言实现。9如权利要求1所述的提髙孤独症儿童社会互动能力的人机互动多模态早期干预系统，其特征在于所述的真实场景模拟模块采用MAYA动画技术和SUPERCOLLIDER声音输出软件工具。权利要求书CN102354349ACN102354358A1/4页3提高孤独症儿童社会互动能力的人机互动多模态早期干预系统技术领域0001本发明涉及一种计算机科学、认知科学和教育学的人机互动多模态智能学习系统，尤其涉及提髙孤独症儿。

7、童社会互动能力的人机互动多模态早期干预系统。背景技术0002儿童孤独症又称自闭症，是发生于儿童早期的一种由于神经系统失调导致的发育障碍，其病征包括不正常的社交能力、沟通能力、兴趣和行为模式。虽然孤独症发现于1943年，但是对孤独症的研究与治疗直到20世纪80年代才得到真正重视，长期以来，儿童孤独症病因仍然是个谜，很多研究人员怀疑孤独症是由基因控制，再由环境因素触发，目前尚无任何有效药物可以治疗，只能靠长期的教育干预帮助患儿逐渐好转，否则将导致终身残障。在发达国家，有很多干预训练机构及专业训练人员来帮助孤独症儿童，使他们能恢复到正常儿童的社会交流能力。我国对孤独症儿童的教育干预方法有一定研究，但。

8、对孤独症儿童的干预训练机构很少。我国孤独症的发病率以每年1017速度增长。卫生部在2010年7月正式发布儿童孤独症诊疗康复指南，指南强调儿童孤独症的最佳治疗时间一般在6岁之前，其早期的正确诊断和干预治疗非常关键。但到目前为止国内仅有少数几家的民营康复训练学习机构，康复训练人员严重不足，致使许多患儿在最佳康复训练年龄错失了康复训练时机，导致不可逆转的终身残障。社会交流能力是儿童学习的基础，孤独症儿童，由于缺乏社会交流能力，使得学习过程比正常发展的儿童更加困难。最近研究证明了计算机辅助学习对孤独症儿童的有效性，因为孤独症儿童对人与人之间的交流感到不适应，他们更易于接收电子技术设备。计算机可以创造一。

9、个安全的，可重复的，可预测控制的训练学习环境更有助于孤独症儿童的学习。研究证明学习者能在多模态互动环境中比在单一模态非互动环境中获得更好的学习效果，并指出多模态互动是学习语言的最好途径。我国目前针对孤独症儿童的多模态人机互动学习研究尚为空白。国外的相关研究主要是采用各种虚拟现实技术辅助孤独症儿童学习，为儿童创造一个安全，可控制的学习环境，尚未建立一套针对提高孤独症儿童社会互动能力的、自适应于不同儿童个体的、多模态人机互动系统。发明内容0003本发明目的旨在建立多模态融合互动式的智能学习系统来有效干预、提高孤独症儿童的社交能力。此系统专门针对提高孤独症儿童的社会互动能力设计学习目标、建立相应的学。

10、习活动；根据在学习过程观察到的儿童的行为，认知和心理状态来调整学习活动以满足不同儿童个体的社会认知需求。0004实现上述目的的技术方案一种提髙孤独症儿童社会互动能力的人机互动多模态早期干预系统，包括一台多点触摸屏，3个带麦克风的摄像头，计算机，3个摄像头分别安装在多点触摸屏的左边、右边以及中上方并通过USB接口与计算机相连见图1，系统设置有视觉信号处理、语音信号处理、物理交互界面、多模态融合、智能控制台和真实场景模拟六说明书CN102354349ACN102354358A2/4页4个基本模块，摄像头将获取的儿童的视频及音频信号传输给计算机，计算机通过视觉信号处理来检测儿童的注意力和表情，通过语。

11、音信号处理辨别儿童的声音，触摸屏捕捉儿童的动作，多模态信息融合模块把检测到的儿童的注意力、表情、声音和手势动作信号融合产生儿童的学习状态，然后反馈给智能控制台，智能控制台根据设计的学习活动内容产生儿童与虚拟动画人物之间基于游戏的互动，真实场景模拟根据多模态信息融合模块与智能控制台发出的指令显示不同的虚拟场景和输出各种声音见图2。视觉信号处理包括表情识别，视线跟踪和头部姿态估计；语音信号处理解决的关键问题是针对儿童的语音识别；物理交互界面通过触摸屏识别儿童在虚拟环境中触摸的准确位置；多模态融合处理和合成检测到的儿童的注意力、表情、声音和手势动作信号然后创建儿童学习状态；智能控制台根据学习活动内容。

12、产生儿童与虚拟动画人物之间基于游戏的互动；真实场景模拟采用三维动画和语音合成技术模仿真实社会场景，其负责根据多模态信息融合模块与智能控制台发出的指令显示不同的虚拟场景。在此系统中，使用者通过前端模块视觉、语音处理及物理交互界面直接与学习环境互动，后端模块多模态融合、智能控制台及真实场景模拟根据使用者的行为产生相应的互动虚拟场景。这个学习环境模拟真实世界，使用者可以通过说，看，指或触摸来表达对事物的兴趣。0005按上述方案，所述的第1摄像头21和第3摄像头23选用LOGITECHQUICKCAM摄像头，第2摄像头22选用MIRONUWEBCAM摄像头。0006按上述方案，所述的触摸屏1尺寸为42。

13、英寸。0007按上述方案，所述的视觉信号处理模块，采用C编程语言实现基于特征点方法的儿童注意力检测，以及基于稀疏表示表情识别方法的儿童心理状态估计。0008按上述方案，所述的语音信号处理模块，分析儿童语音信号中的语调频率和共振峰频率参数，采用C编程语言实现基于隐马尔科夫模型的儿童语音识别算法。0009按上述方案，所述的物理交互界面，采用基于PQLABS的JAVA编程语言，检测儿童在虚拟环境中触摸的准确位置。0010按上述方案，所述的多模态融合模块是基于INTERNETCOMMUNICATIONSENGINE中间件的平台。0011按上述方案，所述的智能控制台模块是基于FATIMA结构，采用JAV。

14、A编程语言实现。0012按上述方案，所述的真实场景模拟模块采用MAYA动画技术和SUPERCOLLIDER声音输出软件工具。0013本发明的有益效果在于第一、让孤独症儿童可以在一个安全的不受限制的自由空间里通过人机互动游戏形式探索不同社交场景和提高社会互动及合作技巧；第二、能够根据不同孤独症儿童的个体学习经验、当前学习状态和需求，通过变换与真实世界相仿的虚拟场景来调整学习活动以达到学习目标，支持包含不同的儿童发展路径；第三、通过实时检测多模态社会信号包括视觉，听觉及触觉信号来估计儿童的学习状态，认知状态例如注意力，心理状态例如高兴或悲伤等和学习行为；第四、采用多模态智能学习环境的方式，融合计算。

15、机视觉、语音识别、行为识别、结合儿童发展的心理机能理论、虚拟现实技术来支持提高孤独症儿童的社会互动能力。说明书CN102354349ACN102354358A3/4页5附图说明0014图1为人机多模态互动学习环境图中1多点触摸屏，21第1摄像头，22第2摄像头，23第3摄像头，3计算机，4虚拟场景，5虚拟动画人物。0015图2为本发明的系统框图具体实施方式0016下面结合附图具体说明实施方案。本发明的一种提髙孤独症儿童社会互动能力的人机互动多模态早期干预系统，包括一台多点触摸屏1，第1摄像头21，第2摄像头22，第3摄像头23，计算机3，第1摄像头、第3摄像头和第2摄像头分别安装在多点触摸屏的。

16、左边、右边以及中上方，3个摄像头带麦克风通过USB接口与计算机相连见图1，系统设置有视觉信号处理、语音信号处理、物理交互界面、多模态融合、智能控制台和真实场景模拟六个基本模块，摄像头将获取的儿童的视频及音频信号传输给计算机，计算机通过视觉信号处理来检测儿童的注意力和表情，通过语音信号处理辨别儿童的声音，触摸屏捕捉儿童的动作，多模态信息融合模块把检测到的儿童的注意力、表情、声音和手势动作信号融合产生儿童的学习状态，然后反馈给智能控制台，智能控制台根据设计的学习活动内容产生儿童与虚拟动画人物5之间基于游戏的互动，真实场景模拟根据多模态信息融合模块与智能控制台发出的指令显示不同的虚拟场景4和输出各种。

17、声音见图2。0017本发明的视觉信号处理系统，采用三个摄像头，获得宽广的观察视野，从而使得儿童的行为在学习过程中不受外界条件的约束，并基于HAAR特征，熵原理图像分割和改进的主动形状模板的方法提取人脸面部特征，然后采用基于光子流与人脸三维模型的算法来跟踪特征点，最后基于特征点的算法估计头部姿态。在获取头部姿态的基础上，依据眼角和瞳孔的空间位置关系来确定眼睛的凝视方向。同时采用基于稀疏表示的表情识别方法来估计儿童的心理状态。0018本实施例采用PQLABS提供的42英寸多点触摸屏。对于孤独症儿童而言，触摸是一个非常重要的社会信号。触摸屏是儿童与虚拟世界最直接的交流方式。在此学习环境中，儿童将通过。

18、触摸屏与学习环境进行互动，物理交互界面模块识别儿童在虚拟环境中触摸的准确位置，例如，在一个虚拟花园里，儿童是触摸到了花还是其中的动画人物。0019语音识别部分，本发明着重分析儿童语音信号中的语调频率和共振峰频率等参数设计了基于隐马尔科夫模型HMM的适于互动学习环境的儿童语音识别算法。儿童发音和说话特点与成人不同，在声道长度，共振峰频率和语调频率等方面有很大区别。在互动环境中，儿童的语调含有很多情感，情绪成分。0020多模态信息融合是本发明学习环境中不可缺少的模块，它处理和合成前端多重信号然后创建后端事件。此模块把儿童的头部姿态、眼睛凝视方向、表情、声音和手势动作信号融合产生儿童的学习状态，然后。

19、反馈给智能控制台。0021本发明的智能体设计基于儿童发展理论和FATIMA结构。FATIMA适用于控制有情感的虚拟人物行为。本发明同时采用监督学习方法建立儿童模型使智能控制台能为不同的儿童选择合适的学习目标和活动。儿童模型的建立基于1年龄、性别等静态信息，2之前与学习环境互动的信息，3当前与学习环境互动的实时信息。智能控制台根据学习活动内说明书CN102354349ACN102354358A4/4页6容产生儿童与虚拟动画人物之间基于游戏的互动。儿童在虚拟场景中与动画人物之间进行交流，其间不同场景的变换不是事先设定而是根据在互动过程中观察到的儿童的行为，认知和心理状态来选择，这更利于儿童的个体训。

20、练和自我提高，充分体现了以儿童个体为中心的学习理念。0022真实场景模拟采用三维动画和语音合成技术模仿真实社会场景，其负责根据多模态信息融合模块与智能控制台发出的指令显示不同的虚拟场景和输出各种声音等。本发明采用基于MAYA的动画技术模拟真实场景以及SUPERCOLLIDER软件输出声音。0022整个学习环境的实现通过不同的编程语言和软件完成相应的模块1、视觉处理C编程语言；2、语音处理C编程语言；3、交互界面基于PQLABS的JAVA编程语言；4、智能控制台基于FATIMA结构的JAVA编程语言；5、真实场景模拟采用MAYA和SUPERCOLLIDER等软件工具，各模块信息采用了基于INTE。

21、RNETCOMMUNICATIONSENGINEICE中间件的平台来融合。0023本发明的系统是学习系统，包括两种类型的学习目标，一种是基于发展理论划分的三个阶段的具体学习目标，如增强儿童对事物因果关系的理解微观目标，另一种是关于儿童社会交流技巧的发展变化和把这些技巧推广运用到新场景的能力宏观目标。基于微观的学习成果由面向任务的方法来评定，它与每个独立的学习目标和相应的学习活动相关。例如评估与共同注意和对他人的信念和愿望推理这一学习目标相关的学习成果，申请人利用视觉跟踪技术来检测儿童视线是否成功跟随他人的社会线索和根据儿童响应的快慢来评定。从宏观上，结合社会交流问卷SOCIALCOMMUNIC。

22、ATIONQUESTIONNAIRE，SCQ方法，社会反应量表SOCIALRESPONSIVENESSSCALE，SRS及心理教育量表修订版PSYCHOEDUCATIONALPROFILEREVISED，PEPR与定性测评来评定儿童社会交流技巧的发展变化和把这些技巧推广运用到新场景的能力。在整个研究过程中申请人通过半年时间跟踪5名儿童在此学习环境中的发展变化，发现其中3名儿童的社会互动能力有了明显提高，另外两名儿童的互动能力也有一定地进步，例如，在刚开始使用此学习系统时，儿童需要辅导人员提示去完成任务，在训练过程中，辅导人员提示次数逐渐减少，最后儿童能独立正确地完成任务，并能在不同的场景下运用所学到的技巧。说明书CN102354349ACN102354358A1/1页7图1图2说明书附图CN102354349A。

展开阅读全文