一种基于RGB-D相机和立体声的视障人士楼梯检测眼镜技术领域
本发明属于视障人士辅助技术、三维环境感知技术、楼梯检测技术、立体声交互技
术领域,涉及一种基于RGB-D相机和立体声的视障人士楼梯检测眼镜。
背景技术
根据世界健康组织统计,全世界有2.85亿视觉障碍人士。视障人士损失了正常的
视觉,对颜色、形状、距离、运动的理解都很困难,他们的生活在起居、出行等方面都受到了
巨大的影响。
传统的视障人士辅助工具比如盲人手杖,视障人士需要反复移动手杖,才仅仅能
获知脚边的情况,在上下楼梯时,盲人手杖的使用也不方便。
导盲犬可以为视障人士提供帮助,但导盲犬在上下楼梯时比较迅速,难以照顾到
视障人士精确定位每一级楼梯的需求。导盲犬的养护、训练费用高昂,普通家庭难以承担。
仿生眼可以帮助视障人士恢复部分视觉,但仿生眼只能帮助视障人士看到低分辨
率的灰度图像,难以区分楼梯与其他场景。仿生眼只适用于视网膜色素变性导致失明的盲
人。
超声波技术、激光测距技术等可以提供测距和障碍物预警的功能,但无法反映场
景的信息,无法区分楼梯与其他障碍物或路况,且容易受环境干扰,耗电量大。
传统视障人士辅助的交互方式主要有语音提示、触觉震动。语义提示通常播报简
短的信息,需要一定的时间播放,造成延迟和事故风险,而且可传递的信息量少。触觉震动
通过震动腰带或者震动背心为硬件,以震动来提示一些方位信息,可以解决延迟的问题,但
给视障人士带来负担,不同人的穿戴感受不同。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于RGB-D相机和立体声的视
障人士楼梯检测眼镜。
本发明的目的是通过以下技术方案实现的:一种基于RGB-D相机和立体声的视障
人士楼梯检测眼镜,所述眼镜包含眼镜本体,以及固定在眼镜本体上的一个RGB-D相机,一
个姿态角传感器,一个USB集线器,一个小型处理器,一个骨传导耳机模块,两个骨传导震动
模块和一个电池模块。所述RGB-D相机固定在眼镜镜片上方,两个骨传导震动模位于两个镜
脚中间偏后处,贴合盲人耳朵前方颅骨处;USB集线器、姿态角传感器和小型处理器嵌于一
个镜脚内;骨传导耳机模块和电池模块嵌于另一个镜脚内;RGB-D相机与姿态角传感器通过
USB集线器与小型处理器相连,电池模块与小型处理器相连。两个骨传导震动模块均通过骨
传导耳机模块与小型处理器相连。RGB-D相机实时地采集三维场景的深度图像。姿态角传感
器实时获取RGB-D相机的姿态角。USB集线器将一幅深度图像和姿态角信息传给小型处理
器。小型处理器对深度图像和姿态角信息进行处理,获取三维场景中每一点的三维坐标,并
计算每一点的局部表面法向量,利用法向量信息分割出三维场景中的平行于水平面的平
面,并对平面的高度进行聚类处理,最终获取每一级楼梯的距离与方向,转为立体声信号,
并传给骨传导耳机模块。骨传导耳机模块将立体声信号转为骨传导震动信号,传给两个骨
传导震动模块,骨传导震动模块传递骨传导震动信号给视障用户。
上述眼镜检测楼梯的方法如下:
(1)对RGB-D相机进行一次相机标定,获取深度相机的焦距f,深度相机的主点位置
(cx,cy)。
(2)RGB-D相机采集三维场景的深度图像Depth。
(3)姿态角传感器采集RGB-D相机的X,Y,Z三轴方向的转角AngleX,AngleY,AngleZ。
(4)USB集线器将深度图像Depth,三轴方向的转角AngleX,AngleY,AngleZ传给小型
处理器。
(5)小型处理器根据深度图像Depth,深度相机的焦距f,深度相机的主点位置(cx,
cy),可计算出每一点在相机坐标系下的三维坐标(Xc,Yc,Zc)。深度图像Depth中一点坐标为
(u,v),其深度值为depth,则相机坐标系下三维坐标(Xc,Yc,Zc)可由公式(1)计算出:
(6)根据深度图像中每一点在相机坐标系下的三维坐标(Xc,Yc,Zc),以及姿态角传
感器三轴方向的转角分别为AngleX=α,AngleY=β,AngleZ=γ,则可由公式(2)计算出每一
点在世界坐标系下的三维坐标(Xw,Yw,Zw):
(7)根据深度图像中每一点在世界坐标系下的三维坐标(Xw,Yw,Zw),可计算每一点
的局部表面法向量(nx,ny,nz)。具体为:对每一点P,取离它最近的K个点Pi,i∈{1,2,...,
K}。根据这K个点的三维坐标,用最小二乘法拟合出一个局部平面,对该平面的法向量进行
归一化处理,即获取点P的局部表面法向量(nx,ny,nz)。
(8)三维场景中每一点的局部表面法向量分量ny可表征了该点的局部平面是否平
行于水平面,剔除表面法向量分量ny的绝对值|ny|小于阈值thresholdn的点(thresholdn通
常为0.85~0.95),获取三维场景中在平行于水平面的平面上的点。
(9)三维场景中平行于水平面的平面上的点到RGB-D相机所在水平面的高度值为H
可由该点世界坐标系下的三维坐标分量Yw表示。对平行于水平面的平面上的点的高度值H
进行聚类处理,得到多个平行水平面的平面,计算每个平面的平均高度聚类处理的方法
可为K-Means聚类算法、层次聚类算法、SOM聚类算法、FCM聚类算法。
(10)提取出高度以Δh依次递增或递减的N个平面,即为每一级楼梯的上平面(一
共N级)。如果N大于1,说明当前场景中存在楼梯。Δh为楼梯高度,一般为0.2~0.3米。
(11)每一级楼梯的距离D可由每一级楼梯的上平面上的点的平均深度表示,每
一级楼梯的方向角θ可由每一级楼梯的上平面上的点的平均水平坐标与平均深度之
商的反正切表示,即
(12)用N种不同音色的乐器的合奏来表示N级楼梯,不同乐器的发声表示不同级楼
梯。当一级楼梯的距离D越小,则对应这一级楼梯的乐器的响度Volume越大。每一种乐器的
发声都为立体声,立体声的方向和对应的一级楼梯的方向角θ相对应。乐器可选钢琴、小提
琴、锣、小号、木琴等有特别音色并悦耳的。
(13)小型处理器将立体声信号传给骨传导耳机模块。
(14)骨传导耳机模块将立体声信号转为骨传导震动信号。
(15)骨传导震动模块将骨传导信号传递给视障用户。
本方法相比以往的视障人士辅助方法的优势主要在于:
1、可检测出上楼梯与下楼梯。由于采用提取每一级楼梯的平行于水平面的平面的
方法,因此场景中有上楼梯或者下楼梯都可检测到;
2、可判断有多少级楼梯。由于采用聚类并提取一系列高度差相近的平面的方法,
可判断一共有多少级楼梯,视障人士也可以通过听乐器判断,获知一共有多少级楼梯;
3、反馈充分的信息量。相比语义式的语音播报,立体声的交互反馈利用不同响度、
不同音色的乐器表示不同级楼梯,可以同时地、充分地传递场景不同级楼梯的距离和方向;
4、及时的反馈。相比语义式的语音播报,立体声的交互反馈是及时的,没有延迟。
视障人士可以及时的判断并上下楼梯,保证了该方法的安全性;
5、楼梯上有人经过时也可以检出。由于采用提取每一级楼梯的平行于水平面的平
面的方法,不特殊要求平面的连续性,因此楼梯上有人经过也不会造成干扰,依然可以检测
出楼梯的存在和获取每一级楼梯的位置;
6、可自然地帮助视障用户上下楼梯。由于每次表示最近一级楼梯的乐器的响度最
大,因此视障用户会对最近一级楼梯的感知最敏感和最精确,从而自然地、一级一级地上下
楼梯。
7、不占用双耳。本方法采用骨传导耳机传递信号给视障用户,不妨碍用户听取外
界的声音。
不占用双手。本方法使用RGB-D相机、姿态角传感器和小型处理器,都是便携和可
穿戴的,不会给视障用户带来很大的负担,也无需视障人士用手拿辅助工具。
附图说明
图1为视障人士楼梯检测系统的模块连接示意图;
图2为视障人士楼梯检测系统的结构示意图;
图3为灰度处理后的楼梯检测图,表示楼梯上有人经过也可以很好地检测出楼梯;
图4为灰度处理后的上楼梯检测图,图中标注出最近两级楼梯;
图5为灰度处理后的下楼梯检测图,图中标注出最近两级楼梯。
具体实施方式
如图2所示,一种基于RGB-D相机和立体声的视障人士楼梯检测眼镜,所述眼镜包
含眼镜本体,以及固定在眼镜本体上的一个RGB-D相机,一个姿态角传感器,一个USB集线
器,一个小型处理器,一个骨传导耳机模块,两个骨传导震动模块和一个电池模块。所述
RGB-D相机固定在眼镜镜片上方,两个骨传导震动模位于两个镜脚中间偏后处,贴合盲人耳
朵前方颅骨处;USB集线器、姿态角传感器和小型处理器嵌于一个镜脚内;骨传导耳机模块
和电池模块嵌于另一个镜脚内。
图1所示,RGB-D相机与姿态角传感器通过USB集线器与小型处理器相连,电池模块
与小型处理器相连。两个骨传导震动模块均通过骨传导耳机模块与小型处理器相连。RGB-D
相机实时地采集三维场景的深度图像。姿态角传感器实时获取RGB-D相机的姿态角。USB集
线器将一幅深度图像和姿态角信息传给小型处理器。小型处理器对深度图像和姿态角信息
进行处理,获取三维场景中每一点的三维坐标,并计算每一点的局部表面法向量,利用法向
量信息分割出三维场景中的平行于水平面的平面,并对平面的高度进行聚类处理,最终获
取每一级楼梯的距离与方向,转为立体声信号,并传给骨传导耳机模块。骨传导耳机模块将
立体声信号转为骨传导震动信号,传给两个骨传导震动模块,骨传导震动模块传递骨传导
震动信号给视障用户。
上述眼镜检测楼梯的方法如下:
(1)对RGB-D相机进行一次相机标定,获取深度相机的焦距f,深度相机的主点位置
(cx,cy)。
(2)RGB-D相机采集三维场景的深度图像Depth。
(3)姿态角传感器采集RGB-D相机的X,Y,Z三轴方向的转角AngleX,AngleY,AngleZ。
(4)USB集线器将深度图像Depth,三轴方向的转角AngleX,AngleY,AngleZ传给小型
处理器。
(5)小型处理器根据深度图像Depth,深度相机的焦距f,深度相机的主点位置(cx,
cy),可计算出每一点在相机坐标系下的三维坐标(Xc,Yc,Zc)。深度图像Depth中一点坐标为
(u,v),其深度值为depth,则相机坐标系下三维坐标(Xc,Yc,Zc)可由公式(1)计算出:
(6)根据深度图像中每一点在相机坐标系下的三维坐标(Xc,Yc,Zc),以及姿态角传
感器三轴方向的转角分别为AngleX=α,AngleY=β,AngleZ=γ,则可由公式(2)计算出每一
点在世界坐标系下的三维坐标(Xw,Yw,Zw):
(7)根据深度图像中每一点在世界坐标系下的三维坐标(Xw,Yw,Zw),可计算每一点
的局部表面法向量(nx,ny,nz)。具体为:对每一点P,取离它最近的K个点Pi,i∈{1,2,...,
K}。根据这K个点的三维坐标,用最小二乘法拟合出一个局部平面,对该平面的法向量进行
归一化处理,即获取点P的局部表面法向量(nx,ny,nz)。
(8)三维场景中每一点的局部表面法向量分量ny可表征了该点的局部平面是否平
行于水平面,剔除表面法向量分量ny的绝对值|ny|小于阈值thresholdn的点(thresholdn通
常为0.85~0.95),获取三维场景中在平行于水平面的平面上的点。
(9)三维场景中平行于水平面的平面上的点到RGB-D相机所在水平面的高度值为H
可由该点世界坐标系下的三维坐标分量Yw表示。对平行于水平面的平面上的点的高度值H
进行聚类处理,得到多个平行水平面的平面,计算每个平面的平均高度聚类处理的方法
可为K-Means聚类算法、层次聚类算法、SOM聚类算法、FCM聚类算法。
(10)提取出高度以Δh依次递增或递减的N个平面,即为每一级楼梯的上平面(一
共N级)。如果N大于1,说明当前场景中存在楼梯。Δh为楼梯高度,一般为0.25~0.35米。
(11)每一级楼梯的距离D可由每一级楼梯的上平面上的点的平均深度表示,每
一级楼梯的方向角θ可由每一级楼梯的上平面上的点的平均水平坐标与平均深度之
商的反正切表示,即
(12)用N种不同音色的乐器的合奏来表示N级楼梯,不同乐器的发声表示不同级楼
梯。当一级楼梯的距离D越小,则对应这一级楼梯的乐器的响度Volume越大。每一种乐器的
发声都为立体声,立体声的方向和对应的一级楼梯的方向角θ相对应。乐器可选钢琴、小提
琴、锣、小号、木琴等有特别音色并悦耳的。
(13)小型处理器将立体声信号传给骨传导耳机模块。
(14)骨传导耳机模块将立体声信号转为骨传导震动信号。
(15)骨传导震动模块将骨传导信号传递给视障用户。