新闻资讯
你我不懂的手语为什么AI也很难读懂?
来源:安博体育官方下载    发布时间:2024-07-07 20:34:25

  都是一个属于“大多数”的技术门类。所谓大多数,第一意味着有关数据量大、便于累积,适用于AI对海量数据极度依赖的特性;第二意味着应用场景广泛、便于变现回收成本,适用于AI研发的高门槛投入。

  目前我们身边常常出现的人脸识别、语音交互等等,其实都符合以上这些特征。不过这并不代表,属于“少数派”的AI是一片空白。现在,我们不如把目光投向于那些可消弭“少数与多数”区别的技术发展,例如服务于听障人群的手语识别,就是一个典型的例子。

  手语是用手势比量动作,根据手势的变化模拟形象或者音节以构成的一定意思或词语,是听障人群独有的一种沟通方式。但这种沟通方式虽然能让听障人士之间彼此沟通,或让理解手语的普通人与之沟通,但仍然不能够满足听障人士与普罗大众之间的交流需求。

  这便意味在一些社会公共空间之中,例如政务场景或服务业场景,听障人士可能都会遇到一些不便。而AI,恰好成为了一种解决方案。

  我们在一些软件中,慢慢的开始应用到了AI的手势识别能力,像是拍照时“比心”来触发一些AR特效。将这种对于手势的捕捉,和手势语义对应起来,不就能实现对于手语的翻译和生成了吗?

  首先,手语的表达有一定的特殊性,想进行捕捉并不是特别容易。我们大家都知道在“比划手势”这种行为上,本来就不存在绝对的精准度,加之一些手语词汇的表达非常接近,而且手语表达通常是以句子为单位,词与词之前不会有明显的间隙。以往手势识别中利用前置摄像头捕捉的方式,基本是不可行的。

  于是很多科技和团队给出的解决方案是加以外设,例如中科大和微软推出了基于Kinect的手语翻译系统,加州大学曾经推出过的手语识别手套等等就是这样。可这些外设要么便携程度低,要么造价昂贵,推广起来有很大的困难。

  同时,手语表达同样也有国别性和地域性,在模型通用性上存在着困难。手语中有“文法手语”和“自然手语”两个概念,文法手语既是通用的普通话,至于自然手语则如同方言一般,在国别、地方甚至城市之间都有着不小的差异。这也造成了手语数据收集、标注会是一项成本高、工作量大的事情。

  例如亚马逊曾经提出过,对智能音箱Alex做改造可以使其翻译出一些简单的信号。可是因为缺乏大规模的训练数据集,目前这一功能只能识别出一些简单的美国手语,停留在实验室阶段。

  虽然探索艰难,但科技公司们和学界还是不断在手语AI上取得成果。例如腾讯优图实验室推出的 “优图AI手语翻译机”、爱奇艺推出的AI手语主播等等,都在手语AI的应用上取得了不小的进展。

  手语AI的突破可大致分为两条路线,一种原因是手语AI本身技术的进展,另一方面是应用场景的突破。

  在手语AI技术本身上,可大致分为识别模型和数据集两个解决路径。在数据集上,可以像优图一样,通过和社会相关机构以及听障人士的接触自建手语识别数据集,并且针对手语表达的地方性差异,做出表达习惯和速度上的多样性拓展。

  至于识别模型上,业内也有全新的算法搭建概念,例如通过2D卷积神经网络和3D卷积神经网络分别提取手势中静态和动态的信息,经由综合处理来提升视频识别效果,彻底摆脱其他传感器的桎梏。同时针对手语表达的整句化的现象,在视频帧的最后加入了词级信息挖掘,对特征提取器提出的信息进行核验,进一步去确定手势对词语表达边界,除了提升识别精准度以外,还能提升对自然手语中地域表达的总结能力。在此基础上,还可以算法模型中引入了上下文理解能力,以便于面对更为复杂的手语识别翻译需求。

  不过技术虽然得以提升,应用场景端仍然会受到一些限制。例如手语识别可能会依赖较强大的算力,短时间之内很难便携化、消费化。但可完全通过和政府的合作,让手语识别进入一些公共服务场景。或者像爱奇艺一样,从手语生成方面入手,同样也能帮助到听障人士。

  其实我们不难发现,可如果将技术拆分来看就能发现,手语AI取得的进步,并不是因为在某项基础科学上突然取得了什么惊人的突破,而是有越来越多的企业和学者在研发和数据累积上一贯长期的投入,才能解脱于以往手语语料库匮乏的困境,在算法上不断迭代。

  换句话说,企业和学者们在“少数派”的AI技术中投入了几乎与“大多数”AI技术相匹配的精力与财力。对于AI产业来说,这无疑是一种平权精神。

  腾讯优图在手语AI方面的投入,其实也是AI产业中一种隐隐冒出势头的洋流方向。

  几天以前,在福州的数字中国峰会上,马化腾首次提到了“科技向善”这一概念,提出“我们相信,科技能够造福人类;人类应该善用科技,避免滥用,杜绝恶用;科技应该努力去解决自身发展带来的社会问题。”

  无独有偶,李飞飞在回归斯坦福后,就着手创办了HAI研究所(以人为本斯坦福人工智能研究所),并在今年开始担任所长。HAI的研究目标,就是推动AI技术向造福人类的方向发展,预测AI对人类生活的切实影响。

  科技巨头和学界旗帜都将目光投向了同一方向,是因为人们已经开始逐渐发现AI、5G、产业数字化等等技术力量的势头之强,已经到了不得不对其加以引导甚至约束的地步。

  如同上文所说,科技企业在这一波技术发展的过程中,起到了很大的促进作用,而逐利自然是企业的本能和天性,因此企业会率先投身于那些满足大多数人、应用场景广泛、研发成本相对低的技术。

  这种行为本身无可厚非,但AI等等新技术带来的效率提升实在过于显著,是否会会对那些暂时无法接入新技术的领域和群体进行挤压甚至边缘化,是很多人都在思考的一个问题。

  例如随着英汉日法俄等等主流语种的机器翻译能力不断增强,那些语料库不充足、应用人数更少的小语种是否会因为得不到技术赋能,而被进一步的边缘化?

  同样的,当公共事务办理越来越多的被语音交互、图像识别等等AI技术替代,听障、视障群体在获取服务时会不会遇到更多麻烦?

  类似的情况其实已经发生:2018年年底,联合国发布了对英国政府数字化成果的报告,结果是数据显示在英格兰,自2010年以来无家可归者增加了60%,保障住房的等待名单上有120万人,用来救济穷人的食品银行需求量增长了近四倍——因为很多贫困人群并不知道如何在互联网上申请贫困补助,甚至家里都没办法连接互联网,最终只能在贫困中越陷越深。

  很多时候,即使是无恶意的技术,也可能会出现无法预测走向。我们对于科技向善的引导,或许应该更主动一些。

  据2017年北京听力协会预估数据,我国听障人群数量约达到7200万。在全球范围内,世界卫生组织发布的最新数据显示,全世界有共计约4.66亿人患有残疾性听力损失。

  ——你看,这世界上所谓“大多数”和“少数派”本来就是一个相对性的概念,并不存在黑白鲜明的区隔。尤其对于AI这种善于模仿人类能力的技术来说,它的存在本可以推倒阻碍各个群体沟通交流的空气壁,而不是让这种趋势愈演愈烈。我们关于利用技术搭建美好世界的目标,既然可以不抛下任何一个人,就不该抛下任何一个人。

  好在从服务于听障人群的手语识别翻译上,我们已经能看到这种趋势走向——精于计算的大脑不是AI唯一的模拟对象,还有人类的炽热心脏。我们相信,在学界和巨头的引导之下,未来会有越来越多的企业关注到无障碍AI技术的发展,不断的打破各种隔膜阻碍。

  声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。举报投诉

  的模板函数,代码简单可读,本篇文章送给每一个想自己用C++写一个http服务器的小伙伴!高手们、大佬们当然可以不用看的啦!

  电子发烧友网报道(文/黄晶晶)数据显示,2020年中国人工智能产业规模超过1500亿元,带动相关产业规模超过1万亿元。在全球新兴人工智能项目中,中国占据超过一半的份额。   不过,

  虚拟主播,由“百度智能云曦灵”数字人平台打造,涉及计算机图形学、图形渲染、动作捕捉、深度学习、语音合成等技术。   据介绍,百度智能云目前已经建立了

  相对很多,是初学的较好的选择之一。51 的编程语言常用的有二种,一 种是汇编语言,一种是 C 语言。汇编语言的机器代码生成效率很高但可读性却并不强,复 杂一点的程序就更是

  +汽车等领域。他们在被称为“中国硅谷”的北京中关村互联网创新中心,碰撞彼此的智慧。在人文气息厚重的北京,参赛团队的作品似乎

  其他方面的智能。时光扭转,2018年的夏季,车水马龙的上海。12支优秀的开发者团队聚在田林路的活动会场,展示着各自的产品:涉及

  科技,赢取未来!毫无疑问,以大数据分析、云计算、人工智能等新技术所推动的数字化转型正迅速的改变着我们所处的时代,其巨大的影响力已经从量变上升为质变,可以说数字化转型已成...

  如何通过labview编程控制功率计啊?只要求能读取功率计所测的的功率信息。要用到SCPI命令吗?产品的编程手册好

  开发环境中的区别。我可以在任何一个开发环境中做同样的事情吗?使用的设备有什么限制吗?

  教育专家、金门创新学院院长、***Android技术主席高焕堂先生主讲。这次高先生的大陆“

  模板(Template)就像点菜单,让您自己可以思考自己的应用问题,在 Excel 上修改模板,把训练资料填进去。这些模版背后的 Python 程序代码

  识别机器人系统试用计划:申请理由本人是物联网专业在校大学生,疫情期间曾设计过基于勘智K210的口罩人脸离线识别打卡门禁系统,熟悉使用tensorflow lite iot部署

  七八年前工作的时候开发的一个坦克大战游戏,有兴趣的朋友可以下载试玩下,需要源码的请私信我 (不过估计没有三年以上的Labview经验,

  本帖最后由 ℡↘卟放棄 于 2016-3-30 10:07 编辑 国内第一款可翻译

  ssh_exchange_identification:远程主机关闭连接我的朋友

  翻译为计算机能够理解的语言。这正是德克萨斯大学达拉斯分校计算机工程专业的学生Sun Lu一直从事的工作。在过去的一年中,她大部分时间都在德州模拟

  的,更别说是修改了。如果原程序并不长,并是用汇编语言写的,解密后反编译的程序还可以

  ,但需要有很强的编写汇编语言程序的功底才能读得懂。所以,一般情况下,解密出来

  原理图对嵌入式软件工程师和程序员尤为重要。在深入细节之前请注意,对所有的嵌入式设计人员来说、能懂得硬件工程师创建和使用的来描述其硬件设计的原理图和符号是非

  各位可能都有像我一样爱听歌的习惯,在开心的时候、闲暇的时候、沮丧的时候,歌曲能给我带来动力,

  能够治愈内心的伤痛,但是可怕的是,长时间戴耳机多耳朵是很不好的,相信很多人跟我一样戴着戴着会突然感觉到

  的电气图纸。看电路图首先要看有哪些图形符号和文字符号,了解电路图各组成部分的作用、分清主电路和辅助电路,交流回路和直流回路。 4.按照先看主电路,再看辅助电路的顺序进行

  法高亮实时绘图、实时频谱正则匹配和分类显示多字符串小工具小结最近发现一款超好用的串口调试助手,叫纸飞机串口助手。具有很多功能,亮点有语法高亮、实时绘图、数值显示、实时FFT以及正则

  做的健壮,客观需要一个过程去逐步识别哪些是软件本身的问题,还是硬件本身就无法做到。片上的内存和片内带宽。从DDR到计算部件的内存层级

  就是通过冒泡排序打怪升级,但其实更多的是熬夜攻克让你哭泣的NLP。说这些并不是想让

  电路原理图,关键是要掌握其要点, 要分析电路图的原理, 初学人员要分析电子电路

  目前已经有一些技术尝试弥合听觉和聋人社区和正常人之间的差距,包括将手势转换为文字或音频的智能手套和平板电脑设备,甚至来自东芝的全尺寸机器人。现在,安特卫普大学的一个团队正在开发一种机器人

  据中国残联提供的数据,目前国内听力残疾人达2054万人,语言残疾人达130万人,占中国人口总数的1.67%。他们大都使用

  当人工智能、物联网、虚拟现实、增强现实、脸部识别等技术逐渐成熟,应用层面也随之扩大。看这些新科技如何翻转

  这个几乎接管了今年一整年科技圈的关键词并不再只是停留于报纸和新闻当中的遥远概念,当越来越普遍的人脸识别,越来越聪明的家电设备,更加灵活的机器翻译,甚至超越人类棋艺的阿尔法狗……这些一一出现在

  )发展形势一片大好,但由于引领技术发展的核心企业仍旧在美国,因此在中美

  两名来自华盛顿大学的学生最近研发出一种手套。这种手套对于交流能够产生巨大的作用,针对的主要是使用

  美国格鲁吉亚理工学院(Georgia Tech)研究人员开发了称为FingerPing的穿戴装置,能翻译

  2018年上半年,我国在科学领域取得不少新突破和新发现,这些新成果不断刷新公众的科技感知力,也正在改变

  当作自己的母语。而现在,这个群体又迎来了一位特殊的新成员:一支3D打印机械臂。

  2019年7月23日,荣耀9X系列手机问世,搭载了麒麟810处理器,让众多网友惊呼不已。该处理器定位为高端,发布会上更是各种对标骁龙730,这颗处理器到底有什么“过人之处”?下面让你三分钟

  人类的语言、动作、情绪等各类因素。届时,如何处理好其间可能存在的问题,还需我们提前进行思考。

  被赋予高级“读心术”的重任,即不通过人的话语、肢体语言、面部表情,就能够最终靠探测其大脑语言中枢和其他功能中枢(如运动中枢)的脑电波,探查到人们在想什么、要说什么和想要进行什么样的活动。

  开发者Daniel Beauchamp展示了基于Quest手势追踪的剪刀石头布的VR游戏,而该应用也被应用到VR

  )技术在工业现代化的浪潮下向所有的领域渗透,包括市政、交通、医疗、商用等,随着5G商用的春风,如今

  介绍商品,背后屏幕不断出现核心关键词。 据了解,这是考拉海购爬树TV为听障主播制作

  的自然语言处理是计算机学科中的一项重要任务。目前随信息技术的快速的提升,以文本和语音为主要载体的传统语言计算的工作重点已从编码、输人方法和字音的研究逐渐转移到语法层面,并进入深度计算的阶段。然而

  研究是典型的多领堿交叉研究课题,涉及计算杌视觉、自然语言处理、跨媒体计算、人机交互等多个方向,最重要的包含离散

  聋哑人如何与外界进行相对有效沟通一直是一个非常关注的难点问题。文中提出了一种基于惯性传感器融合控制算法的

  接口现对开发者开放 当 Google 发布第一个基于 MediaPipe 的设备端手部追踪技术时,它便成为了开发者构建

  识别解决方案应用的基础。Google 之后对这个手部跟踪解决方案的进一步

  【2021年10月22日·东莞】华为开发者大会2021(Together)在东莞松山湖正式开幕。本次大会首次采用数字人全程实时

  电子发烧友网报道(文/李弯弯)据外国媒体报道,日本电气大学与软银公司联合,通过人工智能

  直接翻译成日语,这将使聋哑人士的沟通更顺畅。   目前该系统只能用于柜台设备上,聋哑人士能在摄像头

  直接翻译成日语,这将使聋哑人士的沟通更顺畅。 目前该系统只能用于柜台设备上,聋哑人士能在摄像头前通过

  大会现场,王海峰发布百度智能云数字人平台“曦灵”,该平台可为各行各业提供多种数字人生成和内容生产服务,逐步降低数字人的应用门槛。为听障朋友提供

  主播正式上岗,陪伴听障人士见证了一场场精彩绝伦的比赛。即将开幕的冬残奥会,这位

  为了显示自己的技巧,也在自己的程序中用过几次。渐渐发现这样的技巧带来的好处是有代价的,破坏了程序的结构化设计,程序变得

  识别是一种新兴的技术,它通过识别人类手部的姿态、运动和形状,来理解人类的意图和情感,以此来实现计算机与人类之间的自然交流。随着人口老龄化和全球化的趋势,

  识别技术是一种通过一系列分析人类手部动作来识别其所表达意义的技术。随着人口老龄化趋势的加剧和多元文化的融合,

  本系统由翻译终端机器和云服务器搭配组合构成,基于Mediapipe和OpenCV的残障人士手势交互系统采用摄像头采集手势动作信息,旭日X3派则根据摄像头捕捉的关键帧的进行特征提取,配合云端服务器以实现27个国家通用

  的识别播报和实时语音转写,让残障人士能借助此系统来进行无障碍交流和交互……