这句来自电影《潜水钟与蝴蝶》的台词,也是前《ELLE》杂志主编、记者让多米尼克的真实经历。
让多米尼克中风瘫痪后,身体的语言和运动功能都丧失了,他不能说话,不能自主呼吸,只剩下一只眼睛和意识能自由活动。在这种情况下,他还是“写”出了一部散文集。
书是这样完成的:助手把一个个字母依次念给让多米尼克,直到他眨一下眼,就把那个字母记下来……如此循环进行,直到字母形成单词、句子、片段,最终付梓成册。
显然,这个还原思维的过程十分艰辛且原始,但至少给他的灵魂留下了一丝自由遨游的可能。
而对于更多缺乏发声能力的普通人(比如中风患者、植物人等)来说,无法与正常人交流的他们,生命已然停滞。
通过计算机,将大脑中的所思所想转换成语音说出来,这种“读心术”距离现实究竟还有多远?
先来泼一盆冷水,那就是想要将人想象中的单词和句子转换成语音,目前的计算机还做不到如此鬼斧神工的地步。
技术的实现原理也并不复杂。人类的发声运动是靠大脑神经元电信号刺激下颌、嘴唇、声带等部位形成的。
因此,只要将相关脑区的神经运动信号输送给AI系统,深度学习网络就会根据信号与相对应的语言文字或嘴部运动进行层层匹配,推断出具体说了什么,再由语音合成器将这些信号转换成能被听到的语音。
哥伦比亚大学计算机科学家Nima Mesgarani做了一项实验,让听众“收听”一组与故事和数字有关的听觉皮层数据,有75%的人能够正确识别出该数字。
类似的实验在加州大学旧金山分校的研究组也成功了。癫痫患者大声朗读句子时的大脑活动被记录下来,借助深度学习网络重建为书面语句。结果显示,AI重现的句子有80%都是正确的。
既然神经信号转译为书面语言被证明是可行的,下一步就是要走出实验室,真正帮助失声人群“说出心里话”了。
麻省理工学院的研发人员就开发了一种植入型智能增强设备,由可穿戴装置和相关计算系统构成。
设备中的电极可以截取由内部语言所触发的下颌和面部肌肉运动信号,被反馈到机器学习系统,再由该系统将神经信号与特定的文字相关联。
使用者还能够最终靠骨传导耳机,在不中端对话的前提下通过面部振动,将外部信息传递到内耳。
目前,根据听众自身定制的这种可穿戴设备,平均转录识别准确率已达到92%以上!
如果说前面还属于辅助医疗范畴,到这里就有点开挂的苗头了。比如在国际象棋比赛中,选手要是戴上这样一副耳机,不就可以不被察觉地“听”到计算机给支招吗?
利用AI读懂脑电波,这个技术不仅仅看上去很酷,更重要的是应用空间非常巨大。
从理论层面上来说,可以不依赖于生物发声器官来实现交流的目的,这就给医疗、工业、刑侦等领域的带来了新的交互可能性。比如:
1.为失声患者提供声音。人类一旦不幸遇到中风、脑外伤、脊髓损伤或ASL运动神经细胞病(史蒂芬霍金就是ASL患者),大脑无法直接刺激言语产生,患者只能在沉默中走向死亡。如果未来大脑语音合成器被应用,帮助失声患者找回语言功能,对他们的治疗和生活将起到极大帮助。
2.特殊环境的工作协助。并不是所有工作环境都能保障正常分贝下的语言交流,比如飞机场内的喷射噪音、航空母舰的驾驶舱、发电厂或印刷厂车间,以及穿着防护装备的实验室等等,不是过分嘈杂就是过分沉默,很容易错过关键信息。这种特殊环境中,大脑语音转录技术就能够有效解决交流不畅的问题,聋哑残疾员工也可以与他人无障碍交流。
3.从重建听觉到重建视觉。除了转录文本和语音,类似的AI神经网络还可以被训练来恢复模糊的图像,比如还原记忆中的面孔,应用在刑侦破案有奇效。
4.用思维操作假肢。佩戴上语音转录设备之后,截肢/截瘫患者只需要通过思考,就能自由控制假肢设备,这显然比让他们下达语音指令容易接受多了。
5.高度自动化的智能助理。这种BCI设备的更大作用,在于能够准确的通过人们内心的想法直接完成多种任务,比如控制灯光、做阅读笔记、下达VR游戏指令,还可以用来控制车辆。
日产汽车已经推出了类似的耳机,来监控司机的脑电波。例如,一旦检测到司机打算踩刹车,设备会在司机做出刹车动作之前就开始刹车,反应时间比人工操作快了多达半秒。甚至Facebook也推出了一个读心术项目,研究让用户如何用脑电波发送Facebook Messenger信息。
总而言之,这个极具想象力的技术,解决了一个长久以来的难题:如何化无形的意识为有形的信号,让人类可以从身体这个“潜水钟”的重重限制中透口气。
不过实事求是的说,尽管技术正在慢慢走向成熟,但华美的理想要照进现实,还有非常长一段路要走。
尽管学界和商业界都对这个“读心术”趋之若鹜,但在实际应用中,这种语言转录的脑机接口还有很多隐患需要一一解决。
1.植入难度过大。技术推广最直接的障碍就是,为了获取精确的实验数据,受试者一定要通过开颅手术将电极植入大脑中的相关区域。侵入式的解决方案大大缩小了参与实验的积极性,在实际应用中也会给植入者带来排异、感染等不可预测的风险。
2.词汇数据量不足。脑电波-语音的转录效果依赖于大规模的词汇表,但每个参与者对同一语言到神经元的映射都各有不同,因此AI系统学习和推断到的结果很难被通用。只能为不同的参与者特别定制属独属于他们的思维语料库,才可能正真的保证转录的准确性,难以大规模普及。
3.商业化难题。设备的植入难度与系统的定制化所带来的大量门槛,决定了它只能在极为小众的应用群体中发挥价值,比如少部分重症患者和一些狂热极客。
4.伦理困境。即使补全了设备和系统的缺陷,想必也很少有人愿意在公众场合戴上这样一套设备,而别人也很难不觉得被冒犯。
这有点像Googleglass刚问世的时候,只有设备,却没形成相对应的行为规范,导致很多人担心和质疑其侵犯隐私。同样的,脑电波“读心术”是否会带来隐私或另一种不公平呢,恐怕还需要大量的社会学研究来支撑。
总而言之,尽管“AI读心术”非常容易就让人感受到它的社会价值和商业潜力,但应用度上显然还存在不少问题,想要靠脑交流,少说还有几十年的路要走。
它带给我们更多的,可能是作为一种高度可行性的解题思路,如果人类的肉身注定要像潜水钟一样缓慢地沉入深海,至少可以让“思维”这只蝴蝶,多拥有一刻自由。