这些AI产品正在打破43亿人的障碍

添加时间 : 2024-07-05

文章来源: 太阳能电站

  之前我们写过一篇文章——《别再问我聋人为何需要去音乐节了》,科普了海外音乐节的特别岗位:手语翻译员。

  听障人士虽然听不见或者听不清音乐,但他们能够通过手语翻译员感染力极强的手部动作、面部表情、肢体语言,感受到音乐的律动、氛围的热烈。

  这可能是健听人意想不到的手语场景。其实无论线上线下,需要手语翻译员的地方还有很多,然而僧多粥少。

  英国人Sally Chalk,2002年开了一家英国手语翻译公司,经过20年的经营,公司规模可观,预约手语翻译员的时间也缩短到了30分钟,但她还是不满足。

  2022年,Sally Chalk开了一家新的初创公司——Signapse,专注开发生成式AI手语翻译软件,将书面文本实时翻译为美国手语和英国手语。

  今年5月,Signapse拿到了200万英镑的种子轮融资,其中50万来自英国政府。

  美国的辛辛那提/北肯塔基国际机场,已经和Signapse合作,在屏幕上投放美国手语,提供欢迎、安全、出发、到达等信息。

  AI是如何发挥作用的?Signapse基于大型手语数据集,并通过生成对抗网络(GAN)和深度学习技术,创造了逼真的、翻译尽可能准确的虚拟手语翻译员。

  考虑到机场的目的地、出发时间、站台号码经常变动,通过与交通数据集成,Signapse的手语翻译可以做到实时更新。

  同时,Signapse没有忽视线上的需求,也为网站和视频流媒体提供手语翻译。

  尽管YouTube等网站都有隐藏式字幕了,但相比字幕,听障人士往往更喜欢手语,因为手语具有独立于其他语言的语法结构和表达形式,会让他们的上网体验更好。

  你应该有注意到,提到手语时,我们会用美国手语、英国手语的说法。就像全世界的口语和文字互不相通,手语也包罗万象。

  联合国统计,全世界大约有7000万人将手语作为主要的交流形式,全世界使用的手语有300多种不同类型。仅在美国,就有50万人使用美国手语。

  所以,Signapse目前所做的其实也很有限,只覆盖到了使用美国和英国手语的少部分人,以及有限的垂直场景。过去两年,Signapse每天创建约5000个英国手语交通公告。

  Signapse希望,未来他们的服务可以更加普适,拓展到教育等场景,也更加个性化,支持用户自定义虚拟手语翻译员的外观。

  2022年冬奥会,央视新闻和百度智能云曦灵联合打造的AI手语主播上线,天津理工大学聋人工学院参与了手语语料标注。

  而在AI手语主播背后,百度智能云曦灵的AI手语平台,还能满足医院、车站、银行等不同场景的快速手语翻译需求,和Signapse英雄所见略同。

  如果说手语翻译的改进空间比海更深,至少听障人士获取公共信息的方式,正在被AI改变,持续地泛起可见的浪花。

  听障人士也要“听”音乐?听障人士看文字是不是就够了?这是典型从健听人的逻辑出发考虑问题。

  其实,我们应该反过来问:音乐节怎么让听障人士也能有参与感?互联网怎么让听障人士有更愉快的冲浪体验?

  所以,不是某个人流如织的车站多出了一块屏幕,而是那块屏幕本就该出现在那里。

  PopSign是一款边玩边学手语的app,使用AI手语模型,由Google、罗彻斯特理工学院、佐治亚理工学院合作开发,可在Android和iOS上使用,最主要的用户群体是听障孩子的健听父母。

  吸取背单词从“abandon”(放弃)开始、也以放弃终结的教训,PopSign不是无聊地播放手语视频,而是用小游戏增强学习手语的兴趣和信心,和疯狂催你打卡的多邻国异曲同工。

  想做手语界“多邻国”的,还有一家叫作SLAIT的美国公司。他们提供的也是沉浸式的互动课程和测验,如果你做对了,AI导师会给予你实时反馈,提供适量情绪价值。

  不过,教手语只是SLAIT退而求其次的选择,一开始他们想做的,其实是实时视频聊天和翻译的AI手语工具。

  但巧妇难为无米之炊,SLAIT是个小团队,没有足够的数据,也没有足够的资金,比起直接翻译手语句子,教单个手语词汇更加简单,但同样有价值。

  2023年8月,联想巴西开发了一款基于AI的实时聊天翻译app,用来翻译葡萄牙语手语,未来计划覆盖到全球更多手语。

  当听障人士对着设备的摄像头打手语,算法会即时将其翻译成葡萄牙语文本,传送给另一端的接收者。

  这样的工具应该多多益善,恰好和手语教学服务互补,让听障人士站在更主动的位置,更多地成为对话的发起方。

  这场竞赛的主题很有意思——参赛者们基于听障人士得到的300多万个手指拼写字符,构建使用智能相机快速跟踪手指、手掌和脸部的手指拼写模型。

  手指拼写属于手语的一种,使用手指的不同形状和位置来表示字母。对于很多残障人士来说,使用手指拼写,比在智能手机的虚拟键盘上打字快得多。

  所以,改进手语识别、构建手指拼写模型,是为了让听障人士可以直接用更擅长的手语,而不是打字和说话,在手机上使用搜索、地图、短信等功能。

  更进一步,这也有助于开发手语转语音的应用,打破听障人士无法用语音召唤数字助理的僵局。

  或者说,很多语音优先的产品,从一开始就没有考虑不善口语的用户,是时候补上漏洞了。

  Google首席无障碍研究产品经理Sam Sepah,在接受福布斯采访时提到,他们的目标是,让手语成为使用Google产品时的通用语言选项。

  多邻国作为一款语言学习软件,为每个人提供了平等的受教育机会。而AI手语产品们让人感觉到的是,本不该有的限制正在解除,哪里都可以互通有无。

  5月,GPT-4o发布时,一个Demo视频很打动人,GPT-4o充当了眼睛,让视障人士也能“看到”周围的环境。

  视障人士从AI口中知道,白金汉宫上空飘扬着旗帜,河里的鸭子悠闲地嬉戏,出租车就要到达跟前,他的嘴角随着AI的欢快语调而上扬。

  俗话说技术打开了新世界的大门,是否可以反过来理解,残障人士们原本生活在一个不为他们设计的世界?

  世卫组织数据显示,全球4.3亿人需要通过康复治疗解决残疾性听力损失。手语翻译的数量远远不够,在美国,听障用户与美国手语翻译员的比例大约为50比1。

  所以目前来说,AI手语只是起到补充和锦上添花的作用,还不到“抢饭碗”的地步。

  以上提到的AI手语产品,基本都是小规模的、垂直的、扎根特定地区的,弥补真人翻译不可及的地方。

  罗格斯大学、卡内基梅隆大学等几所大学的研究人员,将公开手语视频处理成包含8种手语的数据集,训练了SignLLM——第一个多语言手语生成模型。

  覆盖多种手语,能够最终靠文本提示词生成手语,那不是太方便了吗?但研究人员说了,请外界不要夸大他们的研究成果,演示视频并非模型的直接输出,实际制作起来仍然很麻烦。

  同时,也有听障专家站出来表示,这些视频的手语翻译质量参差不齐,有的让人半懂不懂,有的完全理解不了,而且缺乏面部表情,项目有潜力,但还要改善。

  最重要的是,要让听障用户参与,发表他们的意见,共同完善产品,因为“没有我们的参与,就没有关于我们的决策”。

  它们往往没法像大模型和AI硬件的发布一样让人心神激荡,总是和你说,功能有哪些,服务于谁,希望以后能做到更好,不会“贪多嚼不烂”。

  但“AI教母”李飞飞曾说,AI是为了帮助人,AI越强大我们越要珍视人性。

  所有人都应该不怕错过航班,所有人都应该能和产品交互,所有人都应该享受音乐节。

  那些曾经不被看到的、听到的也该被技术的光芒照耀。打个共鸣的响指吧,让更多人的需求被满足,更多人的能力被增强,让我们得到更多,失去更少。

上一篇:警用安防集成技术的应用与发展

下一篇:顺势而为 用友IT应用集成迎接一体化时代