这些AI产品正在打破43亿人的障碍_太阳能电站_开云全站-云开全站appkaiyun登录-kaiyun中国登录入口登录

这些AI产品正在打破43亿人的障碍

添加时间 : 2024-07-05

文章来源: 太阳能电站

之前我们写过一篇文章——《别再问我聋人为何需要去音乐节了》，科普了海外音乐节的特别岗位：手语翻译员。

听障人士虽然听不见或者听不清音乐，但他们能够通过手语翻译员感染力极强的手部动作、面部表情、肢体语言，感受到音乐的律动、氛围的热烈。

这可能是健听人意想不到的手语场景。其实无论线上线下，需要手语翻译员的地方还有很多，然而僧多粥少。

英国人Sally Chalk，2002年开了一家英国手语翻译公司，经过20年的经营，公司规模可观，预约手语翻译员的时间也缩短到了30分钟，但她还是不满足。

2022年，Sally Chalk开了一家新的初创公司——Signapse，专注开发生成式AI手语翻译软件，将书面文本实时翻译为美国手语和英国手语。

今年5月，Signapse拿到了200万英镑的种子轮融资，其中50万来自英国政府。

美国的辛辛那提/北肯塔基国际机场，已经和Signapse合作，在屏幕上投放美国手语，提供欢迎、安全、出发、到达等信息。

AI是如何发挥作用的？Signapse基于大型手语数据集，并通过生成对抗网络（GAN）和深度学习技术，创造了逼真的、翻译尽可能准确的虚拟手语翻译员。

考虑到机场的目的地、出发时间、站台号码经常变动，通过与交通数据集成，Signapse的手语翻译可以做到实时更新。

同时，Signapse没有忽视线上的需求，也为网站和视频流媒体提供手语翻译。

尽管YouTube等网站都有隐藏式字幕了，但相比字幕，听障人士往往更喜欢手语，因为手语具有独立于其他语言的语法结构和表达形式，会让他们的上网体验更好。

你应该有注意到，提到手语时，我们会用美国手语、英国手语的说法。就像全世界的口语和文字互不相通，手语也包罗万象。

联合国统计，全世界大约有7000万人将手语作为主要的交流形式，全世界使用的手语有300多种不同类型。仅在美国，就有50万人使用美国手语。

所以，Signapse目前所做的其实也很有限，只覆盖到了使用美国和英国手语的少部分人，以及有限的垂直场景。过去两年，Signapse每天创建约5000个英国手语交通公告。

Signapse希望，未来他们的服务可以更加普适，拓展到教育等场景，也更加个性化，支持用户自定义虚拟手语翻译员的外观。

2022年冬奥会，央视新闻和百度智能云曦灵联合打造的AI手语主播上线，天津理工大学聋人工学院参与了手语语料标注。

而在AI手语主播背后，百度智能云曦灵的AI手语平台，还能满足医院、车站、银行等不同场景的快速手语翻译需求，和Signapse英雄所见略同。

如果说手语翻译的改进空间比海更深，至少听障人士获取公共信息的方式，正在被AI改变，持续地泛起可见的浪花。

听障人士也要“听”音乐？听障人士看文字是不是就够了？这是典型从健听人的逻辑出发考虑问题。

其实，我们应该反过来问：音乐节怎么让听障人士也能有参与感？互联网怎么让听障人士有更愉快的冲浪体验？

所以，不是某个人流如织的车站多出了一块屏幕，而是那块屏幕本就该出现在那里。

PopSign是一款边玩边学手语的app，使用AI手语模型，由Google、罗彻斯特理工学院、佐治亚理工学院合作开发，可在Android和iOS上使用，最主要的用户群体是听障孩子的健听父母。

吸取背单词从“abandon”（放弃）开始、也以放弃终结的教训，PopSign不是无聊地播放手语视频，而是用小游戏增强学习手语的兴趣和信心，和疯狂催你打卡的多邻国异曲同工。

想做手语界“多邻国”的，还有一家叫作SLAIT的美国公司。他们提供的也是沉浸式的互动课程和测验，如果你做对了，AI导师会给予你实时反馈，提供适量情绪价值。

不过，教手语只是SLAIT退而求其次的选择，一开始他们想做的，其实是实时视频聊天和翻译的AI手语工具。

但巧妇难为无米之炊，SLAIT是个小团队，没有足够的数据，也没有足够的资金，比起直接翻译手语句子，教单个手语词汇更加简单，但同样有价值。

2023年8月，联想巴西开发了一款基于AI的实时聊天翻译app，用来翻译葡萄牙语手语，未来计划覆盖到全球更多手语。

当听障人士对着设备的摄像头打手语，算法会即时将其翻译成葡萄牙语文本，传送给另一端的接收者。

这样的工具应该多多益善，恰好和手语教学服务互补，让听障人士站在更主动的位置，更多地成为对话的发起方。

这场竞赛的主题很有意思——参赛者们基于听障人士得到的300多万个手指拼写字符，构建使用智能相机快速跟踪手指、手掌和脸部的手指拼写模型。

手指拼写属于手语的一种，使用手指的不同形状和位置来表示字母。对于很多残障人士来说，使用手指拼写，比在智能手机的虚拟键盘上打字快得多。

所以，改进手语识别、构建手指拼写模型，是为了让听障人士可以直接用更擅长的手语，而不是打字和说话，在手机上使用搜索、地图、短信等功能。

更进一步，这也有助于开发手语转语音的应用，打破听障人士无法用语音召唤数字助理的僵局。

或者说，很多语音优先的产品，从一开始就没有考虑不善口语的用户，是时候补上漏洞了。

Google首席无障碍研究产品经理Sam Sepah，在接受福布斯采访时提到，他们的目标是，让手语成为使用Google产品时的通用语言选项。

多邻国作为一款语言学习软件，为每个人提供了平等的受教育机会。而AI手语产品们让人感觉到的是，本不该有的限制正在解除，哪里都可以互通有无。

5月，GPT-4o发布时，一个Demo视频很打动人，GPT-4o充当了眼睛，让视障人士也能“看到”周围的环境。

视障人士从AI口中知道，白金汉宫上空飘扬着旗帜，河里的鸭子悠闲地嬉戏，出租车就要到达跟前，他的嘴角随着AI的欢快语调而上扬。

俗话说技术打开了新世界的大门，是否可以反过来理解，残障人士们原本生活在一个不为他们设计的世界？

世卫组织数据显示，全球4.3亿人需要通过康复治疗解决残疾性听力损失。手语翻译的数量远远不够，在美国，听障用户与美国手语翻译员的比例大约为50比1。

所以目前来说，AI手语只是起到补充和锦上添花的作用，还不到“抢饭碗”的地步。

以上提到的AI手语产品，基本都是小规模的、垂直的、扎根特定地区的，弥补真人翻译不可及的地方。

罗格斯大学、卡内基梅隆大学等几所大学的研究人员，将公开手语视频处理成包含8种手语的数据集，训练了SignLLM——第一个多语言手语生成模型。

覆盖多种手语，能够最终靠文本提示词生成手语，那不是太方便了吗？但研究人员说了，请外界不要夸大他们的研究成果，演示视频并非模型的直接输出，实际制作起来仍然很麻烦。

同时，也有听障专家站出来表示，这些视频的手语翻译质量参差不齐，有的让人半懂不懂，有的完全理解不了，而且缺乏面部表情，项目有潜力，但还要改善。

最重要的是，要让听障用户参与，发表他们的意见，共同完善产品，因为“没有我们的参与，就没有关于我们的决策”。

它们往往没法像大模型和AI硬件的发布一样让人心神激荡，总是和你说，功能有哪些，服务于谁，希望以后能做到更好，不会“贪多嚼不烂”。

但“AI教母”李飞飞曾说，AI是为了帮助人，AI越强大我们越要珍视人性。

所有人都应该不怕错过航班，所有人都应该能和产品交互，所有人都应该享受音乐节。

那些曾经不被看到的、听到的也该被技术的光芒照耀。打个共鸣的响指吧，让更多人的需求被满足，更多人的能力被增强，让我们得到更多，失去更少。

上一篇:警用安防集成技术的应用与发展

下一篇:顺势而为用友IT应用集成迎接一体化时代