AI技术在为残障学生提供更无障碍、更公平和更具包容性的学习体验方面大有可为。
AI在高等教育各个领域(包括学习设计、学术诚信和评估)的影响广受讨论。而AI对数字无障碍环境、包容性和公平性的影响是一个尚未得到严谨或深入探讨的领域。在这一领域,一些令人兴奋的技术发展已为高等教育内外带来了乐观前景。这些进步维护残障学生的公平,获得与非残障学生相同的教育服务和资源。讽刺的是,能够从新兴AI工具和资源中获益最多的残障学生,往往是那些最难以使用这些工具和资源的人。更令人担忧的是,残障群体中很少有人受邀对产品的开发提出建议。2023年一项针对辅助技术用户的调查发现,尽管有87%的人愿意向开发者提供用户反馈,只有不到7%的残障受访者认为AI产品的开发充分考虑了他们的群体需求。
作为一名听力障碍的无障碍倡导者,我对AI技术的进步一直充满兴趣,尤其是自ChatGPT和其他大型语言模型(LLMs)推出以来,这些技术有望为残障人士提供更加公平的教育内容获取途径。然而,AI在教育技术和教学中的应用并不是新事。20 世纪 60 年代,伊利诺伊大学开发了自动教学操作程序逻辑系统 (PLATO),20 世纪 70 年代,斯坦福大学的海梅·卡博内尔 (Jaime Carbonell) 开发了 SCHOLAR。这两种计算机学习工具都是早期的AI形式。进入21世纪后,出现了更多现代教育技术的发展,例如ALEKS、Newton以及智能辅导系统 (ITS) 等,它们都是广受欢迎并广泛使用的面向学生的AI课程平台。随着自动语音识别 (ASR) 技术的长足进步,AI生成的网络会议自动字幕也在 2010 年代初至中期得到广泛应用。2009 年,谷歌推出了 YouTube 视频自动字幕功能。这一突破性发展展示了利用语音识别技术实时生成字幕或为录制内容中生成字幕的潜力。尽管这一技术最初因不准确和高错误率而备受批评,但它逐渐影响了其他技术的类似功能,包括网络会议平台。
最近发布的一众大语言模型引发了该领域AI产品开发的热潮。下面介绍几种最近推出的教育技术产品和服务。虽然这份清单并不详尽,但它涵盖了一些在不久前还被认为是不可能实现的功能。
自动图像描述
为了让读屏软件准确解读图片、图像和图表的内容,内容作者必须添加说明、标签或 alt 文本(也称为替代文本)。随着大语言模型的出现,AI技术可以自动生成这些描述。一些生成图像描述的工具尚处于早期开发和发布阶段。例如,亚利桑那州立大学最近推出了一款全新的AI图像描述工具,它使用 ChatGPT-4o 分析用户上传的图像,并生成强大的替代文本描述。该工具还可以分析和提取幻灯片和图像中的嵌入文本(即机器无法读取的文本)。
无障碍倡导者和开发者卡梅隆-昆迪夫 (Cameron Cundiff) 开发了一个非视觉桌面访问(NVDA)插件,为任何网站、软件产品或桌面图标提供语义丰富的图像描述。该工具利用了Google Gemini API的视觉功能来分析并生成详细的图像描述,随后通过NVDA的语音合成功能进行朗读。
Astica.ai利用其 Vision API 技术开发了一款图像描述工具,可生成标题图像、品牌识别和自动内容审核。用户可以上传复杂的图像,Astica.ai 会自动扫描和识别元素,并生成详细的 alt 文本描述。
麻省理工学院的研究人员开发了 VisText,帮助人们为复杂的图表和图形生成标题和说明——这是辅助技术最难描述的图像类型之一。该工具尤其适用于描述图表数据中的复杂模式和趋势。
达伦-德弗莱恩(Darren DeFrain)是威奇托州立大学的一名英语教授,他领导的开发团队创建了Vizling,这是一款移动设备应用程序,旨在让盲人和低视力读者也能阅读漫画、地图、图画小说和艺术品等多模态媒体。读屏软件很难解析漫画和图画小说,因为它们的面板布局和对话气泡并不遵循可预测的模式。
口述影像生成
总部位于英国的 WPP 公司正与微软公司合作开发基于 GPT4 的先进口述影像工具。该技术可为用户上传的视频和图像生成增强的口述影像。该公司还与荷兰国家博物馆 Rijksmuseum 合作,为其收藏的近 100 万件艺术品提供增强的口述影像,为拥有大量特殊收藏的图书馆打开了大门。预计该工具将很快推出。
为认知和身体残障者提供支持
微软英国公司最近推出了一系列小故事,展示如何利用AI技术为各种认知和身体障碍人士提供支持。几乎所有的特色用例都直接应用于高等教育。
2023 年,微软与 OpenAI 合作开发了 Be My AI,这是 Be My Eyes 应用程序中的数字视觉助手。Be My AI 由 OpenAI 的视觉应用程序接口(Vision API)提供支持,该应用程序接口包含一个全新的动态图像到文本生成器。Be My AI 用户可以通过 Be My AI 应用程序发送图片和提问。由AI驱动的虚拟志愿者会回答有关图像的任何问题,并为各种任务提供即时视觉帮助。这项技术为盲人或低视力者提供了更多的学习机会。
位于康涅狄格州的古德温大学正在尝试使用AI产品,为神经变异学生提供支持。例如,大学推荐 GitMind 用于辅助记事、思维导图和头脑风暴。
作为 RAISE 项目的一部分,佛罗里达中部大学与佛罗里达中部脑瘫协会(UCP)共同开发了“ZB”——一款由AI驱动的社交辅助机器人。ZB 旨在帮助残障学生发展和提高社交技能,甚至可以教他们如何编码。根据堪萨斯城 PBS 的一则新闻报道,“他在课堂上与学生们互动,通过积极的信息给予他们肯定。”
包容性设计支持
GPTAccessibility CoPilot由 “全球无障碍意识日”(GAAD)联合创始人兼 GAAD 基金会主席乔-德文(Joe Devon)开发,是一款通过分析网页和内容页面中的代码结构并将其与 WCAG 2.2 成功标准相匹配来帮助内容开发人员和教学设计人员的工具。如果代码不符合标准,Accessibility CoPilot 会提供改进建议。
Ask Microsoft Accessibility是一款免费工具,教师和学生可以使用它来开发无障碍课程内容。用户可以输入诸如 “如何让 Excel 文件更具包容性?”之类的问题,AI助手会近乎实时地提供几种解决方案。该产品尚处于早期发布阶段。
宝洁公司正在使用一种名为Navilens的AI辅助二维码技术,为盲人或低视力者提供帮助。使用 Navilens 可以在密集的货架中找到产品,并阅读使用说明或成分表。这项技术也适用于需要寻路和标识阅读服务的场所。Navilens 可免费下载和使用,该公司目前正在向学校提供其专有代码。该公司已与微软合作,为使用 ARxVision 开发的专用耳机的用户提供更强的自主性。
编码和开发支持
GitHub 最近推出了与微软和 OpenAI 联合开发的代码自动完成工具 Copilot。GitHub Copilot Chat 是一个辅助聊天界面,可帮助程序员学习可访问性知识并提高代码的可访问性。
无障碍培训公司 Deque 宣布发布Axe DevTools AI,这套工具可供网页开发者测试和修正网页内容及其他网站元素的数字无障碍性。例如,Colorvision(套件中的一个工具)会自动检查不兼容的色彩对比度。在 Axe-Con 2024 会议上,马里兰大学名誉教授格雷格·范德海登 (Gregg Vanderheiden) 预测,AI驱动的工具将几乎无处不在地应用于所有数字产品,这些产品将能实时适应用户的无障碍偏好。
翻译、字幕、唇读和语音识别
大语言模型使各种新的翻译、字幕、唇读和语音识别工具成为可能。例如,Microsoft Copilot+ PC 包含几乎所有语言的实时翻译。以前,这项技术只在 PowerPoint 等某些生产力产品中使用;但现在,它已准备在微软的各种生产力产品中广泛使用。
SRAVI(语音障碍者语音识别应用程序)是一款AI驱动的唇读应用程序,由爱尔兰贝尔法斯特软件开发公司 Liopa 的联合创始人兼首席技术官法比安·坎贝尔-韦斯特 (Fabian Campbell-West) 开发。SRAVI 最初是为了帮助失去语言能力的重症监护病房和重症监护病人更有效地与家人和医疗服务提供者沟通而开发的。2023 年,该应用程序在接受全喉切除术的患者身上进行测试。Liopa 是贝尔法斯特女王大学及其安全技术中心的衍生产品。虽然该公司已于今年早些时候解散,但 SRAVI 应用程序仍可供下载。
Ava是一款移动应用程序,可让聋人或重听人参加英语、荷兰语、法语、德语、意大利语或西班牙语的小组对话。该程序为二十种口语语言提供有限的会话支持。参与对话的人可以在手机上打开Ava应用程序,然后开始讲话,应用程序会进行语音识别。Ava几乎实时地将口语转换为文本,并为每位讲话者的文字显示不同的颜色,帮助需要通过阅读来跟进对话的人更好地理解交流内容。
伊利诺伊大学正与微软、谷歌、亚马逊和几家非营利组织合作开展 “语音无障碍项目”,这是一项跨学科计划,旨在 “让语音识别技术为各种语音模式和残障人士所用”。大学研究人员正在记录患有帕金森病、唐氏综合症、脑瘫、中风以及肌萎缩侧索硬化症(ALS)个体的语音,这些录音被用于训练AI自动语音识别工具。根据“语音无障碍项目”网站的说法,“在使用该项目的录音之前,工具对语音的误解率为20%。”“通过使用语音无障碍项目的数据,这一误解率下降到了12%。”
结论
这些只是AI与无障碍交汇处出现的一些令人兴奋的部分进展。高等教育界的许多人对AI的使用持谨慎态度,这种谨慎是有道理的。然而,目前已经有许多产品和服务承诺为残障人士提供更多公平和包容,并且还有更多正在开发中。
(机器翻译,轻度译后编辑,仅供参考)
编辑:田逸云