数据显示,我国现在约有2780万听障人士,每年还有大量听障新生儿不断增加中。随着社会的发展和进步,听障人士的权利意识、参与意识和平等意识都在不断增强,他们对信息的知情愿望、与健听人士的交流愿望也随之增强。尽管随着科技的发展,越来越多的听障人群可以通过语音转文字来沟通,然而,手语依然是聋人之间的首要沟通语言。
手语是听障人群交流的一种特殊表达方式和主要沟通工具,以手的动作、手指指式、身体姿态及面部表情的变化为表意或表音手段,进行交际的一种符号系统。不同于听觉语言,手语是一种视觉语言,由于表达和语法逻辑与健听人所学习的不同,大部分健听人看不懂手语的表达。所以,对于听障人士来说,获取信息是一方面,他们最渴望的,还是内心的表达,被“看懂”、被“理解”。
9月10日下午,天津市人工智能计算中心200P人工智能算力上线仪式在天津市河北区举行。会上,天津市残疾人联合会、天津理工大学、天津市人工智能计算中心、华为技术有限公司联合签约,基于昇腾AI算力及昇腾全场景AI框架昇思MindSpore,各方将共同研发“海河·尔语”聋人手语理解大模型,打造更精准的“手语-汉语”翻译产品,帮助听障人群更便捷、更准确的表达、传递信息,拓宽与外界的交流通道。
天津理工大学聋人工学院是天津市政府和中国残联合办、我国第一所面向全国招收聋人的高等工科特殊教育学院,也是国内最早面向听障学生开设“全纳”(听障学生进入健听班级随班就读、跨学院联合培养)教育本科专业的高校。该学院在积极探索和构建面向听障生的融合育人培养体系的同时,也在持续探索如何构建并使用海量手语数据资源,提升听障人士生活和学习质量,促进聋健融合,通过人工智能技术力量助力国家无障碍建设。
然而,手语大模型的构建时存在以下难点:1、手语语料库收集困难,需要熟悉标准的手语的模特示范,专业摄影及视图处理;2、手语语料数据普遍质量不高,需要多次收集、严格比对优化;3、缺少手语语言学语法分析体系,且缺失自动标注智能模型和手语表达的多样性,需要大量的人工标注和不断修正迭代;4、单信道手语识别准确率低,多信道手语数据融合难,手语视图需要结合人物表情、动作幅度、周围环境等多模态信道。
为解决以上难题,天津市残疾人联合会、天津理工大学携手华为TECH4ALL数字包容团队,依托天津市人工智能计算中心提供的澎湃AI算力,基于华为昇腾AI基础软硬件平台,特别是全场景AI框架昇思MindSpore,共同研发“海河·尔语”聋人手语理解大模型,共同致力于打造更精准的“手语-汉语”翻译产品。
“海河·尔语”大模型为国内首个自主可控聋人手语理解大模型,以聋人手语视图为蓝本,结合动作幅度、速度、人物表情及周围环境,深度、准确理解聋人手语表达的含义,并转换为健全人能理解的语音与文字,在国内独树一帜。超过百万的手语数据集将“喂”给“海河·尔语”大模型,经过模型与算法处理,便能高效地生成手语多模态模型,可以支持超过10亿的数据标注手语到汉语的翻译与训练。
未来,“海河·尔语”聋人手语理解大模型研究成果更有望走向更广阔的社会范畴,应用于智慧城市、智慧教育、智慧医疗、智慧养老、智能出行及公益项目等多个领域。
打破沟通障碍,让生活更有温度,科技从未停止探索的脚步。听障人群是我国社会不可忽视的重要组成部分,准确、及时的获取听障人士的表达、将信息传递给更多听障人士和健听人,是我国建设和谐社会、生态文明发展的重要需求。华为TECH4ALL数字包容团队将继续携手更多合作伙伴,共同助力听障人士更加便捷的融入社会,让数字世界更平等可持续。
(来源:News快报)