以声知形——基于人工智能的口述影像生产辅助工具
以声知形——基于人工智能的口述影像生产辅助工具
香港資訊科技學院位於香港專業教育學院(沙田)
曾順天 / 何樂言 / 何卓軒 / 陳嘉穎
以声知形是一款基于人工智能的口述影像生产辅助工具,旨在简化口述影像的制作过程。以声知形基于人工智能的影片分析、脚本创作辅助和文本转语音转换功能,利用在多样化数据集上训练的机器学习模型,保证高质量的口述影像描述。此外,以声知形集成了云端基础设施,以实现可扩展和高效的处理,并提供用户友好的移动和网络应用界面,支持无缝的影片上传和脚本编辑。项目还融合了无障碍功能,包括语音控制并与iOS设备上的Siri兼容,提高了包容性和易用性。
以声知形的主要功能包括:
1. AI视讯无障碍评估:可评估视讯内容的无障碍 程度,并检查是否有暴力或露骨内容等敏感 信息。
2. AI电影场景分析:自动分解和组织场景讯息 (空间布景、人物表情、动作等),确保快 速准确地提供结果。
3. AI脚本撰写辅助:协助口述者生成精确有效的 语音说明脚本,加快脚本编写过程,以提升 效率。
4. AI语音影片生成:结合语音和图像技术,支援 多种语言和语音风格,确保旁白清晰自然。此外,该平台还包括语音重叠检查,以确保 背景声音和语音描述不会相互干扰。
全球有2.85亿失明或视障人士,单在香港就有20 万视障人士,对口述影像服务有庞大需求。以声 知形令使用者能轻松上传、播放及编辑影片与脚 本,提升视障人士的观赏体验,让视障人士也能 存取和欣赏视觉内容,促进社会包容性和信息的 平等存取,不论其视觉能力如何,让每个人都能享受并参与丰富的视觉媒体世界。
评审委员会评语
这个项目实用且具创意,影片自动转换语音功能 善用AI技术,产品功能颇为完善,能为视障人士 带来实际和快速的帮助,并对社会造成正面影 响。相似的概念往后也可拓展至监控影像、设备管理、游戏或学校课堂上,拥有广阔的市场和良 好的商业潜力。如后续更新里能更好地协助视障 人士自行制作影片,将能够进一步扩大影响力。
香港资讯及通讯科技奖(HKICTA)旨在表扬和推广杰出的资讯及通讯科技发明和应用,从而鼓励香港的资讯及通讯科技人才和企业不断追求创新和卓越的解决方案,以满足商业和社会的需要。香港资讯及通讯科技协会于 2006 年成立,由业界、学术界和政府合作成立。该奖项由政府资讯科技总监办公室领导,并由香港资讯及通讯科技业界协会和专业团体主办,旨在建立一个广受本地支持和国际认可的资讯及通讯科技奖项品牌。
香港资讯及通讯协会 2024 共设八个类别。每个组别设一个大奖,而大奖评审团将从八个大奖中选出一个「年度大奖」。为促进人工智能 (AI) 的创新应用,八个类别中的每一个类别都将设立一个新的杰出荣誉:“最佳人工智能应用”奖,以放大和表彰在各自领域利用人工智能力量的杰出成就。EdCity 获资科办正式委任为「2024 香港资讯及通讯科技奖:学生创新奖」的主办机构。学生创新奖涵盖小学、初中、高中及高等教育四个范畴。通过借鉴创新战略和最佳实践,EdCity 希望在奖项中推动创新,营造一个鼓励学生突破界限和跳出框框思考的环境,并最终推动 ICT 行业的发展。
香港教育城(教城)于2000年在优质教育基金资助下成立,并于二零零二年公司化,成为政府全资拥有的公司,致力推动学界利用信息科技适切配合课程变革。教城坚持学术合作、资源共享和专业发展的承诺,旨在帮助教育工作者、学生和家长追求卓越的教育。
中国人民大学口述史研修班第三期(线上)以“口述史的多维视角与跨界融合”为主题,邀请国内口述史研究领域的著名专家学者,开设为期10天的系列课程。本期研修班涵盖历史学、社会学、政治学、文学艺术、经济学多个学科,旨在展现口述史研究的多元视角和跨学科魅力。课程内容丰富多样,既有口述史的理论探讨与方法论辨析,又有口述史在博物馆展览、非虚构写作、纪录片创作、社区研究等实践领域的创新应用。无论您是口述史的初学者,还是业已从事相关工作的实践者,都欢迎参加本期研修班,共同探寻口述史研究的无限可能。
扫码加入微信交流群,了解最新口述史资讯:
完成全部课程学习并考核合格者,由中国人民大学颁发《中国人民大学口述史研修班(第三期)》结业证书,证书统一编号,可登陆中国人民大学终身学习服务平台查询。