企鹅电竞竞猜

当前位置: 首页 >> 学术科研 >> 学术成果 >> 正文

海内外学者共研古文机器翻译——第一届古代语言机器翻译研讨会ALT2023在中国澳门成功举办

作者:时间:2023-09-15点击数:

2023年9月5日,第一届古代语言机器翻译研讨会(Ancient Language Translation workshop,ALT 2023)在中国澳门特别行政区成功举行。

研讨会由南京师范大学的李斌博士和以色列阿里尔大学的Shai Gordin博士共同组织,中国人工智能学会语言智能专委会、中国中文信息学会青年工作委员会、江苏省人工智能学会自然语言处理专委会协办。作为机器翻译峰会MT-SUMMIT2023(https://mtsummit2023.scimeeting.cn/)的子会议,本届会议旨在推进世界古代语言机器翻译研究,通过评测竞赛和会议研讨,增进全世界古文研究者的交流,推动古代语言自然语言处理技术的发展。著名计算语言学家冯志伟教授和北京大学俞敬松教授应邀做主旨报告,清华大学黄昌宁教授、东北大学肖桐教授、南京师范大学陈小荷教授、曲维光教授等近百位学者线上参会,来自美国、英国等地的二十多位国内外学者线下参会。

本届会议的特色是首次对古代汉语和以楔形文字为书面形式的阿卡德和苏美尔文这三种古老的语言进行机器翻译国际评测,为参赛队提供了高质量的“古汉语-英语”“古汉语-现代汉语”“苏美尔语-英语”“阿卡德语-英语”四个双语语料库,和基于五亿字《四库全书》的Siku-Roberta预训练基座模型,最好的两支队伍华南理工大学和香港中文大学的翻译成绩超越了谷歌和百度翻译,切实推进了古文机器翻译研究与技术交流。

ALT2023包括两个评测任务:EvaHan2023与EvaCun2023。EvaHan致力于对古汉语智能处理技术进行评测。2022年,在法国马赛举办的EvaHan2022针对古代汉语分词和词性标注任务开展了技术评测,数十支队伍参加了评测,十四支队伍提交了结果,大大推动了古汉语分词和词性分析技术。今年的EvaHan2023,则专注于古代汉语到现代汉语和英语的机器翻译测评,由南京农业大学信息管理学院、南京理工大学经济管理学院、企鹅电竞竞猜、南京师范大学语言大数据与计算人文中心的王东波博士、沈思博士、李斌博士、叶文豪博士、刘浏博士、冯敏萱博士和许超博士等共同组织。测评所使用训练语料选自先秦典籍、二十四史以及《资治通鉴》的双语数据,其中“古汉语-现代汉语”30万句对,“古汉语-英语”5900句对,由国家社会科学基金重大项目“中国古代典籍跨语言知识库构建及应用研究”(项目编号:21&ZD331)课题组精加工而成,而测试语料选自江苏文库提供的数据,由南京农业大学孟凯博士、南京工业大学孙文龙博士和中国药科大学赵连振博士精加工而成。EvaHan2023共有22个参赛队伍报名,最终收到了9份翻译结果,收录了8份技术报告。

EvaCun是第一届楔形文字智能处理的评测竞赛,由美国加利福尼亚大学伯克利分校数据科学团队与阿里尔大学数字历史实验室共同承办。楔形文字是有记录以来人类历史上最早的文字系统之一,在过去的两个世纪,中东地区发现了数十万楔形文字的泥板,其中大多为苏美尔语和阿卡德语。EvaCun2023包括三个机器翻译任务——阿卡德语(楔形文字)翻译到英语、阿卡德语(字母转写)翻译到英语以及苏美尔语(转写)翻译到英语。“阿卡德语-英语”平行语料规模约为5万句对,“苏美尔语-英语”平行语料约为8000句对。可惜的是,由于懂得楔形文字的专家较少,该任务难度过大,国内外报名的多支参赛队仅有南京农业大学提交了翻译结果,BLEU值超过了30,但很遗憾错过了截止日期。

教育部语言文字应用研究所、新疆大学冯志伟教授,作了题为“Significance of Ancient Language Translation(古代语言翻译的重要性)”的主旨报告。冯志伟教授是我国著名计算语言学家,精通五种外语、兼通语言学、数学和计算机科学,是我国最早从事自然语言处理和计算语言学研究的学者之一,在国内外出版著作30多部,发表论文400余篇,曾获2018年CCF、NLPCC杰出成就奖。冯志伟教授以其六十年学术经历,概述了机器翻译的发展历程,论证和强调了古汉语机器翻译对于中华民族传统文化“走出去”的重要意义。

第二个主旨报告由北京大学俞敬松教授主讲,题为“Research and Development Report on the Integrated Platform for Ancient Text Compilation and Research(古籍整理加工与出版研究平台的研发报告)”。俞敬松教授介绍了团队构建的古籍智能信息处理系统,对系统的标点、分词、机器翻译等功能进行了详细展示和讲解,可以为非计算机专业的人文学者提供便捷。

北京大学、华南理工大学、香港中文大学、中国科学技术信息研究所、北京理工大学、南京大学、上海理工大学、南京中医药大学等8所高校与科研院所依次报告。其中,华南理工大学和香港中文大学在“古汉-现汉”赛道上,分别取得29.68和27.33的BLEU值,译文质量较好,都超过了百度的25.57(谷歌则不具备此翻译功能)。但是古汉语翻译为英语效果还不理想。华南理工大学获得一等奖,香港中文大学、北京大学获得二等奖,中国科学技术信息研究所和北京理工大学获得三等奖。

在闭幕式上,冯志伟教授致辞,肯定了本届会议的重要价值,古汉语机器翻译大有可为,能够对古籍的活化利用、继承和弘扬中华优秀传统文化与对外文化交流传播起到非常重要的作用。作为会议的发起人和组织者,Shai Gordin博士表示古代语言机器翻译难度大,文化价值高,需要更多的学者共同努力推进。

李斌博士最后对研讨会进行了总结,当前古代语言机器翻译的最大困境在于,高质量古代语言数据资源严重稀缺,而且非常依赖古文专家的专业知识。本届会议的最大贡献在于,建设、发布和共享了大规模高质量的多语种古代语言语料库,有力推进了古文机器翻译系统的开发。李斌博士代表会议发出呼吁,要在古代语言资源和知识库建设方面加大投入,培养古代语言和计算机科学的通才,推动多语言古文机器翻译的开发与应用。


华南理工大学团队获一等奖,曹家欢同学领奖

古代语言是研究古代历史文化的基础,推动古代语言机器翻译的发展,是推动古籍活化利用的重要途径。随着人工智能技术的突破式发展,古今文明的距离将不断缩小,优秀传统文化的传承创新大有可为。

版权所有:企鹅电竞竞猜 学院地址:江苏省南京市宁海路122号中大楼 邮编:210097
联系电话:(025)83598452 电子邮箱:03363@njnu.edu.cn