中国古代典籍承载着悠久的历史和深厚的文化底蕴,是世界文明的瑰宝。但古籍文本不加句读,仅依靠专家学者手工地进行句读或添加标点符号需要耗费大量的人力和物力。因此面向古籍的句读和标点工作在促进古籍的创造性转化和创新性发展以及中华文化的传承与传播方面有着非常重要的作用。然而,目前针对古汉语句读与标点的研究仍未成熟,尚未形成规范化的评估体系和评测方法,举办标准化的古代汉语句读与标点评测就显得尤为重要和迫切。

2024年5月25日,由南京师范大学、南京农业大学、南京理工大学联合组织的首届古汉语断句和标点国际评测会议在意大利都灵顺利举行,该会议在国际语言资源与评测大会与计算语言学联合大会LREC-CoLing2024(//lrec-coling-2024.org/)的子会议国际古代语言处理研讨会(LT4HALA)上以线上线下结合的形式举办。

(计算语言学家冯志伟教授做特邀报告)

(李斌教授主持会议并做报告)
会议由南京师范大学教授、澳门大学客座研究员李斌主持,著名计算语言学家冯志伟教授做特邀报告并为获奖团队颁奖,LT4HALA主席意大利圣心大学的Marco Passarotti(马可·帕萨罗蒂)教授和帕尔玛大学的Rachele Sprugnoli(雷切尔·斯普鲁尼奥利)教授出席会议并致辞。南京师范大学冯敏萱、许超副教授,南京农业大学王东波教授、刘浏副教授,南理工沈思副教授,各参赛队成员等来自海内外的三十多位学者出席会议。

(LT4HALA主席Rachele Sprugnoli和Marco Passarotti教授致辞)
EvaHan是面向古汉语信息处理的系列国际评测,旨在促进古汉语资源建设和语言技术的发展,加强古汉语、计算机、人工智能、数字人文等不同学科的合作研究。2022年在法国马赛,与古拉丁语自动分析评测EvaLatin一起,举办了第一届古汉语分词与词性标注评测EvaHan2022,有十多支队伍参赛,并刷新了业界的最好成绩。2023年在中国澳门举办了第二届EvaHan评测,任务是古汉语的机器翻译,包含翻译为现代汉语和英语两个赛道,继续刷新了业界成绩。
EvaHan2024由网赌-网赌app
、语言大数据与计算人文研究中心联合南京农业大学、南京理工大学组织,由中国人工智能学会语言智能专委会主办、江苏省人工智能学会自然语言处理专委会、中国民族语言学会语言资源与计算人文专委会协办。
会议开幕式上,意大利帕尔玛大学的Rachele教授热情祝贺EvaHan的召开,肯定了这是一次很有意义的评测,EvaHan再度与古拉丁语评测EvaLatin一起举办是古代语言信息处理的大事,期待各参赛队的精彩报告。
冯志伟教授做了“为什么古籍需要自动标点:EvaHan2024”的特邀报告,列举了古希腊、古罗马的古籍,指出标点符号的缺乏问题给古籍阅读和今天的古籍开发与利用带来诸多困难,而中国古籍还有海量的文本亟待整理,自动断句和标点有着极为重要的意义。
李斌教授报告了评测的总体情况。EvaHan2024古汉语断句和标点国际评测于2024年1月8日发布训练数据,2月14日发布测试数据,2月24日公布评测结果,3月31日完成论文评审。共有17支队伍报名,6支队伍完赛,共提交了 28份结果。本次评测的任务是古汉语自动断句和标点,评测选取了11个常用的标点符号作为评测对象,以未公开的古籍文本做为测试集,包括县志、物产、书院志、佛经四种文献,标点经过古文献专家的多轮校正。而以常见出版物标点本《左传》作为参考测试集。评测提供了古文大模型“荀子”作为预训练模型,2千万字的古籍标点本作为训练数据。评测还根据是否使用外部资源,区分出开放和封闭两种测试模式。


蜜度科技股份有限公司和中国人民大学团队提交的系统在本次评测中斩获综合最佳成绩,封闭测试模式断句和标点的F值分别达到88.47 %和75.29%。其采用示例增强和解码优化相结合的策略,极大提高了大模型在古汉语断句和标点任务上的理解和解决能力。


苏州大学团队引入SikuRoBERTa-BiLSTMs-CRFs模型和字符嵌入模型,实现了语言知识与人工智能的融合。


中国电信人工智能实验室团队获得断句项目的最佳成绩,封闭测试模式断句F值达到88.86%。其构建的有监督的上下文训练(Supervised In-context Training)和字符校正与投票(Character Correction and Voting)方法,有效提高了模型性能。
评测结果表明,大型语言模型的加入能够有效提高系统对古汉语文本的处理效果,本次评测断句和标点的最高F值相较于作为Baseline 模型的荀子大语言模型高出了约10个百分点,相较于ChatGPT-3.5模型高出了约20个百分点。
经过综合评比,蜜度科技股份有限公司和中国人民大学团队获得一等奖,苏州大学团队获得二等奖,中国电信人工智能实验室团队获得三等奖。冯志伟教授、王东波教授、Marco教授为参赛队颁奖。

闭幕式上,冯志伟教授指出本次评测为古汉语自动断句和标点提供了标准化的数据集和评估指标,推动了研究领域的创新与合作,具有里程碑的意义。Marco教授认为,LT4HALA会议上EvaHan和EvaLatin再次共同举办,大大推动了古汉语和古拉丁语的信息处理水平。李斌教授总结指出,本次评测切实提高了古汉语断句和标点的水平,增进了国内外高校及参赛队伍之间的技术互通。未来,还将举办更多古汉语的国际评测,推动古籍的保护和传承创新。