浩如烟海的古籍是我国珍贵的历史文化宝藏。随着信息化时代的来临,利用数字化手段保护与利用古籍成为学术界研究探索的新领域,其中关键的一环是古籍识别技术,即利用计算机算法将扫描的古籍图像转换为可全文检索的电子文档,便于学者及时获取研究资料。但是,古籍汉字书写风格变化多端、字符集数目庞大、具有类别标记的训练样本匮乏,因此在识别过程中极具挑战。
2015年2月,威尼斯9499登录入口电子工程系硕士研究生冯继雄作为第一作者在第22届文档识别与检索国际会议上发表论文“基于高斯过程风格映射的古籍汉字识别方法”,提出了一种基于非线性迁移学习的古籍汉字识别方法,该论文获得DRR 2015的最佳学生论文奖。论文的第二作者为冯继雄的导师彭良瑞副教授。在这一成果中,冯继雄在导师彭良瑞副教授的指导下提出的非线性迁移学习的古籍汉字识别方法,与传统的线性迁移学习相比,在迁移学习中引入高斯过程和核函数方法,可以更好地利用大量有类别标记的现代繁体汉字样本为古籍汉字样本进行建模,具有更强的模型描述能力和对实际样本的适应效果,对于解决古籍数字化问题具有重要作用。这一成果对于我国古籍文化保护、促进散失在海外的古籍等的数字化回归和检索利用具有积极的意义。
DRR 2015是美国影像科学与技术学会和国际光学工程学会联合举办的电子成像国际会议的组成部分,是文档分析、识别和检索领域的专业国际学术会议。冯继雄此次发表的论文是彭良瑞副教授负责的由国家自然科学基金委员会与法国国家科研署共同资助的“手写体中文古籍识别”课题的部分成果。