当前位置: 网站首页 > 学术动态 > 正文

2020年7月25日至30日,第43届国际“信息检索研究与发展”年会(The International ACM SIGIR Conference on Research and Development in Information Retrieval,简称SIGIR)在线上顺利召开。作为CCF推荐的A类国际学术会议,SIGIR历来是互联网业内关注的焦点,会议覆盖了信息检索领域相关的各类前沿成果,包括信息储存、检索和传播等各个方面,涉及了大数据分析、人工智能、模式识别、机器学习、数学等诸多学科的内容。本次大会共收到论文投稿1180篇,共录取340篇。其中,长文投稿555篇,最终录用147篇,录用率约为26%;短文投稿507篇,最终录用152篇,录取率约为30%。在该会议发表论文表达了对作者工作的高度肯定。

来自计算机外部设备研究所团队王笛副教授、王泉教授、田玉敏教授、硕士生安亚强和电子工程学院高新波教授合作的工作《Online collective matrix factorization hashing for large-scale cross-media retrieval》被SIGIR 2020以长文形式录用,并在大会上作口头报告。该论文属于哈希跨模态检索领域。哈希跨模态检索方法通过将原始高维空间中不同模态的异质媒体数据映射为汉明空间中相同长度的紧致二进制编码,从而将不同模态数据间的相似性度量转换为二进制编码间的距离计算,弥补了跨媒体检索中的“异构鸿沟”。此外,紧致二进制编码占用存储空间小,其距离计算仅仅涉及高效的位运算。因而,基于哈希的跨媒体检索方法具有检索效率高和存储开销小的优点,得到了广泛关注。然而,现有哈希跨模态哈希方法大多为批处理方法,无法随数据增长自适应更新学习模型,并且需要消耗大量的存储和计算资源,致使检索的效率和精度难以满足实际需求。

针对此问题,论文提出在线协同矩阵分解哈希方法。该方法通过在线协同矩阵分解学习不同模态数据的公共隐含因子,通过量化公共隐含因子得到不同模态数据的统一哈希编码。与传统基于批处理模式的方法不同,该方法仅利用新数据对哈希函数进行增量式训练。同时,根据新模型生成新数据的哈希码,并且更新历史数据哈希码,无需再次利用新模型对历史数据进行映射得到哈希码,因此可以显著提高哈希跨模态检索的检索精度和学习效率。

 

在线协同矩阵分解哈希方法示例图

随着移动互联网和智能终端设备的快速发展,现实生活中的异质媒体数据以数据流的方式源源不断的增长。因此,对流式异质媒体大数据建立高效的跨媒体索引机制并实现快速查询已经成为当前海量异质媒体数据管理和分析的核心问题。该成果为不断增长的海量异质媒体数据的高效索引和快速查询提供了有效途径,具有广泛的实际应用价值。

下一篇:软件工程学科组织骨干教师参加第十八届全国软件与应用学术会议

关闭

Baidu
map