近期,我校-南洋理工大学人工智能国际联合研究院(简称C-FAIR)师生在人工智能理论及应用、“人工智能+”多学科交叉领域取得进展,多篇论文分别被人工智能领域著名会议AAAI(The Association for Advancement of Artificial Intelligence)、国际人工智能联合会议IJCAI(International Joint Conference on Artificial Intelligence)、数据挖掘领域著名会议ICDM(IEEE International Conference on Data Mining)和期刊IEEE TKDE(IEEE Transactions on Knowledge and Data Engineering)、IEEETNNLS(IEEE Transactions on Neural Networks and Learning Systems)、Bioinformatics、IEEE TNSRE(IEEE Transactions on Neural Systems and Rehabilitation Engineering)等录用。
1.论文“Utility Maximizer or Value Maximizer: Mechanism Design for Mixed Bidders in Online Advertising”以博士后吕洪涛为第一作者,针对数字广告系统中效用最大化广告主和价值最大化广告主并存的混合场景,提出了一种新颖的广告拍卖机制,该机制巧妙结合了广告拍卖中经典的VCG和GSP机制中的扣费规则。该拍卖机制在社会福利上能够实现2的近似比,同时,论文还证明了该问题的近似比下界至少为5/4。论文所设计的拍卖机制是针对效用最大化广告主的VCG机制和针对价值最大化广告主的GSP机制的一般化,为实际广告系统中针对复杂异质广告主的拍卖机制设计提供了重要的参考意义。
2.论文“MMTN: Multi-modal Memory Transformer Network for Image-Report Consistent Medical Report Generation”以博士研究生曹益铭为第一作者、崔立真教授为通讯作者,提出了一个多模态记忆Transformer网络(MMTN),以处理多模态医学数据(即医学图像、医学术语知识和医学报告文本),从而生成图文一致的医学报告。MMTN通过设计一个新颖的编码器来关联和记忆医学图像和术语之间的关系,减少图像-报告不一致的发生。此外,MMTN在单词预测前学习了多模态特征的贡献,并通过利用多模态医学数据的跨模态互补性进一步提高了医学报告的准确性和一致性。MMTN在自动评估指标和人工评估上相比于SOTA方法都取得了提升。
MMTN框架图
3.论文“MHCCL: Masked Hierarchical Cluster-wise Contrastive Learning for Multivariate Time Series”以博士研究生孟倩雯为第一作者、徐庸辉教授为通讯作者,提出了一个针对时间序列的掩蔽式分层聚类对比学习模型(MHCCL)。受到细粒度聚类能够保留更高的纯度,而粗粒度聚类能够反映更高层次语义的启发,MHCCL将层次聚类结构中存储的多级语义信息融入对比学习,来挖掘多变量时间序列的潜在表示。MHCCL提出了一种新颖的双向掩蔽策略:向下掩蔽策略通过纳入聚类层次结构中蕴含的多粒度信息来过滤伪负样本并补充正样本,以改善对比学习过程;向上掩蔽策略则通过去除每层聚类分区中的离群点来改善原型(集群中心点),以加快分层聚类过程,并提升聚类结果的质量。实验结果表明,所提出的MHCCL在无监督时间序列表示学习任务中相比于SOTA方法更具优势。
MHCCL方法框架图
4.论文“Incentive-boosted Federated Crowdsourcing”以硕士研究生康祥平为第一作者、余国先教授为通讯作者,提出一种用于保障众包项目隐私和质量的联邦众包方法iFedCrowd。该方法让参与者在本地处理敏感数据,只上传加密的客户端模型,然后聚合模型参数以构建共享的服务器模型,从而保护数据隐私。引入激励机制,鼓励工人不断收集新鲜的数据以训练精准的客户端模型,并加速服务器模型的训练。论文将众包平台和参与工人之间的交互建模为斯塔克伯格博弈,每一方都最大化自己的收益,并推导出博弈中的纳什均衡,为双方找到最优解。实验结果表明,iFedCrowd能够高质高效地完成具有隐私保护能力的众包项目。
iFedCrowd方法框架图
5.论文“Reinforcement Causal Structure Learning on Order Graph”以硕士研究生杨德智为第一作者、王峻教授为通讯作者,针对因果结构发现中数据质量和因果图不可识别等因素无法精确推断有向无环图(DAG)的问题,提出了一种因果结构强化学习(RCL-OG)方法。该方法使用顺序图替换马尔可夫蒙特卡洛(MCMC)来建模DAG拓扑排序,从而减少问题规模。RCL-OG定义了新的强化学习奖励机制从而有效的近似排序空间的后验分布,并使奖励在顺序图节点之间传递和更新。然后,它利用节点之间的概率转移模型计算排序的后验概率,并采样高概率的因果图拓扑排序。实验表明,RCL-OG提供了精确的后验概率近似,相比于其他因果发现算法取得了更好的结果。
RCL-OG方法框架图
6.论文“Long-tail Cross Modal Hashing”以本科生高子俊为第一作者、王峻教授为通讯作者,聚焦标签与多模态数据间的个性、共性信息之间的复杂相互作用,针对传统长尾哈希算法不适用于多模态数据,容易覆盖各自模态的尾部标签等难题,提出了长尾跨模态哈希学习框架LtCMH。LtCMH首先用自编码器挖掘不同模态的个性和共性,随后动态地将个性、共性与从各自的模态中提取的直接特征结合起来创建元特征,用以丰富尾部标签表示,最后二值化元特征生成哈希码。实验表明LtCMH可以显著提高模型在长尾数据集上的检索性能。
LtCMH方法框架图
7.论文“Enhancing Sequential Recommendation with Graph Contrastive Learning”以博士研究生张艺馨为第一作者、崔立真教授为通讯作者,针对序列推荐中仅利用下一项预测目标学习单个交互序列的局部性问题,提出了一种基于图对比学习的序列推荐框架。方法使用所有可观测的用户交互序列构建带权项目跳转图,为每个交互提供全局的上下文信息,削弱噪声干扰,增强交互序列。方法优于目前先进的普遍序列推荐方法。
GCL4SR方法框架图
8.论文“Few-shot Partial Multi-label Learning with Data Augmentation”,以本科生孙一凡为第一作者、闫中敏副教授为通讯作者,针对样本数不足且标签含噪情况下的多标签分类问题,提出小样本偏标记学习方法FsPML-DA。该方法充分利用有限样本之间的特征相似度、语义相似度以及标签共现性,获取样本标签的置信度,再以置信度作为软标签,在特征空间上选择性地突出置信度更高的类别特征,进行样本合成增广。最后利用原始样本和合成样本训练出具有噪声鲁棒性的多标签分类网络。FsPML-DA相比其他PML方法与少样本方法在多个评价指标上均得到了显著提升。
FsPML-DA方法框架图
9.论文“A Diversified Attention Model for Interpretable Multiple Clusterings” 以博士研究生任良瑞为第一作者、余国先教授为通讯作者,针对现有多聚类算法在聚类空间的质量和显著性保障难、多聚类结果缺乏可解释性等难题,提出了一种可解释的多聚类解决方案iMClusts。iMClusts利用深度自编码器和多头注意力机制生成多个非线性子空间,通过最小化子空间之间的依赖性来减少子空间之间的冗余。此外,iMClusts利用多方面先验知识作为弱监督信息来提高子空间的显著性,并进一步增强多聚类结果的多样性、质量和可解释性。
iMClusts方法框架图
10.论文“HealthNet: A Health Progression Network via Heterogeneous Medical Information Fusion”,以博士研究生于福强和崔立真教授为共同第一作者、徐庸辉教授为通讯作者,针对现有方法对病人健康特征之间的异构依赖关系挖掘不够深入、健康演化模式的提取粒度不够精细、缺乏精准推断病人未来健康状态的能力等难题,提出了一个基于预训练的健康进展网络HealthNet。具体而言,HealthNet建立了一个全局异质图,用于整合异质医疗实体以及它们之间的复杂依赖关系;设计了分层医疗事件序列模型,用于捕捉病人健康的细粒度演化模式。实验结果表明,HealthNet在疾病预测任务和死亡风险预测任务上都优于最先进的模型。
HealthNet框架图
11.论文“Lung Cancer Subtype Diagnosis using Weakly-paired Multi-omics Data”,以硕士研究生王星泽为第一作者、余国先教授为通讯作者,针对肺癌亚型诊断中多组学数据样本不匹配且模型可解释性差的难题,提出解决方法LungDWM。该方法利用基于注意力的特征编码器提取多组学数据的共性和个性特征,通过生成对抗学习从可用组学数据中生成缺失的组学数据,并通过融合真实数据和生成数据特征来进行肺癌亚型诊断。LungDWM能够比最先进的方法更准确地进行癌症亚型诊断且具有良好可解释性。
LungDWM方法框架图
12.论文“The Effects of A Virtual Reality Rehabilitation Task on Elderly Subjects: An Experimental Study Using Multimodal Data”以本科生曲静为第一作者、卜令国教授为通讯作者,针对缓解人口老龄化带来的多重压力的问题,使用虚拟现实(VR)技术为受试者构建了沉浸式的互动虚拟环境,并提出了一种多模态数据融合评估方法。使用独立成分分析(ICA)将多元信号进行分离,有效去除脑电(EEG)数据伪影。对EEG原始数据进行滤波后提取出alpha与beta波段,使用希尔伯特变换计算信号的瞬时相位,进而计算出功能连接指标-锁相值(PLV)来测量脑区信号之间的依赖程度。使用Kinect设备记录受试者行为信息,基于运动学公式提取出八种指标衡量运动能力。本研究提出的多模态数据融合评估方法可以精准量化脑功能水平,为康复产品的设计提供数据支撑。
脑功能数据连接图
AAAI是人工智能领域著名会议之一,覆盖机器学习、计算机视觉、自然语言处理等众多研究方向,现为中国计算机学会(CCF)推荐的A类国际学术会议。
IJCAI是人工智能领域中中最主要的学术会议之一,涵盖机器学习、深度学习、计算机视觉、自然语言处理、语音技术等内容,现为CCF推荐的A类国际学术会议。
ICDM是数据挖掘领域著名会议,涵盖了数据挖掘的所有方面,包括算法、软件、系统和应用程序等,现为CCF推荐的B类国际学术会议。
IEEE TKDE是数据挖掘和知识发现领域的著名期刊,主要刊登知识发现和数据挖掘、数据库和数据建模、并行分布式数据管理系统等领域的最新研究进展和技术,现为CCF推荐的A类国际期刊,最新影响因子9.235。
IEEE TNNLS是神经网络和学习系统方面的旗舰期刊,主要刊发神经网络及其学习系统的最新研究成果,现为CCF B类国际期刊,也是中科院分区1区Top期刊,最新影响因子14.255。
Bioinformatics是生物信息学领域的旗舰刊物,主要刊发基因组生物信息学、计算生物学、人工智能与生物大数据分析交叉的最新进展。现为CCF B类国际期刊,也是中科院分区2区Top期刊,最新影响因子6.931。
IEEE TNSRE是神经系统与康复工程领域的旗舰刊物,主要刊发脑机接口、智能康复技术、人工智能与康复数据分析交叉的最新进展。现为中科院分区2区Top期刊,最新影响因子4.528。
(文/图:郭伟 编辑:鹿旭东)