中南大学阚世超

个人简介

2021年6月毕业于北京交通大学信息科学研究所，2019年9月至2020年10月在美国密苏里大学哥伦比亚分校访学，2021年9月入职中南大学，主要研究方向为多模态大模型。近年来在国际高水平期刊和会议上发表论文六十余篇，其中包括CCF-A类期刊IEEE TPAMI、IEEE TIP、IEEE TMM，以及IEEE TNNLS、IEEE TCSVT等主流期刊，并在CCF-A类国际会议ICML、CVPR、ACMMM等发表多篇论文。主持或联合承担国家自然科学基金青年基金、湖南省自然科学基金青年基金等科研项目4项，曾获2022年北京图象图形学学会优秀博士学位论文奖、OpenHW 2015开源硬件与嵌入式计算大赛全国一等奖等奖励。在学术服务方面，担任IEEE TIP、IEEE TVCG、IEEE TMM、IEEE TNNLS、IEEE TCSVT等期刊审稿人，以及CVPR、ICCV、ICML、ICLR、ACMMM、AAAI等国际会议程序委员会委员或审稿人，并担任BIBM Session Chair。

课题组主要围绕多模态大模型（Multimodal Large Language Models）开展研究，重点包括三个方向：一是城市视觉智能，聚焦多模态知识抽取、多模态记忆与持续学习、多模态强化学习，以及多模态推理、多模态空间智能和多模态视频分析等问题；二是医学影像智能，重点研究多模态生物医学影像分析与多模态增量学习；三是工业视觉智能，主要开展多模态工业图像缺陷分析相关研究。欢迎具有一定编程基础、对多模态大模型及人工智能交叉研究感兴趣的本科生和研究生加入课题组。期待你具备良好的科研兴趣与自驱力，愿意深入开展研究并产出高水平成果。优先考虑在多模态大模型相关方向（如记忆机制、持续学习、强化学习等）具备科研或工程经验的同学，具备Python编程能力并熟练使用大模型编程框架者更佳。建议准备进入课题组的研究生已掌握多模态数据处理的基础技术，包括自然图像、视频、文本、遥感及医学影像等，并具备扎实的机器学习与多模态大模型基础。在具体技术上，课题组研究涉及多模态大模型相关的多个前沿研究技术，包括记忆与智能体技术（如OpenMemory、Memary、Graphiti、多智能体记忆等）、强化学习技术（如PPO、DPO、GRPO、DAPO及多智能体强化学习等）、图与推理技术（如Graph of Thought、多智能体图学习等）以及持续学习技术（如LoRA增量学习、图增量学习等），这些技术也是具身智能必备的核心技术之一，也欢迎有具身智能开发或者研究基础的同学联系。本科生如希望提前参与科研，可随时联系，原则上不设严格基础要求，但建议具备一定自学能力并提前了解相关方向；表现优秀者可参与科研项目，开展论文发表与专利申请等工作。

课题组科研经费充足，具备良好的研究条件。招生名额有限，优先考虑具有扎实编程基础、论文发表经验或较强学习能力，并有志于从事高水平科研工作的学生。同时，课题组也招收士兵计划及工程硕士研究生。

代表论文

[C14] Yunzhe Liu, Wenbiao Liu, Lihui Cen, Zhe Qu, Yigang Cen, Yixiong Liang, Yongfang Xie, Shichao Kan*, HSGG: Training-Free Hierarchical Scene Graph Generation with Geometry-Guided Relation Reasoning [C], Forty-third International Conference on Machine Learning (ICML 2026). (*Corresponding author, CCF A类，accept, 场景图生成)

[J17] Peifu Wang, Yixiong Liang, Yigang Cen, Lihui Cen, Zhe Qu, Jingling Liu*, Shichao Kan*, Integrating spatial features and dynamically learned temporal features via contrastive learning for video temporal grounding in LLM [J], Image and Vision Computing, 2026. (*Corresponding author, 视频分析)

[J16] Jie Wang, Haiwei Deng, Shichao Kan*, Jiawei Xu, Multi-level Contrastive Learning with Graph Convolutional Network for Multi-View Clustering [J], Expert Systems with Applications, 2025. (*Corresponding author, 多视图聚类)

[J15] Jiazhi Xia, Xiangyu Zhu, Bingchuan Jiang, Shichao Kan*, Reasoning Elicitation and Multi-Granularity Contrastive Learning for Text-Rich Image Understanding in Large Vision-Language Models [J], Pattern Recognition (PR), 2025. (*Corresponding author, CCF B类期刊，自然场景图像)

[C13] Haojie Zhang, Yixiong Liang, Hulin Kuang, Lihui Cen, Zhe Qu, Yigang Cen, Min Zeng, Shichao Kan*, Contrastive Regularization over LoRA for Multimodal Biomedical Image Incremental Learning [C], ACM MM 2025. (*Corresponding author, CCF A类，医学影像)

[C12] Jing Jin, Xu Liu, Te Gao, Zhihong Shi, Yixiong Liang, Ruiqing Zheng, Hulin Kuang*, Min Zeng, Shichao Kan*, Dynamic Residual Encoding with Slide-Level Contrastive Learning for End-to-End Whole Slide Image Representation [C], ACM MM 2025. (*Corresponding authors, CCF A类，医学影像)

[C11] Guoqing Zhang, Shichao Kan, Fanghui Zhang, Wanru Xu, Yue Zhang, Yigang Cen, Noise-Guided Predicate Representation Extraction and Diffusion-Enhanced Discretization for Scene Graph Generation [C], Forty-second International Conference on Machine Learning (ICML 2025). (CCF A类，场景图生成)

[J14] Guoqing Zhang, Shichao Kan, Lu Shi, Wanru Xu, Gaoyun An, Yigang Cen, Cross-scene visual context parsing with large vision-language model, Pattern Recognition, 2025. (CCF B类，场景图生成)

[J13] Yuzhe Mu, Lihui Cen, Shichao Kan*, Xiaofang Chen, Enhanced-MOT: Robust Multi-Pedestrian Tracking with Enhanced IoU and Deep Features Association [J]. Signal, Image and Video Processing, 2025,19 (10), 823. (*Corresponding author, 目标跟踪)

[J12] Lu Shi, Shichao Kan, Yi Jin, Linna Zhang, Yigang Cen, Multi-modal Self-perception Enhanced Large Language Model for 3D Region-of-Interest Captioning with Limited Data [J]. IEEE Transactions on Multimedia, 2024. (CCF B类, 3D点云)

[C10] Haojie Zhang, Min Zeng, Jinfeng Ding, Yixiong Liang, Ruiqing Zheng, Zhe Qu, Hulin Kuang, Min Li, Shichao Kan*, Aligning Multimodal Biomedical Images and Language via One Large Vision-Language Model [C], IEEE International Conference on Bioinformatics and Biomedicine 2024 (IEEE BIBM 2024), 2024, (*Corresponding author, CCF B类, 医学影像)

[C9] Hulin Kuang, Suoni Liu, Haojie Zhang, Zhe Qu, Shichao Kan*, Global Contrastive Learning with High-Quality Data in Large Vision-Language Models for Pathological Question Answering [C], IEEE International Conference on Bioinformatics and Biomedicine 2024 (IEEE BIBM 2024), 2024,(*Corresponding author, CCF B类, 医学影像)

[J11] Fanghui Zhang, Haiyue Zhu, Yigang Cen, Shichao Kan, Linna Zhang, Prahlad Vadakkepat, Tong Heng Lee, Low-Shot Unsupervised Visual Anomaly Detection via Sparse Feature Representation [J], IEEE transactions on neural networks and learning systems, 2024. (缺陷检测)

[C8] Shu Wang, Zhe Qu, Yuan Liu, Shichao Kan, Yixiong Liang, and Jianxin Wang, FedMMR: Multi-Modal Federated Learning Via Missing Modality Reconstruction [C], in IEEE International Conference on Multimedia and Expo (ICME), 2024. (Best Paper Award，联邦学习)

[J10] Yuming Wu, Lihui Cen, Shichao Kan*, Yongfang Xie, Multi-Layer Capsule Network with Joint Dynamic Routing for Fire Recognition [J], Image and Vision Computing (IMAVIS), 2023. (*Corresponding author，火焰识别)

[C7] Yue Zhang, Suchen Wang, Shichao Kan, Zhenyu Weng, Yigang Cen, Yap-peng Tan, POAR: Towards Open Vocabulary Pedestrian Attribute Recognition[C], ACM MM 2023. (CCF A类, oral，行人属性识别)

[C6] Lele Lv, Qing Liu, Shichao Kan, Yixiong Liang, Confidence-Aware Contrastive Learning for Semantic Segmentation[C], ACM MM 2023. (CCF A类，语义分割)

[C5] Yifan Wu, Shichao Kan, Min Zeng, Min Li, Singularformer: Learning to Decompose Self-Attention to Linearize the Complexity of Transformer[C], The 32nd International Joint Conference on Artificial Intelligence (IJCAI-23). (Transformer理论)

[J9] Shichao Kan, Zhiquan He, Yigang Cen, Yang Li, Vladimir Mladenovic, Zhihai He, Contrastive Bayesian Analysis for Deep Metric Learning [J], IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023, 45(6): 7220-7238. (CCF A类，对比学习理论)

[C4] Shichao Kan, Yixiong Liang, Min Li, Yigang Cen, Jianxin Wang, Zhihai He, Coded Residual Transform for Generalizable Deep Metric Learning [C], Advances in Neural Information Processing Systems 35 (NeurIPS), 2022, 28601-28615. (度量学习)

[J8] Shichao Kan, Yigang Cen, Yang Li, Mladenovic Vladimir, Zhihai He, Local Semantic Correlation Modeling over Graph Neural Networks for Deep Feature Embedding and Image Retrieval [J], IEEE Transactions on Image Processing (TIP), 2022, 31:2988-3003.（CCF A类，度量学习）

[J7] Shichao Kan^#, Yue Zhang^#, Fanghui Zhang, Yigang Cen, A GAN-based input-size flexibility model for single image dehazing [J], Signal Processing: Image Communication (SPIC), 2022. （CCF C类, #co-first authors，图像去雾）

[J6] Shichao Kan, Yi Cen, Yigang Cen, Mladenovic Vladimir, Yang Li, Zhihai He, Zero-Shot Learning to Index on Semantic Trees for Scalable Image Retrieval [J], IEEE Transactions on Image Processing (TIP), 2021, 30: 501-516. (CCF A类，图像索引)

[C3] Shichao Kan, Yigang Cen, Yang Li, Vladimir Mladenovic, Zhihai He, Relative Order Analysis and Optimization for Unsupervised Deep Metric Learning [C], Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021, 13994-14003. （CCF A类，度量学习）

[C2] Yang Li, Shichao Kan, Jianhe Yuan, Wenming Cao, Zhihai He, Spatial Assembly Networks for Image Representation Learning [C], Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021, 13994-14003. （CCF A类，图像表示）

[J5] Shichao Kan, Linna Zhang, Zhihai He, Yigang Cen, Shiming Chen, Jikun Zhou, Metric learning-based kernel transformer with triplets and label constraints for feature fusion [J], Pattern Recognition (PR), 2020. (CCF B类，度量学习)

[J4] Yang Li, Shichao Kan, Wenming Cao, Zhihai He, Learned Model Composition With Critical Sample Look-Ahead for Semi-Supervised Learning on Small Sets of Labeled Samples [J], IEEE Transactions on Circuits and Systems for Video Technology (TCSVT), 2020, 9(31)3444-3445. （CCF B类，小样本学习）

[C1] Yang Li, Shichao Kan, Zhihai He, Unsupervised deep metric learning with transformed attention consistency and contrastive clustering loss [C], European Conference on Computer Vision (ECCV), 2020, 141-157. （CCF B类，度量学习）

[J3] Shichao Kan, Yigang Cen, Zhihai He, Zhi Zhang, Linna Zhang, Yanhong Wang, Supervised deep feature embedding with handcrafted feature [J], IEEE Transactions on Image Processing (TIP), 2019, 28 (12) : 5809-5823. （CCF A类，度量学习）

[J2] Shichao Kan, Lihui Cen, Xinwei Zheng, Yigang Cen, Zhenmin Zhu, Hengyou Wang, A Supervised Learning to Index Model for Approximate K-nearest Neighbor Image Retrieval [J], Signal Processing: Image Communication (SPIC), 2019, 78:494-502. （CCF C类，图像索引）

[J1] Shi-Chao Kan, Yi-Gang Cen, Yi Cen, Yan-Hong Wang, Viacheslav Voronin, Vladimir Mladenovic, Ming Zeng, SURF binarization and fast codebook construction for image retrieval [J], Journal of visual communication and image representation (JVCIR), 2017, 49:104-114. （CCF C类，图像检索）

讲授课程

算法分析与设计（48课时，春夏学期，本科生）

面向对象编程（C++，48课时，秋冬学期，本科生）

教育经历

[1] 2016.9-2021.6

北京交通大学 | 信号与信息处理 | 博士 | 博士研究生毕业

[2] 2019.9-2020.10

美国密苏里大学哥伦比亚分校 | 图像和视频处理 | 联合培养博士

[3] 2014.9-2016.6

北京交通大学 | 电子与通信工程 | 硕士 | 硕士研究生毕业

[4] 2010.9-2014.6

北京交通大学 | 计算机科学与技术 | 学士 | 大学本科毕业

工作经历

[1] 2024.10-至今

中南大学 | 计算机学院 | 副教授

[2] 2021.9-2024.9

中南大学 | 计算机学院 | 讲师

研究方向

[1] 新一代多模态智能系统