中南大学阚世超

个人简介

2021年6月毕业于北京交通大学信息科学研究所，2019年9月至2020年10月在美国密苏里大学哥伦比亚分校访学， 2021年9月入职中南大学。主要研究方向为多模态大模型，在CCF-A类国际期刊IEEE TPAMI（2023影响因子>20）和IEEE TIP（影响因子>10）以及国际主流期刊IEEE TMM、IEEE TNNLS、IEEE TCSVT等，CCF-A类国际会议NeurIPS、CVPR、ACMMM、IJCAI等，上发表论文五十余篇。主持/联合承担国家自然科学基金青年基金、湖南省自然科学基金青年基金等项目4项。曾获2022年北京图象图形学学会优秀博士学位论文奖、OpenHW 2015 开源硬件与嵌入式计算大赛全国一等奖等。担任IEEE TIP, IEEE TVCG, IEEE TMM, IEEE TNNLS, IEEE TCSVT等期刊审稿人。担任NeurIPS、CVPR、ICCV、ICML、ICLR、ACMMM、AAAI、IJCAI等会议程序委员会委员/审稿人，以及BIBM Session Chair。

欢迎具有一定编程基础，对多模态、大模型、以人工智能为主的多领域交叉感兴趣，勤奋刻苦，致力于发表高水平论文的本科生和研究生随时联系，优先欢迎有多模态大模型技术基础或者对多模态大模型感兴趣的学生。准备进入课题组的研究生最好已熟悉多模态数据处理基础技术，如自然图像、医疗图像、视频、文本、语音、遥感等，并熟练运用python和pytorch等深度学习框架编程，本科有多模态或大模型相关方面的科研经历或论文发表经历者优先。大三和大四学生想提前接触科研可随时联系，对基础不作要求，欢迎优秀本科生提前开展科研工作，发表论文或申请专利。课题组研究课题主要集中在多模态大模型（Multimodal Large Language Models）方面：1）围绕城市视觉智能开展以跨模态目标检索（Cross-Modal Object Retrieval）和开放词汇目标检索（Open Vocabulary Object Retrieval）为核心的多模态检索增强生成（Multimodal Retrieval-Augmented Generation），多模态地理信息分析（Multimodal Geographic Information Analysis），多模态视觉目标和行为分析（Multimodal Visual Object and Behavior Analysis）等研究主题；2）围绕医学影像智能开展多模态生物医学影像分析（Multimodal Biomedical Image Analysis）和多模态增量学习（Multimodal Incremental Learning）等研究主题。3）围绕工业视觉智能开展多模态工业图像缺陷分析（Multimodal Industrial Image Defect Analysis）研究主题。

课题组经费充足。招生名额有限，优先欢迎有丰富编程经验或者有论文发表经验或者学习能力强，并且致力于做好科研的学生联系。

代表论文

[J15] Jiazhi Xia, Xiangyu Zhu, Bingchuan Jiang, Shichao Kan*, Reasoning Elicitation and Multi-Granularity Contrastive Learning for Text-Rich Image Understanding in Large Vision-Language Models [J], Pattern Recognition (PR), 2025. (*Corresponding author, CCF B类期刊，自然场景图像)

[C13] Haojie Zhang, Yixiong Liang, Hulin Kuang, Lihui Cen, Zhe Qu, Yigang Cen, Min Zeng, Shichao Kan*, Contrastive Regularization over LoRA for Multimodal Biomedical Image Incremental Learning [C], ACM MM 2025. (*Corresponding author, CCF A类，医学影像)

[C12] Jing Jin, Xu Liu, Te Gao, Zhihong Shi, Yixiong Liang, Ruiqing Zheng, Hulin Kuang*, Min Zeng, Shichao Kan*, Dynamic Residual Encoding with Slide-Level Contrastive Learning for End-to-End Whole Slide Image Representation [C], ACM MM 2025. (*Corresponding authors, CCF A类，医学影像)

[C11] Guoqing Zhang, Shichao Kan, Fanghui Zhang, Wanru Xu, Yue Zhang, Yigang Cen, Noise-Guided Predicate Representation Extraction and Diffusion-Enhanced Discretization for Scene Graph Generation, Forty-second International Conference on Machine Learning (ICML 2025). (CCF A类，场景图生成)

[J14] Guoqing Zhang, Shichao Kan, Lu Shi, Wanru Xu, Gaoyun An, Yigang Cen, Cross-scene visual context parsing with large vision-language model, Pattern Recognition, 2025. (CCF B类，场景图生成)

[J13] Yuzhe Mu, Lihui Cen, Shichao Kan*, Xiaofang Chen, Enhanced-MOT: Robust Multi-Pedestrian Tracking with Enhanced IoU and Deep Features Association [J]. Signal, Image and Video Processing, 2025,19 (10), 823. (*Corresponding author, 目标跟踪)

[J12] Lu Shi, Shichao Kan, Yi Jin, Linna Zhang, Yigang Cen, Multi-modal Self-perception Enhanced Large Language Model for 3D Region-of-Interest Captioning with Limited Data [J]. IEEE Transactions on Multimedia, 2024. (CCF B类, 3D点云)

[C10] Haojie Zhang, Min Zeng, Jinfeng Ding, Yixiong Liang, Ruiqing Zheng, Zhe Qu, Hulin Kuang, Min Li, Shichao Kan*, Aligning Multimodal Biomedical Images and Language via One Large Vision-Language Model [C], IEEE International Conference on Bioinformatics and Biomedicine 2024 (IEEE BIBM 2024), 2024, (*Corresponding author, CCF B类, 医学影像)

[C9] Hulin Kuang, Suoni Liu, Haojie Zhang, Zhe Qu, Shichao Kan*, Global Contrastive Learning with High-Quality Data in Large Vision-Language Models for Pathological Question Answering [C], IEEE International Conference on Bioinformatics and Biomedicine 2024 (IEEE BIBM 2024), 2024,(*Corresponding author, CCF B类, 医学影像)

[J11] Fanghui Zhang, Haiyue Zhu, Yigang Cen, Shichao Kan, Linna Zhang, Prahlad Vadakkepat, Tong Heng Lee, Low-Shot Unsupervised Visual Anomaly Detection via Sparse Feature Representation [J], IEEE transactions on neural networks and learning systems, 2024. (缺陷检测)

[C8] Shu Wang, Zhe Qu, Yuan Liu, Shichao Kan, Yixiong Liang, and Jianxin Wang, FedMMR: Multi-Modal Federated Learning Via Missing Modality Reconstruction [C], in IEEE International Conference on Multimedia and Expo (ICME), 2024. (Best Paper Award，联邦学习)

[J10] Yuming Wu, Lihui Cen, Shichao Kan*, Yongfang Xie, Multi-Layer Capsule Network with Joint Dynamic Routing for Fire Recognition [J], Image and Vision Computing (IMAVIS), 2023. (*Corresponding author，火焰识别)

[C7] Yue Zhang, Suchen Wang, Shichao Kan, Zhenyu Weng, Yigang Cen, Yap-peng Tan, POAR: Towards Open Vocabulary Pedestrian Attribute Recognition[C], ACM MM 2023. (CCF A类, oral，行人属性识别)

[C6] Lele Lv, Qing Liu, Shichao Kan, Yixiong Liang, Confidence-Aware Contrastive Learning for Semantic Segmentation[C], ACM MM 2023. (CCF A类，语义分割)

[C5] Yifan Wu, Shichao Kan, Min Zeng, Min Li, Singularformer: Learning to Decompose Self-Attention to Linearize the Complexity of Transformer[C], The 32nd International Joint Conference on Artificial Intelligence (IJCAI-23). (CCF A类，Transformer理论)

[J9] Shichao Kan, Zhiquan He, Yigang Cen, Yang Li, Vladimir Mladenovic, Zhihai He, Contrastive Bayesian Analysis for Deep Metric Learning [J], IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023, 45(6): 7220-7238. (CCF A类，对比学习理论)

[C4] Shichao Kan, Yixiong Liang, Min Li, Yigang Cen, Jianxin Wang, Zhihai He, Coded Residual Transform for Generalizable Deep Metric Learning [C], Advances in Neural Information Processing Systems 35 (NeurIPS), 2022, 28601-28615. (CCF A类，度量学习)

[J8] Shichao Kan, Yigang Cen, Yang Li, Mladenovic Vladimir, Zhihai He, Local Semantic Correlation Modeling over Graph Neural Networks for Deep Feature Embedding and Image Retrieval [J], IEEE Transactions on Image Processing (TIP), 2022, 31:2988-3003.（CCF A类，度量学习）

[J7] Shichao Kan^#, Yue Zhang^#, Fanghui Zhang, Yigang Cen, A GAN-based input-size flexibility model for single image dehazing [J], Signal Processing: Image Communication (SPIC), 2022. （CCF C类, #co-first authors，图像去雾）

[J6] Shichao Kan, Yi Cen, Yigang Cen, Mladenovic Vladimir, Yang Li, Zhihai He, Zero-Shot Learning to Index on Semantic Trees for Scalable Image Retrieval [J], IEEE Transactions on Image Processing (TIP), 2021, 30: 501-516. (CCF A类，图像索引)

[C3] Shichao Kan, Yigang Cen, Yang Li, Vladimir Mladenovic, Zhihai He, Relative Order Analysis and Optimization for Unsupervised Deep Metric Learning [C], Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021, 13994-14003. （CCF A类，度量学习）

[C2] Yang Li, Shichao Kan, Jianhe Yuan, Wenming Cao, Zhihai He, Spatial Assembly Networks for Image Representation Learning [C], Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021, 13994-14003. （CCF A类，图像表示）

[J5] Shichao Kan, Linna Zhang, Zhihai He, Yigang Cen, Shiming Chen, Jikun Zhou, Metric learning-based kernel transformer with triplets and label constraints for feature fusion [J], Pattern Recognition (PR), 2020. (CCF B类，度量学习)

[J4] Yang Li, Shichao Kan, Wenming Cao, Zhihai He, Learned Model Composition With Critical Sample Look-Ahead for Semi-Supervised Learning on Small Sets of Labeled Samples [J], IEEE Transactions on Circuits and Systems for Video Technology (TCSVT), 2020, 9(31)3444-3445. （CCF B类，小样本学习）

[C1] Yang Li, Shichao Kan, Zhihai He, Unsupervised deep metric learning with transformed attention consistency and contrastive clustering loss [C], European Conference on Computer Vision (ECCV), 2020, 141-157. （CCF B类，度量学习）

[J3] Shichao Kan, Yigang Cen, Zhihai He, Zhi Zhang, Linna Zhang, Yanhong Wang, Supervised deep feature embedding with handcrafted feature [J], IEEE Transactions on Image Processing (TIP), 2019, 28 (12) : 5809-5823. （CCF A类，度量学习）

[J2] Shichao Kan, Lihui Cen, Xinwei Zheng, Yigang Cen, Zhenmin Zhu, Hengyou Wang, A Supervised Learning to Index Model for Approximate K-nearest Neighbor Image Retrieval [J], Signal Processing: Image Communication (SPIC), 2019, 78:494-502. （CCF C类，图像索引）

[J1] Shi-Chao Kan, Yi-Gang Cen, Yi Cen, Yan-Hong Wang, Viacheslav Voronin, Vladimir Mladenovic, Ming Zeng, SURF binarization and fast codebook construction for image retrieval [J], Journal of visual communication and image representation (JVCIR), 2017, 49:104-114. （CCF C类，图像检索）

讲授课程

算法分析与设计（48课时，春夏学期，本科生）

面向对象编程（C++，48课时，秋冬学期，本科生）

教育经历

[1] 2016.9-2021.6

北京交通大学 | 信号与信息处理 | 博士 | 博士研究生毕业

[2] 2019.9-2020.10

美国密苏里大学哥伦比亚分校 | 图像和视频处理 | 联合培养博士

[3] 2014.9-2016.6

北京交通大学 | 电子与通信工程 | 硕士 | 硕士研究生毕业

[4] 2010.9-2014.6

北京交通大学 | 计算机科学与技术 | 学士 | 大学本科毕业

工作经历

[1] 2024.10-至今

中南大学 | 计算机学院 | 副教授

[2] 2021.9-2024.9

中南大学 | 计算机学院 | 讲师

研究方向

[1] 多模态大模型、计算机视觉、机器学习、深度学习、人工智能