中南大学阚世超

个人简介

2021年6月毕业于北京交通大学信息科学研究所，2019年9月至2020年10月在美国密苏里大学哥伦比亚分校访学， 2021年9月入职中南大学。主要研究方向为多模态大模型，在CCF-A类国际期刊IEEE TPAMI和IEEE TIP以及国际主流期刊IEEE TMM、IEEE TNNLS、IEEE TCSVT等，CCF-A类国际会议NeurIPS、CVPR、ACMMM、IJCAI等，上发表论文六十余篇。主持/联合承担国家自然科学基金青年基金、湖南省自然科学基金青年基金等项目4项。曾获2022年北京图象图形学学会优秀博士学位论文奖、OpenHW 2015 开源硬件与嵌入式计算大赛全国一等奖等。担任IEEE TIP, IEEE TVCG, IEEE TMM, IEEE TNNLS, IEEE TCSVT等期刊审稿人。担任NeurIPS、CVPR、ICCV、ICML、ICLR、ACMMM、AAAI、IJCAI等会议程序委员会委员/审稿人，以及BIBM Session Chair。

欢迎具有一定编程基础，对多模态、大模型、以人工智能为主的多领域交叉感兴趣，勤奋刻苦，致力于发表高水平论文的本科生和研究生随时联系，优先欢迎有多模态大模型记忆、持续学习、强化学习等科研或工程经验的学生。准备进入课题组的研究生最好已熟悉多模态数据处理基础技术，如自然图像、医疗图像、视频、文本、遥感等，并熟练运用python和pytorch等深度学习框架编程，本科有多模态、大模型、图学习相关方面的科研经历或论文发表经历者优先（可优先学记忆系列MemGPT、A-Mem、多智能体记忆等技术，强化学习系列PPO、DPO、GRPO、DAPO、多智能体强化学习等技术，图相关系列GraphRAG、Graph of Thought、多智能体图学习等技术、持续学习相关系列如LoRA增量学习、图增量学习等技术）。本科生想提前接触科研可随时联系，对基础不作要求（优先自学上述技术后联系），欢迎优秀本科生提前进组学习、开展科研工作、发表论文、申请专利。课题组研究课题主要集中在多模态大模型（Multimodal Large Language Models）方面：1）围绕城市视觉智能开展以多模态知识抽取、多模态记忆、多模态持续学习、多模强化学习为核心的多模态推理（Multimodal Reasoning）、多模态空间智能（Multimodal Spatial Intelligence）、多模态视频分析（Multimodal Video Analysis）等研究主题；2）围绕医学影像智能开展多模态生物医学影像分析（Multimodal Biomedical Image Analysis）和多模态增量学习（Multimodal Incremental Learning）等研究主题。3）围绕工业视觉智能开展多模态工业图像缺陷分析（Multimodal Industrial Image Defect Analysis）研究主题。

课题组经费充足。招生名额有限，优先欢迎有丰富编程经验或者有论文发表经验或者学习能力强，并且致力于做好科研的学生联系。同时也招士兵计划和工程硕士。

代表论文

[J15] Jiazhi Xia, Xiangyu Zhu, Bingchuan Jiang, Shichao Kan*, Reasoning Elicitation and Multi-Granularity Contrastive Learning for Text-Rich Image Understanding in Large Vision-Language Models [J], Pattern Recognition (PR), 2025. (*Corresponding author, CCF B类期刊，自然场景图像)

[C13] Haojie Zhang, Yixiong Liang, Hulin Kuang, Lihui Cen, Zhe Qu, Yigang Cen, Min Zeng, Shichao Kan*, Contrastive Regularization over LoRA for Multimodal Biomedical Image Incremental Learning [C], ACM MM 2025. (*Corresponding author, CCF A类，医学影像)

[C12] Jing Jin, Xu Liu, Te Gao, Zhihong Shi, Yixiong Liang, Ruiqing Zheng, Hulin Kuang*, Min Zeng, Shichao Kan*, Dynamic Residual Encoding with Slide-Level Contrastive Learning for End-to-End Whole Slide Image Representation [C], ACM MM 2025. (*Corresponding authors, CCF A类，医学影像)

[C11] Guoqing Zhang, Shichao Kan, Fanghui Zhang, Wanru Xu, Yue Zhang, Yigang Cen, Noise-Guided Predicate Representation Extraction and Diffusion-Enhanced Discretization for Scene Graph Generation, Forty-second International Conference on Machine Learning (ICML 2025). (CCF A类，场景图生成)

[J14] Guoqing Zhang, Shichao Kan, Lu Shi, Wanru Xu, Gaoyun An, Yigang Cen, Cross-scene visual context parsing with large vision-language model, Pattern Recognition, 2025. (CCF B类，场景图生成)

[J13] Yuzhe Mu, Lihui Cen, Shichao Kan*, Xiaofang Chen, Enhanced-MOT: Robust Multi-Pedestrian Tracking with Enhanced IoU and Deep Features Association [J]. Signal, Image and Video Processing, 2025,19 (10), 823. (*Corresponding author, 目标跟踪)

[J12] Lu Shi, Shichao Kan, Yi Jin, Linna Zhang, Yigang Cen, Multi-modal Self-perception Enhanced Large Language Model for 3D Region-of-Interest Captioning with Limited Data [J]. IEEE Transactions on Multimedia, 2024. (CCF B类, 3D点云)

[C10] Haojie Zhang, Min Zeng, Jinfeng Ding, Yixiong Liang, Ruiqing Zheng, Zhe Qu, Hulin Kuang, Min Li, Shichao Kan*, Aligning Multimodal Biomedical Images and Language via One Large Vision-Language Model [C], IEEE International Conference on Bioinformatics and Biomedicine 2024 (IEEE BIBM 2024), 2024, (*Corresponding author, CCF B类, 医学影像)

[C9] Hulin Kuang, Suoni Liu, Haojie Zhang, Zhe Qu, Shichao Kan*, Global Contrastive Learning with High-Quality Data in Large Vision-Language Models for Pathological Question Answering [C], IEEE International Conference on Bioinformatics and Biomedicine 2024 (IEEE BIBM 2024), 2024,(*Corresponding author, CCF B类, 医学影像)

[J11] Fanghui Zhang, Haiyue Zhu, Yigang Cen, Shichao Kan, Linna Zhang, Prahlad Vadakkepat, Tong Heng Lee, Low-Shot Unsupervised Visual Anomaly Detection via Sparse Feature Representation [J], IEEE transactions on neural networks and learning systems, 2024. (缺陷检测)

[C8] Shu Wang, Zhe Qu, Yuan Liu, Shichao Kan, Yixiong Liang, and Jianxin Wang, FedMMR: Multi-Modal Federated Learning Via Missing Modality Reconstruction [C], in IEEE International Conference on Multimedia and Expo (ICME), 2024. (Best Paper Award，联邦学习)

[J10] Yuming Wu, Lihui Cen, Shichao Kan*, Yongfang Xie, Multi-Layer Capsule Network with Joint Dynamic Routing for Fire Recognition [J], Image and Vision Computing (IMAVIS), 2023. (*Corresponding author，火焰识别)

[C7] Yue Zhang, Suchen Wang, Shichao Kan, Zhenyu Weng, Yigang Cen, Yap-peng Tan, POAR: Towards Open Vocabulary Pedestrian Attribute Recognition[C], ACM MM 2023. (CCF A类, oral，行人属性识别)

[C6] Lele Lv, Qing Liu, Shichao Kan, Yixiong Liang, Confidence-Aware Contrastive Learning for Semantic Segmentation[C], ACM MM 2023. (CCF A类，语义分割)

[C5] Yifan Wu, Shichao Kan, Min Zeng, Min Li, Singularformer: Learning to Decompose Self-Attention to Linearize the Complexity of Transformer[C], The 32nd International Joint Conference on Artificial Intelligence (IJCAI-23). (CCF A类，Transformer理论)

[J9] Shichao Kan, Zhiquan He, Yigang Cen, Yang Li, Vladimir Mladenovic, Zhihai He, Contrastive Bayesian Analysis for Deep Metric Learning [J], IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023, 45(6): 7220-7238. (CCF A类，对比学习理论)

[C4] Shichao Kan, Yixiong Liang, Min Li, Yigang Cen, Jianxin Wang, Zhihai He, Coded Residual Transform for Generalizable Deep Metric Learning [C], Advances in Neural Information Processing Systems 35 (NeurIPS), 2022, 28601-28615. (CCF A类，度量学习)

[J8] Shichao Kan, Yigang Cen, Yang Li, Mladenovic Vladimir, Zhihai He, Local Semantic Correlation Modeling over Graph Neural Networks for Deep Feature Embedding and Image Retrieval [J], IEEE Transactions on Image Processing (TIP), 2022, 31:2988-3003.（CCF A类，度量学习）

[J7] Shichao Kan^#, Yue Zhang^#, Fanghui Zhang, Yigang Cen, A GAN-based input-size flexibility model for single image dehazing [J], Signal Processing: Image Communication (SPIC), 2022. （CCF C类, #co-first authors，图像去雾）

[J6] Shichao Kan, Yi Cen, Yigang Cen, Mladenovic Vladimir, Yang Li, Zhihai He, Zero-Shot Learning to Index on Semantic Trees for Scalable Image Retrieval [J], IEEE Transactions on Image Processing (TIP), 2021, 30: 501-516. (CCF A类，图像索引)

[C3] Shichao Kan, Yigang Cen, Yang Li, Vladimir Mladenovic, Zhihai He, Relative Order Analysis and Optimization for Unsupervised Deep Metric Learning [C], Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021, 13994-14003. （CCF A类，度量学习）

[C2] Yang Li, Shichao Kan, Jianhe Yuan, Wenming Cao, Zhihai He, Spatial Assembly Networks for Image Representation Learning [C], Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021, 13994-14003. （CCF A类，图像表示）

[J5] Shichao Kan, Linna Zhang, Zhihai He, Yigang Cen, Shiming Chen, Jikun Zhou, Metric learning-based kernel transformer with triplets and label constraints for feature fusion [J], Pattern Recognition (PR), 2020. (CCF B类，度量学习)

[J4] Yang Li, Shichao Kan, Wenming Cao, Zhihai He, Learned Model Composition With Critical Sample Look-Ahead for Semi-Supervised Learning on Small Sets of Labeled Samples [J], IEEE Transactions on Circuits and Systems for Video Technology (TCSVT), 2020, 9(31)3444-3445. （CCF B类，小样本学习）

[C1] Yang Li, Shichao Kan, Zhihai He, Unsupervised deep metric learning with transformed attention consistency and contrastive clustering loss [C], European Conference on Computer Vision (ECCV), 2020, 141-157. （CCF B类，度量学习）

[J3] Shichao Kan, Yigang Cen, Zhihai He, Zhi Zhang, Linna Zhang, Yanhong Wang, Supervised deep feature embedding with handcrafted feature [J], IEEE Transactions on Image Processing (TIP), 2019, 28 (12) : 5809-5823. （CCF A类，度量学习）

[J2] Shichao Kan, Lihui Cen, Xinwei Zheng, Yigang Cen, Zhenmin Zhu, Hengyou Wang, A Supervised Learning to Index Model for Approximate K-nearest Neighbor Image Retrieval [J], Signal Processing: Image Communication (SPIC), 2019, 78:494-502. （CCF C类，图像索引）

[J1] Shi-Chao Kan, Yi-Gang Cen, Yi Cen, Yan-Hong Wang, Viacheslav Voronin, Vladimir Mladenovic, Ming Zeng, SURF binarization and fast codebook construction for image retrieval [J], Journal of visual communication and image representation (JVCIR), 2017, 49:104-114. （CCF C类，图像检索）

讲授课程

算法分析与设计（48课时，春夏学期，本科生）

面向对象编程（C++，48课时，秋冬学期，本科生）

教育经历

[1] 2016.9-2021.6

北京交通大学 | 信号与信息处理 | 博士 | 博士研究生毕业

[2] 2019.9-2020.10

美国密苏里大学哥伦比亚分校 | 图像和视频处理 | 联合培养博士

[3] 2014.9-2016.6

北京交通大学 | 电子与通信工程 | 硕士 | 硕士研究生毕业

[4] 2010.9-2014.6

北京交通大学 | 计算机科学与技术 | 学士 | 大学本科毕业

工作经历

[1] 2024.10-至今

中南大学 | 计算机学院 | 副教授

[2] 2021.9-2024.9

中南大学 | 计算机学院 | 讲师

研究方向

[1] 多模态大模型、计算机视觉、机器学习、深度学习、人工智能