中南大学 kanshichao

课题组主要围绕多模态大模型（Multimodal Large Language Models）开展系统性研究，重点关注模型在复杂开放环境中的跨模态理解、推理与持续演化能力。整体研究以“多模态认知与智能体”为核心，融合多模态知识抽取、多模态记忆与持续学习、多模态强化学习以及结构化推理等关键技术，致力于构建具备长期记忆能力、跨模态推理能力与自主决策能力的新一代多模态智能系统。在研究方向上，课题组形成了三个相互支撑的应用方向：一是城市视觉智能，面向开放世界的多源异构数据（图像、视频、文本等），重点研究多模态知识建模、多模态记忆机制、多模态强化学习，以及多模态推理、多模态空间智能与视频理解等问题，推动模型实现感知—理解—推理一体化；二是医学影像智能，围绕医学影像（CT、MRI、超声及病理图像）与文本报告的统一建模，重点开展多模态生物医学影像分析、多模态增量学习与跨模态诊断推理研究，提升模型在复杂医疗场景中的泛化能力与可靠性；三是工业视觉智能，面向真实工业环境中的复杂缺陷检测与异常分析任务，研究多模态工业图像理解、多源信息融合与跨设备自适应方法，增强模型在实际应用中的鲁棒性与迁移能力。在关键技术层面，课题组重点布局多模态大模型相关的前沿方法，包括基于记忆增强与多智能体的建模方法（如OpenMemory、Memary、Graphiti及多智能体记忆机制）、基于强化学习的对齐与决策优化方法（如PPO、DPO、GRPO、DAPO及多智能体强化学习）、以及基于图结构的推理与知识组织方法（如Graph of Thought、多智能体图学习等），并结合参数高效微调与持续学习技术（如LoRA增量学习、图增量学习等），探索多模态大模型在动态环境中的持续学习与能力演化。

Research Interests

新一代多模态智能系统