课题组主要围绕多模态大模型(Multimodal Large Language Models)开展系统性研究,重点关注模型在复杂开放环境中的跨模态理解、推理与持续演化能力。整体研究以“多模态认知与智能体”为核心,融合多模态知识抽取、多模态记忆与持续学习、多模态强化学习以及结构化推理等关键技术,致力于构建具备长期记忆能力、跨模态推理能力与自主决策能力的新一代多模态智能系统。在研究方向上,课题组形成了三个相互支撑的应用方向:一是城市视觉智能,面向开放世界的多源异构数据(图像、视频、文本等),重点研究多模态知识建模、多模态记忆机制、多模态强化学习,以及多模态推理、多模态空间智能与视频理解等问题,推动模型实现感知—理解—推理一体化;二是医学影像智能,围绕医学影像(CT、MRI、超声及病理图像)与文本报告的统一建模,重点开展多模态生物医学影像分析、多模态增量学习与跨模态诊断推理研究,提升模型在复杂医疗场景中的泛化能力与可靠性;三是工业视觉智能,面向真实工业环境中的复杂缺陷检测与异常分析任务,研究多模态工业图像理解、多源信息融合与跨设备自适应方法,增强模型在实际应用中的鲁棒性与迁移能力。在关键技术层面,课题组重点布局多模态大模型相关的前沿方法,包括基于记忆增强与多智能体的建模方法(如OpenMemory、Memary、Graphiti及多智能体记忆机制)、基于强化学习的对齐与决策优化方法(如PPO、DPO、GRPO、DAPO及多智能体强化学习)、以及基于图结构的推理与知识组织方法(如Graph of Thought、多智能体图学习等),并结合参数高效微调与持续学习技术(如LoRA增量学习、图增量学习等),探索多模态大模型在动态环境中的持续学习与能力演化。

