Language : English
阚世超

Research Focus

多模态大模型、计算机视觉、机器学习、深度学习、人工智能

本课题组长期聚焦于多模态大模型、计算机视觉、机器学习、深度学习与人工智能等前沿方向,研究目标是让机器能够同时理解图像、视频、文本、医学影像、遥感影像与工业图像等多源异构数据,并在此基础上具具备跨模态的推理能力、可持续学习的记忆机制、适应开放世界场景变化的泛化能力,以及面向具体应用任务的决策与规划能力。我们希望构建能够真正“理解世界”的智能系统,而不仅仅是执行模式匹配或单模态识别。为此,我们围绕多模态表示学习、跨模态对齐、对比学习、知识抽取、图结构建模、记忆增强模型、强化学习和多智能体协作等关键技术开展系统研究,并结合参数高效微调、增量学习、小样本/零样本学习等机制,探索大模型如何在真实复杂场景下稳定地理解与吸收新知识。


在城市视觉智能方向,我们重点探索模型如何在开放世界、多视角、多模态的信息环境中完成高层次推理任务,包括融合图像、视频与文本进行场景理解、事件分析、跨视角定位、多模态空间推断以及多模态视频理解等,使其具备感知—理解—推理一体化的综合能力。在医学影像智能方向,我们将 CT/MRI/超声/病理图像与医学文本报告进行统一建模,研究多模态医学影像分析、跨模态问答与诊断推理、医学场景的增量学习与跨设备泛化等难题,以推动更安全可靠的智能诊断系统发展。在工业视觉智能方向,我们关注工业图像缺陷检测、多模态异常分析以及跨设备适应性等问题,使大模型能够结合图像、传感器数据与文本记录完成复杂工业场景的智能识别与决策。


为实现这些目标,我们引入多模态大模型与记忆增强技术(如 MemoryBank、MemGPT、A-Mem、多智能体记忆系统),强化学习(如 PPO、DPO、GRPO、DAPO、NGRPO、AR3PO 及多智能体强化学习框架),以及图智能技术(如 GraphRAG、Graph of Thought、多智能体图学习与图增量学习),并研究 LoRA 及其衍生的增量适配技术,以构建可持续迭代、可主动学习的多模态智能体。通过结合生成模型、检索增强、图结构推理与多模态统一建模,本课题组致力于构建具有强大表示能力、记忆能力、推理能力与跨场景迁移能力的下一代多模态大模型体系。