阚世超

讲师 硕士生导师

所在单位:计算机学院

学历:博士研究生毕业

办公地点:新校区信息楼429

联系方式:kanshichao@csu.edu.cn

学位:工学博士学位

在职信息:在职

毕业院校:北京交通大学

学科:计算机科学与技术

研究方向

当前位置: 中文主页 >>研究方向

多模态大模型、计算机视觉、机器学习、深度学习、人工智能

       当前深度学习正处于多向发展的状态,包括探索与传统基础技术的有效结合、探索更完美的理论解释、探索和设计更具有突破性的网络模块、探索多学科交叉的应用等。在发展的浪潮之下,深度学习不仅是计算机相关专业的基础技术,也逐渐演变为了各个学科的基础技术。对计算机视觉、机器学习、深度学习和人工智能技术的研究,能充实个人在成长中的综合技能,为未来的人生和事业发展奠定良好的技术基础。

       在本人的研究课题中,计算机视觉方向主要针对的对象是图像,主要任务是对图像内容的分析和识别,主要应用有图像检索、图像超分辨重建、图像去雾、图像分割等。同时,也对视频信息进行处理,其主要任务是对视频内容的分析和识别。由于视频是由图像帧所构成,因此部分视频处理技术如人脸识别、行人重识别等与图像处理技术一致,而部分视频处理技术如动作识别、目标跟踪等则是在图像处理技术基础上进一步针对视频信息建模的处理技术。机器学习方向主要针对的对象是矩阵和向量数据,主要任务是对矩阵和向量数据的分析,机器学习技术如分类、聚类、度量学习(对比学习)、低秩分解和稀疏表示等技术在计算机视觉中具有广泛应用。 深度学习贯穿于计算机视觉、机器学习和人工智能过程中。

       对信息处理的两个关键核心是表示和度量,深度学习在宏观和微观信息表示方面展现了极好的性能,但在信息的综合表示、度量、分析和推理上仍需进一步深入探索,这也是当下计算机视觉、机器学习和人工智能方面的研究重点。本人前期的研究工作主要基于图像信息,重点探索面向图像表示、度量学习(对比学习)和图像组织等任务的人工智能技术。涉及范围包括基于图像内容的图像检索/物体搜索;基于深度学习和机器学习的大规模图像检索,目标重识别和目标检测;基于生成对抗网络的图像去噪和重建;基于度量学习(对比学习)和图神经网络的图像表示等。

        目前的研究课题主要集中于解决开放世界场景的目标检测、分割、检索、识别及其相关方向的一些难题。开放世界场景中面临着诸多挑战,其中之一是目标类别多,类内样本数量呈长尾分布,可用数据大部分分布于头部,而现实应用中有大量类别的数据分布于尾部,如何建立有效的长尾数据学习算法和模型是当前的难题。此外,在呈长尾分布的数据中,大量尾部数据无标注且标注成本高,很多数据可能在应用中才会出现,如何建立基于无监督、零样本数据的学习模型和算法,也是开放世界场景面临的问题之一。当下较为流行的相关主流技术有基于SAM和CLIP的解决方案、基于生成模型(如扩散模型)的解决方案和基于检索技术(如度量学习)的解决方案。此外,随着大语言模型如LLaMA系列、InternLM系列和Qwen系列等的开源,多模态大模型如InstructBLIP、LLaVA系列、InternVL系列、QwenVL系列等在处理开放世界场景的多模态数据问题上获得了较高的综合评测性能。本人当前的研究主要基于上述相关技术处理开放世界场景中的多模态数据分析问题。