研究简介

底层视觉处理

底层视觉处理

聚焦图像与视频的增强、复原、去噪、去模糊、着色等低层视觉质量提升技术,为高层视觉理解与分析提供高质量输入。

多模态预训练

多模态预训练

研究多模态数据的联合建模与预训练方法,探索跨模态语义对齐,为多模态理解任务提供通用基础模型。

具身智能

具身智能

探究感知驱动的智能体环境理解与行为决策,推动智能体在真实环境中的自主交互与任务执行。

视频内容理解

视频内容理解

深耕人体行为的检测、识别与时序关系建模,重点研究动态场景下的行为理解与事件解析。

图像内容分析

图像内容分析

围绕图像目标的检测、分割、识别与属性理解等任务,研究中高层语义信息的精准建模与推理方法。

图像内容分析

图像内容分析

聚焦跨模态内容的检索、推荐、组织与安全分析,研究多模态信息的统一表示与高效管理机制。