研究背景

随着计算机和网络技术的飞速发展,人们被来自于物联网、互联网和移动互联网等多种网络空间的海量数据所淹没。这些来自于不同源头、存在于不同平台上的数据以文本、图像、视频和音频等多种形式出现,具有大规模、跨媒体、多模态、异质多源等特点。“规模庞大”和“异质多源”这两大特性使得大规模异质数据的分析与挖掘成为极具挑战性,也极具现实意义的难题。该问题的成功解决将为许多基于多种网络空间海量数据分析的研究和应用提供有力的技术支持,例如社交网络信息挖掘、舆情控制、物联网智能分析、大规模电子商务分析等等。因此,大规模异质数据的分析和挖掘对于我国政治、经济等领域的发展具有重大战略意义。

关键科学问题

本项目针对指南中信息领域的“大数据计算的基础研究”重要支持方向。瞄准国家重大需求和科学前沿,本项目拟解决以下关键科学问题:

    1. 大规模异质数据中的关联性表达机理:面对不同网络空间的海量数据,在大数据分布式存储平台下,将不同形态的数据进行统一表示,建立高效索引并且通过建立大图来挖掘异质数据的关联关系是整个项目的基础;

    2.大规模数据驱动下的异质知识挖掘理论:如何在大数据环境下实现复杂知识对象的表示并融合多模态信息挖掘出有用的异质知识是实现从数据向知识转化的关键。