1、 人工智能之人工智能之数据挖掘数据挖掘 Research Report of Data Mining 2020 年第 9 期 清华大学人工智能研究院 北京智源人工智能研究院 清华中国工程院知识智能联合研究中心 2020 年 12 月 人工智能之数据挖掘 Research Report of Data Mining I 摘要摘要 数据挖掘(Data Mining)旨在从大规模、不完全、有噪声、模糊随机的数 据集中自动抽取隐含的、以前未知的、具有潜在应用价值的模式或规则等有用 知识的复杂过程,是一类深层次的数据分析方法,也是知识发现的关键步骤。 本报告围绕数据挖掘的概念内涵、关键技术、人才研究、应
2、用场景、发展 趋势等方面展开深入研究,主要内容包括: 一、数据挖掘基本概念、发展历程、研究进展、问题与挑战。详细介绍了 数据挖掘的基本概念、发展历程、技术研究关键词图谱、研究进展,以及研究 过程中面临的问题与挑战。 二、数据挖掘技术研究现状分析。分别对数据挖掘十大经典算法、统计数 据分析方法、科技情报挖掘技术、社交网络与图数据挖掘技术、自然语言数据 挖掘技术、多媒体数据挖掘技术、大规模数据挖掘技术、数据隐私保护和安全 等方面进行了详细介绍和深入分析,并解读了 SIGKDD 会议收录的代表性论文。 三、数据挖掘领域人才现状分析。基于 AMiner 平台提供的论文和学者大数 据,从学者分布、学术水
3、平、国际合作、学者流动等维度,对国内外相关研究 学者和机构进行了对比分析,总结中国科研学者队伍建设过程中的弱势环节和 问题,并提出对策建议。 四、数据挖掘典型应用场景分析。分别介绍了数据挖掘技术在零售业、旅 游业、物流业、医学界、金融业、电信业等不同行业的应用场景,并如何助力 这些行业的发展。 最后分析了数据挖掘相关技术研究发展趋势和创新热点,以及中国的专利 数据和国家自然科学基金支持情况,并展望了数据挖掘未来发展趋势。 人工智能之数据挖掘 Research Report of Data Mining II 目录目录 1 概述篇 . 13 1.1 数据挖掘基本概念 . 13 1.2 数据挖掘发
4、展历程 . 17 1.3 数据挖掘知识图谱 . 19 1.4 数据挖掘研究进展 . 20 1.5 数据挖掘问题与挑战 . 21 1.5.1 数据挖掘的统一理论框架的构建 . 22 1.5.2 高维数据和高速数据流的挖掘 . 22 1.5.3 序列和时序数据的挖掘 . 24 1.5.4 复杂数据中复杂知识的挖掘 . 25 1.5.5 网络环境中的数据挖掘 . 26 1.5.6 分布式数据和多代理数据的挖掘 . 27 1.5.7 生物和环境数据的挖掘 . 29 1.5.8 数据挖掘过程中的相关问题处理 . 30 1.5.9 数据挖掘中数据安全、数据所涉及到的隐私和数据完整性的维护 . 31 1.5
5、.10 非静态、非平衡及成本敏感数据的挖掘 . 32 2 技术篇 . 37 2.1 数据挖掘十大经典算法 . 38 2.1.1 C4.5 . 38 2.1.2 K-Means . 40 人工智能之数据挖掘 Research Report of Data Mining III 2.1.3 SVM(Support Vector Machine) . 41 2.1.4 Apriori . 43 2.1.5 EM(Expectation Maximization) . 44 2.1.6 PageRank . 47 2.1.7 AdaBoost . 48 2.1.8 KNN(K-Nearest Neig
6、hbor) . 49 2.1.9 Naive Bayes . 51 2.1.10 CART(Classification and Regression Trees) . 53 2.2 统计数据分析 . 54 2.2.1 基本统计分析方法 . 54 2.2.2 回归分析方法 . 60 2.2.3 关联分析 . 63 2.2.4 聚类分析 . 64 2.3 科技情报挖掘技术 . 82 2.3.1 知识溯源 . 82 2.3.2 趋势分析 . 83 2.3.3 前沿预测 . 85 2.3.4 命名排歧 . 86 2.3.5 决策支持 . 87 2.3.6 人才情报 . 88 2.3.7 科学计量 .