盘点大数据分析AI工具的常用算法

随着人工智能技术的逐步普及，越来越多的行业开始拥抱人工智能，用“人工智能+”助力技术和产业的不断升级和变革，人工智能已经成为我们当前这个时代的标志。对于企业来说，如果想用人工智能来武装自己，就必须搞清楚人工智能技术的核心。

人工智能的概念始于1956年的达特茅斯会议，由于受到数据、计算力、智能算法等多方面因素的影响，人工智能技术和应用发展经历了多次高潮和低谷。2006年以来，以深度学习为代表的机器学习算法在机器视觉和语音识别等领域取得了极大的成功，识别准确性大幅提升，使人工智能再次受到学术界和产业界的广泛关注。数据、计算力和算法被认为是人工智能发展的三大核心要素，数据是基础，算法是核心，计算力是支撑。
因此，要衡量一个大数据分析平台的核心能力，最为关键的一定是其所具备的算法能力。接下来，小编就为大家隆重介绍一下TempoAI的核心算法体系。、

1) 基于分布式架构的算法设计

平台所有算法均基于Spark分布式内存计算框架开发，并采用Scala语言进行算法实现，能够支持海量数据的高效挖掘分析。
2) 多样化、全面化的算法选择

平台内嵌130余种数据分析方法，涉及数据预处理、回归、分类、聚类、关联、时间序列、综合评价、文本分析、推荐、统计图表十大类别。

算法类型	功能节点	说明
数据预处理	提供对数据进行预处理功能，包括对数据的清洗、转换、归约、集成等，以便提高分析数据的质量。	Ø 行：数据过滤、排序、随机抽样、数据平衡、数据去重； Ø 列：设置角色、重命名、属性过滤、随机数/ID生成、缺失值处理、数值型属性变换、字符型属性变换、日期型属性变换； Ø 高级：表转置、分类汇总、数据标准化、数据平滑、孤立点分析、RFM、季节解构、异常值检测、自动数据处理、堆叠列、过程查询分析器； Ø 融合：数据连接、数据追加、数据拆分、数据分解、数据差集； Ø 特征工程：属性生成、主成分分析、因子分析、奇异值分解、分箱、变量选择、自动特征、WOE编码、数据分组、特征编码、高级特征交叉。
分类	分类属于预测任务，就是通过已有数据集（训练集）的学习，得到一个目标函数f（模型），把每个属性集x映射到目标属性y（类），且y必须是离散的。	Ø 逻辑回归分类、朴素贝叶斯、Xgboost分类、贝叶斯网络分类、BP神经网络分类、随机森林分类、支持向量机分类、 CART、ID3分类、C45+决策树分类、梯度提升决策树分类、L1/2稀疏迭代分类、RBF神经网络分类、KNN、线性判别分类、Adaboost分类、Bagging分类、DNN分类。
回归	回归是最常用的数值预测方法，它是在分析现象自变量和因变量之间相关关系的基础上，建立变量之间的回归方程，并将回归方程作为预测模型，根据自变量在预测期的数量变化来预测因变量的值。	Ø 线性回归、决策树回归、SVM回归、梯度提升树回归、BP神经网络回归、保序回归、曲线回归、随机森林回归、L1/2稀疏迭代回归、Bagging回归、DNN回归、LSTM回归。
聚类	聚类分析仅根据在数据中发现的描述对象及其关系的信息，将数据对象分组。其目标是，组内的对象相互之间是相似的（相关的），而不同组中的对象是不同的（不相关的）。	Ø KMeans、模糊C均值、EM聚类、Hierarchy、Kohonen聚类、视觉聚类、Canopy、幂迭代。
关联规则	关联规则，指在交易数据、关系数据或其他信息载体中，查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。	Ø Apriori、FPGrowth、序列。
时间序列	时间序列通常是按时间顺序排列的一系列被观测数据（信息），其观测值按固定的时间间隔采样。研究人员作预测时，常以过去的历史资料为依据，预测将来的变化。	Ø ARIMA、稀疏时间序列、指数平滑、移动平均、向量自回归、X11、X12、回声状态网络、灰色预测。
综合评价	使用比较系统的、规范的方法对于多个指标、多个单位同时进行评价的方法，称为综合评价方法	Ø 熵值法、TOPSIS、层次分析法、模糊综合评价法。
推荐	推荐是根据用户兴趣和行为特点，向用户推荐所需的信息或商品，帮助用户在海量信息中快速发现真正所需的商品。	Ø 协同过滤。
文本挖掘	文本挖掘是指从大量文本数据中抽取事先未知的、可理解的、最终可用的知识的过程，同时运用这些知识更好地组织信息以便将来参考。	Ø 分词、信息抽取、文本过滤、向量空间、关键词提取、主旨话题分析、观点情感分析、垃圾违禁信息检测、文本相似度、命名实体识别、文本摘要、词频统计、主题模型合并。
统计分析	提供统计分析方法，对通过调查获取的各种数据及资料进行数理统计和分析，形成定性和定量的结论。	Ø 方差分析、相关系数、典型相关分析、偏向相关分析、相似度、描述数据特征、概率单位回归。

3) 智能化的自学习算法

平台内置自动择参、自动分类、自动回归、自动聚类、自动时间序列等多种自学习功能，帮助用户自动选择最优算法和参数，一方面降低了用户对算法和参数选择的经验成本，另一方面极大的节省用户的建模时间成本。

4) 更便捷的深度学习

平台一方面提供DNN、RNN、LSTM等深度学习算法节点，让用户可以和使用其他机器学习算法一样，快速构建深度学习模型，另一方面平台支持基于TensorFlow的深度学习集群框架，方便用户自由编写深度学习代码逻辑，实现更灵活的自主深度建模分析。

5) 模型性能提升利器之集成学习

集成学习严格意义上来说，这不算是一种机器学习算法，而更像是一种优化手段或者策略，它通常是结合多个简单的机器学习算法，去做更可靠的决策。集成学习是一种能在各种机器学习任务上提高准确率的强有力技术，集成算法往往是很多数据竞赛关键的一步，能够很好地提升算法的性能。平台提供Bagging、Voting等集成学习框架节点，使模型准确性和泛化能力得到明显的提升。

6) “精细化、结构化”的文本分析

目前，市场上的文本工具主要是以文本整体分析应用为主来设计功能，未从技术角度进行细致的功能划分，这样导致用户对于文本的分析过于主题化，用户在分析过程中无法过多的加入自己的构建思想，同时无法真正将文本挖掘技术与传统结构化数据挖掘技术融合在一起。本平台中的文本挖掘算法模块以“拖拽式操作、精细化节点设计、结构化自由文本为目标”的设计理念为指导，将文本挖掘的各技术功能点进行粗细划分，使得节点的功能更集中更明确，一方面兼顾使用的NLP技术的独立性，另一方面兼顾节点所具功能的全面性，同时将文本挖掘模块的最终产出是对应原始文本的结构化形式，这种结构化信息需要很好地涵盖原始文本的有用内容；同时，这种结构化的形式输出也方便与平台已有的其他建模分析节点串联复用。

7) 可扩展式的设计

平台一方面内置Python、SQL、Matlab、Java、Scala、PySpark、R编程节点，方便用户实现个性化数据分析逻辑，另一方面通过提供自定义算法功能，用户可以将本企业所研究的成熟算法，通过该功能在平台上发布，形成固化的算法节点，供平台所有用户使用。

目前Tempo大数据分析平台中的算法不论从种类还是数量上已经遥遥领先于市场上的同类产品，但为了能够给用户提供更简单、可靠、全面、智能的分析服务，未来Tempo大数据分析平台将更多的在人工智能技术领域持续发力，提升平台的技术先进性，为用户带来更多更好的智能化分析体验。

盘点大数据分析AI工具的常用算法

浏览过的版块