数据科学是统计技术的进化扩展,能够借助计算机科学技术来处理大量信息。机器学习是一个研究领域,它使计算机无需进行显式编程即可学习。数据科学涵盖了广泛的数据技术,包括SQL,Python,R和Hadoop,Spark等。机器学习被视为一个过程,可以定义为一个过程,通过该过程,计算机可以在收集和存储数据时更加准确地工作。从给出的数据中学习。

数据科学与机器学习之间的关键区别
以下是数据科学与机器学习之间的区别如下:

组件 –如前所述,Data Science系统涵盖了整个数据生命周期,通常具有涵盖以下内容的组件:
数据收集和分析-ETL(提取转换负载)管道和分析作业
分布式计算–水平可扩展的数据分发和处理
自动化情报–用于在线响应(预测,建议)和欺诈检测的自动化ML模型。
数据可视化 –直观地浏览数据以获得更好的数据直觉。机器学习建模的组成部分。
仪表板和BI –具有切片和切块功能的预定义仪表板,适用于更高级别的涉众。
数据工程–确保始终可以访问热数据和冷数据。涵盖数据备份,安全性,灾难恢复
以生产模式进行部署–按照行业标准惯例将系统迁移到生产中。
自动化决策–这包括在数据之上运行业务逻辑或使用任何ML算法训练的复杂数学模型。
机器学习建模从存在数据开始,典型的组件如下:

了解问题–确保解决问题的有效方法是机器学习。请注意,使用ML并不能解决所有问题。
浏览数据–直观了解要在ML模型中使用的功能。这可能需要多个迭代。数据可视化在这里起着至关重要的作用。
准备数据–这是一个重要的阶段,对ML模型的准确性有很大影响。它处理数据问题,例如如何处理功能缺失的数据?替换为零之类的虚拟值,还是其他值的均值,或者将特征从模型中删除?缩放要素可确保所有要素的值都在同一范围内,这对于许多ML模型而言至关重要。许多其他技术(如多项式特征生成)也用于导出新特征。
选择模型并训练-根据问题的类型(预测或分类等)和特征集的类型来选择模型(某些算法适用于少数具有大量特征的实例,而其他算法适用于其他情况) 。
绩效评估–在数据科学中,绩效评估不是标准化的,它将视情况而定。通常,它将指示数据及时性,数据质量,查询能力,数据访问中的并发限制,交互式可视化功能等。
在ML模型中,性能指标非常清晰。每种算法都会有一个度量,以指示模型描述给定训练数据的好坏。例如,在线性回归中使用RME(均方根误差)来表示模型中的误差。

开发方法–数据科学项目更像是一个工程项目,具有明确定义的里程碑。但是机器学习项目更多的是像研究这样的研究,它从一个假设开始,并试图用可用数据证明它。
可视化–通用数据科学中的可视化直接使用任何流行的图形(如条形图,饼图等)直接表示数据。但是在ML中,可视化还用于表示训练数据的数学模型。例如,可视化多类分类的混淆矩阵有助于快速识别假阳性和阴性。
语言– SQL和类似SQL的语法语言(HiveQL,Spark SQL等)是数据科学界最常用的语言。诸如Perl,awk,sed之类的流行数据处理脚本语言也正在使用中。框架特定的,受支持的语言是另一个广泛使用的类别(用于Hadoop的Java,用于Spark的Scala等)。
Python和R是机器学习世界中使用最广泛的语言。如今,随着新的深度学习研究人员大多转向python,Python正获得更大的发展势头.SQL在ML的数据探索阶段也发挥着重要作用