2020年4月28日星期二

关于大数据,数据科学和数据分析的简介 About Big Data, Data Science and Data Analysis


大数据,数据科学,数据分析这些名词变得更加流行起来,也正在成为下一波科技趋势,那么什么是大数据,什么是数据科学,什么又是数据分析,将对商业产生怎样的影响,我们做一个简单的介绍。

什么是大数据 - 大数据的五个基本特征  5V


大数据具有五个基本特征,对这些特征的总结的名词都是以英文字母V开头,简称为大数据 5V


数量大 (Volume)
数据是否有价值,跟它的数量有直接的关系,某些特定的数据,是否可以被认为是大数据,数量是第1个要考虑的因素。
目前网络上的数据量:
在2016年,估计的全球移动流量为每月6.2 Exabytes(62亿GB),到2020年,我们将拥有近40000 ExaBytes的数据。


速度快(Velocity)
数据以更快更连续的速度出现,这是因为很多应用程序是基于网络所产生的。示例:每天在Google上进行的搜索超过35亿次,在YouTube中,每分钟大约上传300个小时的视频。

多样 (Variety)
数据的来源和种类不同,数据包括各种文件,表格,图像,视频,音频,日志表等, 有结构化,半结构化和非结构化数据之分。

结构化数据:指具有固定格式或有限长度的数据,如数据库。
半结构化数据:当根据需要可按结构化数据来处理,也可抽取出纯文本按非结构化数据来处理,如HTML。
非结构化数据:指不定长或无固定格式的数据,如邮件,文字,图片,视频等。


真实 (Veracity)
数据来自于不同的数据源,包括了不同类型的数据, 质量和准确性难以控制。 大量的数据可能会造成混乱, 数据过少又会传达不完整的信息,所以企业需要获得真实可靠的数据。


价值 (Value)
基于网络,尤其是接下来的物联网产生了大量的数据,这些大量的未经过处理的数据,对于公司的价值不大,这需要通过强大的机器算法来发现其价值。






Source : the difference between Data Science, Data Analysis, Big Data, Data Mining and Machine Learning 


什么是数据科学和数据分析


如前面所说,数据需要处理,才会产生价值。

数据科学 - 是对数据进行研究和处理,使它们为个人或企业带来有意义的见解。

数据科学是对数据进行研究,这包括方法,工具,这些被研究的数据可以是大数据的形式。

数据科学需要的技能包括,数学,统计学以及相关的商业领域知识。


数据分析 - 数据分析是指定量和统计方法。

数据科学是统称,数据分析是一种方法,是数据科学的一部分。

数据分析对于企业所产生的价值就是降低成本,精准预测,评估风险等。


结论:


随着物联网未来的蓬勃发展,商业公司将会收集大量的数据,对这些数据进行有效的处理和分析, 将为公司的决策和发展提供有力的支持。


#大数据 #数据分析 #数据科学 #物联网

没有评论:

发表评论

推荐给小型企业构建基本的聊天机器人 Recommendation for Small Business Building Basic Chatbots

这是对最基本的企业聊天机器人的介绍,目的是帮助小型公司了解聊天机器人。 基本型聊天机器人的好处: 极低的开发和维护成本 帮助企业了解聊天机器人并可以随时升级 改善客户体验 工作24 x 7 x 365 聊天机器人的基本功能包括: 问候访客/用户 回答一些问题 显示产品/服务 引导...