关于大数据_数据eb级别-程序员宅基地

技术标签: Python数据分析  Python库  人工智能  大数据  

关于大数据

大数据时代

即使自己不做大数据与机器学习相关的开发,每个人也应该懂大数据和机器学习原理以及产品。
未来,数据会越来越成为公司的核心资产和主要竞争力,公司的业务展开和产品进化也越来越朝着如何利用好数据价值的方向发展。不懂大数据和机器学习,可能连最基本的产品逻辑和商业意图都搞不清楚。
如果不了解大数据,生存空间会越来越窄,发展也会处处受限。
在这里插入图片描述

大数据概念

大数据(big data):指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

在这里插入图片描述

大数据一词源于英文的“Big Data”一词,以往也有类似的词语,如“信息爆炸”“海量数据”等等似乎都很难去准确描述这个词的具体内涵。
如果要追溯“大数据”这个专业术语最初的出处的话,就必然要提及apache的开源项目Nutch。在那个时候,大数据的意思是更新网络搜索索引,同时还需要批量处理和分析大量的数据集。谷歌的Map Reduce和Google File System(GFS)发布了之后,大数据的定义中除了涵盖大量数据之外,还包括数据处理的速度。

大数据特征

业界通常用 4 个 V(即 Volume、Variety、Value、Velocity)来概括大数据的特征。

  • Volume:

指的是数据体量巨大,从 TB 级别跃升到 PB 级别(1PB=1024TB)、EB 级别(1EB=1024PB),甚至于达到 ZB 级别(1ZB=1024EB)。截至目前,人类生产的所有印刷材料的数据量是 200PB,而历史上全人类说过的所有话的数据量大约是 5EB。当前,典型个人计算机硬盘的容量为 TB 量级,而一些大企业的数据量已经接近 EB 量级。例如,在交通领域,某市交通智能化分析平台数据来自路网摄像头/传感器、公交、轨道交通、出租车以及省际客运、旅游、化危运输、停车、租车等运输行业,还有问卷调查和地理信息系统数据。4 万辆车每天产生 2000 万条记录,交通卡刷卡记录每天 1900万条,手机定位数据每天 1800 万条,出租车运营数据每天 100 万条,电子停车收费系统数据每天 50 万条,定期调查覆盖 8 万户家庭等,这些数据在体量上就达到了大数据的规模。

  • Variety:

指的是数据类型繁多。这种类型的多样性也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。

  • Velocity:

指的是处理速度快。这是大数据区分于传统数据挖掘的最显著特征。根据 IDC 的“数字宇宙”的报告,预计到 2020 年,全球数据使用量将达到 35.2ZB。在如此海量的数据面前,处理数据的效率就是企业的生命。

  • Value:

指的是价值密度低。价值密度的高低与数据总量的大小成反比。以视频为例,一部 1 小时的视频,在连续不间断的监控中,有用数据可能仅有 1-2 秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。当然把数据集成在一起,并完成“提纯”是能达到 1+1 大于 2 的效果的,这也正是大数据技术的核心价值之一。
在这里插入图片描述

大数据技术

大数据技术,就是从各种类型的数据中快速获得有价值信息的技术。大数据领域已经涌现出了大量新的技术,它们成为大数据采集、存储、处理和呈现的有力武器。

  • 一、大数据采集技术

数据采集是指通过RFID射频数据、传感器数据、社交网络交互数据及移动互联网数据等方式获得的各种类型的结构化、半结构化及非结构化的海量数据,是大数据知识服务模型的根本。

  • 二、大数据预处理技术

主要完成对已接收数据的抽取、清洗等操作。
1、抽取:因获取的数据可能具有多种结构和类型,数据抽取过程可以帮助我们将这些复杂的数据转化为单一的或者便于处理的构型,以达到快速分析处理的目的。
2、清洗:对于大数据,并不全是有价值的,有些数据并不是我们所关心的内容,而另一些数据则是完全错误的干扰项,因此要对数据通过过滤“去噪”从而提取出有效数据。

  • 三、大数据存储及管理技术

大数据存储与管理要用存储器把采集到的数据存储起来,建立相应的数据库,并进行管理和调用。重点解决复杂结构化、半结构化和非结构化大数据管理与处理技术。

  • 四、大数据分析及挖掘技术

大数据分析技术。改进已有数据挖掘和机器学习技术;开发数据网络挖掘、特异群组挖掘、图挖掘等新型数据挖掘技术;突破基于对象的数据连接、相似性连接等大数据融合技术;突破用户兴趣分析、网络行为分析、情感语义分析等面向领域的大数据挖掘技术。
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

  • 五、大数据展现与应用技术

大数据技术能够将隐藏于海量数据中的信息和知识挖掘出来,为人类的社会经济活动提供依据,从而提高各个领域的运行效率,大大提高整个社会经济的集约化程度。

大数据领域

在我国,大数据将重点应用于以下三大领域:商业智能、政府决策、公共服务。例如:商业智能技术,政府决策技术,电信数据信息处理与挖掘技术,电网数据信息处理与挖掘技术,气象信息分析技术,环境监测技术,警务云应用系统(道路监控、视频监控、网络监控、智能交通、反电信诈骗、指挥调度等公安信息系统),大规模基因序列分析比对技术,Web信息挖掘技术,多媒体数据并行化处理技术,影视制作渲染技术,其他各种行业的云计算和海量数据处理应用技术等
在这里插入图片描述

大数据平台

大数据平台,顾名思义就是整合网站应用和大数据系统之间的差异,将应用程序产生的数据导入到大数据系统,经过处理计算后再导出给应用程序使用。
在这里插入图片描述

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/qq_15378385/article/details/114760872

智能推荐

Android O实现限制自启&&限制后台&&杀活方案_android 限制gms后台唤醒-程序员宅基地

文章浏览阅读2k次。由 b178903294创建, 最后修改于12月 30, 2020上回书说到android的powersave lowmemorykiller 等的后台清理机制,与系统如何保证应用不被杀掉的保活方案。我们为了自己的应用能够常驻后台提供了系统保活的机制。那么其他三防应用为了自己能够永生,各种手段无所不用其极,绕过各种系统的杀活机制来达到常驻后台干些见不得人的勾当。所以我们常常见到系统运行的好好的突然各种弹窗,突然的cpu占用飙升猝不及防的卡死········ 即使我们信任的各种学习app后台罪行也是罄.._android 限制gms后台唤醒

图像平滑处理_图像平滑处理结果-程序员宅基地

文章浏览阅读241次。图像加高斯噪声并保存:import cv2import numpy as npdef clamp(pv): if pv > 255: return 255 elif pv < 0: return 0 else: return pv#给图片增加高斯噪声,计算花费很长时间def gaussian_nois..._图像平滑处理结果

matlab模拟角度调制系统的仿真与设计,基于Matlab的模拟通信系统的仿真设计-程序员宅基地

文章浏览阅读936次。《基于Matlab的模拟通信系统的仿真设计》由会员分享,可在线阅读,更多相关《基于Matlab的模拟通信系统的仿真设计(25页珍藏版)》请在人人文库网上搜索。1、目录摘要-第一章课程设计内容和要求- 41、课程设计内容- 42、课程设计要求- 4第二章通信系统调制解调- 51、通信系统概念- 52、调制和解调的概念- 6第三章MATLAB软件和功能简介- 71、MATLAB软件简介- 72、GUI..._matlab角度调制仿真设计

linux安装neo4j5-程序员宅基地

文章浏览阅读1.3k次。neo4j5.x 社区版下载地址: https://neo4j.com/download-center/#community ..._please use oracle(r) java(tm) 17, openjdk(tm) 17 to run neo4j server.

PyTorch专栏开篇-程序员宅基地

文章浏览阅读231次。目前研究人员正在使用的深度学习框架不尽相同,有 TensorFlow 、PyTorch、Keras等。这些深度学习框架被应用于计算机视觉、语音识别、自然语言处理与生物信息学等领域,并获取了极好的效果。其中,PyTorch是当前难得的简洁优雅且高效快速的框架,当前开源的框架中,没有哪一个框架能够在灵活性、易用性、速度这三个方面有两个能同时超过PyTorch。基于此,磐小仙邀请到了作者 News(..._pytorch专栏开篇

error LNK2026: 模块对于 SAFESEH 映像是不安全的_error lnk2026: 模块对于 safeseh 映像是不安全的。-程序员宅基地

文章浏览阅读1.2k次。其他版本 更新:2007 年 11 月/SAFESEH[:NO]在指定 /SAFESEH 后,只有在链接器还可以生成映像的安全异常处理程序表的情况下,该链接器才会生成一个映像。该表指定其异常处理程序适合于该映像的操作系统。只有在对 x86 目标进行链接时,/SAFESEH 才有效。已说明异常处理程序的平台不支持 _error lnk2026: 模块对于 safeseh 映像是不安全的。

随便推点

fatal error: readline/readline.h: No such file or directory_rc/monitor/sdb/sdb.c:18:10: fatal error: readline/-程序员宅基地

文章浏览阅读1k次。in ubuntu linux system. build the gcc target.have error:fatal error: readline/readline.h: No such file or directoryit means th readline package uninstall.do:sudo apt-get install libreadline..._rc/monitor/sdb/sdb.c:18:10: fatal error: readline/readline.h: 没有那个文件或

apollo学习笔记十四:apollo规划技术(四)_apollo em-程序员宅基地

文章浏览阅读922次。Understand More on the MP DifficultyEM算法EM算法是一个在已知部分相关变量的情况下,估计未知变量的迭代技术,首先通过动态规划方式对整个问题有一个粗浅的认识,然后通过二次规划进行强化,这种启发式搜索方法是目前百度Apollo的EM算法的核心思想。这种方法和人开车的过程是一样的,通常驾驶员会先形成一个大概的指导思想,指明往什么方向开,然后再规划一条最优路径。EM的算法流程如下:1、初始化分布参数;2、重复直到收敛。重复直到收敛的步骤如下:2.1、E步骤:根_apollo em

强大的工具:APISpace IP归属地查询API-程序员宅基地

文章浏览阅读934次。随着互联网的不断发展和用户需求的不断变化,IP归属地-IPv4区县级API将继续发挥其重要性,并为各行各业带来更多创新和便利。通过利用这一强大工具,我们可以更好地理解和利用IP地址的归属地信息,为用户提供更个性化、精准的服务和体验,需要的小伙伴赶紧用起来吧~_apispace ip

前端面试题整理-程序员宅基地

文章浏览阅读386次。行内元素:会在水平方向排列,不能包含块级元素,设置width无效,height无效(可以设置line-height),margin上下无效,padding上下无效。 ..._手机拍照和上传图片,ios有拍照、录像、选取本地图片功能,部分android只有选择本地

docker-gitlab使用ssh克隆时一直提示输入密码_gitlab在账号添加ssh后,克隆还需要密码-程序员宅基地

文章浏览阅读2.5k次,点赞2次,收藏5次。使用ssh克隆项目时,一直提示输入密码_gitlab在账号添加ssh后,克隆还需要密码

createPopup 超链接-程序员宅基地

文章浏览阅读47次。<HTML> <HEAD> <SCRIPT LANGUAGE="JScript"> var oPopup = window.createPopup(); function showMenu() { var oPopBody = oPopup.document.body; oPopBody.style.backgroundColor = "lightyellow"..._超链接设置popup

推荐文章

热门文章

相关标签