(tablelog官网……?):大数据究竟是什么?大数据有哪些技术呢??。

2024-05-04 13:54:09 HAHA体育·十年运营 信誉无忧 易币付官网

大家好,关于Tablelog官网很多朋友都还不太明白 ,今天小编就来为大家分享关于大数据究竟是什么?大数据有哪些技术呢?的易币付知识 ,以上提供1重点希望对各位有所帮助!

(tablelog官网……?):大数据究竟是什么?大数据有哪些技术呢??。
  1. 大数据究竟是什么?大数据有哪些技术呢?

大数据究竟是什么?大数据有哪些技术呢?

大数据技术可以定义为一种软件应用程序,旨在分析,处理提取来自极其复杂的大型数据信息 ,而传统数据处理软件则无法处理 。

我们需要大数据处理技术来分析大量实时数据,并提出预测和方案以减少未来的风险 。

在类别中的大数据技术分为两大类型:

1.运营大数据技术

2.分析大数据技术


首先,运营大数据与我们生成的常规日常数据有关。这可能是在线交易 ,社交媒体特定 组织的数据等。

运营大数据技术的一些示例如下:

·网上订票,其中包括您的火车票,飞机票 ,电影票等 。

·在线购物是您的 *** ,京东交易等等。

·来自社交媒体网站(如微信, *** 等)的数据。

·任何跨国公司的员工详细信息 。

其次 ,分析性大数据就像大数据技术的高级版本一样。它比运营大数据要复杂一些。简而言之,分析性大数据是实际绩效的组成部分,而关键的实时业务决策是通过分析运营大数据来制定的 。

分析大数据技术的几个示例如下:

·股票行销

·进行太空任务 ,其中任何信息都是至关重要的。

·天气预报信息。

就以悟空问答为例说说大数据的故事 。以下说的数字都不是真实的 ,都是我的假设。

比如每天都有1亿的用户在悟空问答上回答问题或者阅读问答。

假设平均有1000万的用户每天回答一个问题 。一个问题平均有1000的字, 平均一个汉字占2个字节byte,三张图片, 平均一帐图片300KB 。那么一天的数据量就是:

文字总量:10,000,000 * 1,000 * 2 B = 20 GB

图片总量: 10,000,000 * 3 * 300KB = 9 TB

为了收集用户行为,所有的进出悟空问答页面的用户。点击 ,查询,停留,点赞 ,转发,收藏都会产生一条记录存储下来。这个量级更大 。

所以粗略估计一天20TB的数据量. 一般的PC电脑配置大概1TB,一天就需要20台PC的存储。

如果一个月的 ,一年的数据可以算一下有多少。传统的数据库系统在量上就很难做到 。

另外这些数据都是文档类型的数据。需要各种不同的存储系统支持,比如NoSQL数据库。

需要分布式数据存储,比如Hadoop的HDFS 。

上述1000万个答案 ,会有1亿的人阅读。提供服务的系统成百上千。这些数据需要在网上各个系统间来回传播 。需要消息系统比如Kafka。

大数据是什么?

投资者眼里是金光闪闪的两个字:资产。

比如,Facebook上市时,评估机构评定的有效资产中大部分都是其社交网站上的数据 。

很多初学者 ,对大数据的概念都是模糊不清的 ,大数据是什么,能做什么,学的时候 ,该按照什么线路去学习,学完往哪方面发展?

如果把大数据比作一种产业,那么这种产业实现盈利的关键 ,在于提高对数据的“加工能力 ”,通过“加工 ”实现数据的“增值” 。

Target的例子是一个很典型的案例,这样印证了维克托·迈尔-舍恩伯格提过的一个很有指导意义的观点:通过找出一个关联物并监控它 ,就可以预测未来。


Target通过监测购买者购买商品的时间和品种来准确预测顾客的孕期,这就是对数据的二次利用的典型案例。如果,我们通过采集驾驶员手机的GPS数据 ,就可以分析出当前哪些道路正在堵车,并可以及时发布道路交通提醒;通过采集汽车的GPS位置数据,就可以分析城市的哪些区域停车较多 ,这也代表该区域有着较为活跃的人群 ,这些分析数据适合卖给广告投放商 。不管大数据的核心价值是不是预测,但是基于大数据形成决策的模式已经为不少的企业带来了盈利和声誉。

简单说有三大核心技术:拿数据,算数据 ,卖数据。

一、数据采集与预处理

对于各种来源的数据,包括移动互联网数据 、社交 *** 的数据等,这些结构化和非结构化的海量数据是零散的 ,也就是所谓的数据孤岛,此时的这些数据并没有什么意义,数据采集就是将这些数据写入数据仓库中 ,把零散的数据整合在一起,对这些数据综合起来进行分析 。

二 、数据存储

这是我通常与想要了解大数据的人进行对话:

问:什么是大数据?

答:大数据是描述庞大数据的术语。

问:现在,大数据有多大?

答:如此庞大 ,以至于无法用常规工具处理?

问:通常的工具是什么意思?

答:普通文件系统,数据库等工具。

所有这些大数据工具都有一个共同的特性:分布式计算 。

因此,大数据是一个通常只能通过分布式的工具才能解决的问题。我知道这些天 ,每个人都在尝试将他们的BI(商业情报)工具描绘成大数据工具 ,但不要被喧闹声所欺骗。

问:哪些典型的大数据问题?

答:请考虑以下几点:

1,如何建立存储和保存500 TB电影/视频/文字的存储?

2,一台机器实际读取500 TB会花费多少时间?

3 ,如何建立可以存储数百万列和数十亿行数据而不会像乌龟一样慢的数据存储?

4,如何提供每秒数百万的读写?

发表评论: