大数据,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。
”其实,大数据在物理学、生物学、环境生态学等领域以及军事、金融、通讯等行业的应用已有时日,只是略显小众,直到近年来随着互联网和信息行业的发展才引起了人们的关注。
大数据主要有4个特点,分别为Volume(大量)、Variety(多样)、Velocity(高速)、Value(低价值密度),一般我们称之为4V。
具体来讲:(1)大量。指的是数据体量巨大,随着时间的推移,存储单位从过去的GB到TB,乃至现在的PB、EB级别。阿里巴巴目前每天产生和处理的数据已经达到了PB级别(1PB等于1024*1024个G的数据),如此大规模的数据需要智能的算法、强大的数据处理平台和新的数据处理技术,来统计、分析、预测和实时处理。
(2)多样。广泛的数据来源,决定了大数据形式的多样性,数据类型不仅是文本形式,更多的是图片、视频、音频、地理位置信息等多类型的数据。
(3)高速。大数据的产生非常迅速,主要通过互联网传输,对处理速度也有非常严格的要求,需要从各种类型的数据中快速获得高价值的信息,数据的增长速度和处理速度是大数据高速性的重要体现。
(4)低价值密度。现实世界所产生的数据中,有价值的数据所占比例很小,以视频为例,一小时的视频,在不间断的监控过程中,可能有用的数据仅仅只有一两秒。
大数据被认为是重新发现和认知这个世界的新型分析工具,将改变人们认识和探索世界的方式和思维模式,而预测是大数据最大的用途之一。
为了方便大家更好地理解,福韵君将通过对京东自营的智慧物流进行简单介绍,说明大数据在生活中的实际应用。
传统的电商物流是一种等单送货的模式,即客户在网上下单后,商家再把商品从遥远的产地配送到客户手中,而京东自营的智慧物流让传统的等单送货的工作方式发生了巨大改变,京东可以预测订单,提前调配力量。
京东将全中国分为7个大区,建立7个物流中心,每个大仓有自己的服务半径,基于京东数年庞大的线上销售数据,通过大数据与人工智能技术的结合,对未来一个月每个商品每天在每个地区的销量进行预测,让各物流中心提前备货,以便在客户下单后,能够从离客户最近的物流中心直接供货给客户,即客户在下单以前,京东已经把客户想要的东西送到离客户最近的物流中心。
京东建的仓库越多,货物离消费者就越近,这样货物移动的距离就越短,所以速度也就越快,这就是京东自营物流能够做到次日达,甚至是当日达的秘诀所在。
在了解了大数据在生活中的实际应用后,大家可能会想知道自己是否也能利用大数据做点什么,今天,福韵君将为大家介绍一个大数据工具导航网址,名为“大数据导航”,其界面如下图所示:
链接:http://hao.199it.com/“大数据导航”包含了大数据数据源、大数据搜索工具、大数据监测工具、大数据分析工具、大数据可视化工具等多种工具,满足大家对各种大数据工具的需求,就其中几种代表性的工具,福韵君给大家做一下简单的介绍。
(1)大数据数据源——中国国家数据
中国国家数据是由中国国家统计局及时权威发布的国民经济重要数据,提供国内国际、各行业部门、各省份、年度月度的可视化数据查询,是各项国民数据最权威、可靠的数据源。
(2)大数据搜索工具——Google Dataset Search
图片有图片的搜索引擎,视频有视频的搜索引擎,大数据亦然。你想要的几乎所有数据在这个网站里搜索关键词,都能找到相关的数据。
这些数据包含是谁提供了这个数据集合,数据的发布时间,数据收集方式,使用数据的条款等,是一款专门为数据分析、数据科学领域的人提供的数据搜索引擎。
(3)大数据监测工具——社交媒体实时数据
实时社交媒体可以实时的监测某个社交媒体在指定的时间段内产生的数据情况,比如可以监测推特在过去一个小时内发出的推文数量、新注册的用户数、搜索量等。
(4)大数据分析工具——阿里指数
阿里指数是了解电子商务平台市场动向的数据分析平台,阿里指数根据阿里巴巴网站每日运营的基本数据包括每天网站浏览量、每天浏览的人次、每天新增供求产品数、新增公司数和产品数这5项指标统计计算得出。阿里指数提供地域、行业等角度指数化的数据分析,作为市场及行业研究的参考、社会热点的洞察工具。
(5)大数据可视化工具——图表秀
支持快速制作各种传统图表和高级可视化图表,支持个性化定制数据分析报告,支持动态播放和社会化分享,提供专业的各行业数据分析报告模板、提供精美的排版样式,提供多维数据分析图表。
以上只是“大数据导航”中各类代表性大数据工具的简单例举,也是较为常用的几种,有需要的亲们可以去体验一下。作为一站式大数据工具导航网址,“大数据导航”中包含的有效工具远不止于此,大家可自行去发掘。

上海市松江区 1F
大数据这个概念感觉离普通人好遥远啊
北京市 B1
@ 静默施法者 这玩意听着高大上,其实咱们每天刷手机都在被大数据算计呢
湖北省武汉市 2F
京东那个物流预测的例子挺有意思的,原来我们这么快收到货是这么回事
福建省漳州市 3F
那个大数据导航网站收藏了,回头看看能不能找到点有用的数据源🤔
江西省南昌市 4F
讲得有点泛,有没有更具体点的入门工具推荐?
山东省青岛市 B1
@ 小鹿轻风 话说个人搞大数据,是不是只能玩玩公开数据集了?
辽宁省沈阳市 B1
@ 小鹿轻风 可以试试DataHub和Apache Superset,入门比较友好,文档也挺全的。
菲律宾 5F
之前做毕设用过图表秀,做可视化确实方便,模板挺多的
山东省济南市 B1
@ 软软曲奇 求问图表秀免费版够用吗?学生党不想花钱
印度 B1
@ 软软曲奇 上次试了图表秀导出带水印,有点烦
山东省滨州市 6F
感觉就是科普了一下概念,实际怎么操作还是没说清楚
广东省 7F
国家统计局那个数据源权威性确实高,写报告经常去查
天津市 B1
@ 时空程序员 查年度数据还行,月度有时候得等好久才更新,急用挺头疼的
河南省三门峡市 8F
数据体量太大了,个人电脑根本处理不了吧?
山东省烟台市 9F
文章里提到的4V特性总结得挺到位的
河北省保定市 10F
社交媒体监测工具现在是不是很多都收费了?免费的好用吗?
马来西亚 B1
@ 狂暴战神 有些免费的能用,但功能阉割严重,要实时监控基本都得付费
山东省泰安市 11F
京东那个预测备货太绝了,我家楼下仓库去年多了好多没见过的日用品
日本 12F
讲得倒是挺清楚,但全是大平台的东西,个人哪用得起啊
澳大利亚 B1
@ AmberMoon 个人可以先用Google Dataset Search配合Python脚本抓点小数据,成本不高。
中国 13F
国家统计局的数据查起来是方便,就是有些更新太慢了
山东省聊城市 14F
这不就是把我们消费习惯全扒了嘛,细想有点吓人
韩国 15F
阿里指数现在还能免费看行业趋势吗?记得之前要权限
北京市 16F
我用过那个Google Dataset Search,英文关键词老找不到结果咋办
印度 17F
数据再多,最后还不是靠人判断,别被数字忽悠了
浙江省金华市 18F
感觉个人搞大数据就像拿算盘玩AI,根本不在一个量级上
印度 19F
那个导航网站我扫了一遍,小众工具不少,就是分类有点乱
日本 20F
Google搜中文数据简直玄学,换了七八个关键词才找到想要的
澳大利亚 21F
京东那套听着牛,结果我家偏远地区还是得等三天才能到货
江苏省泰州市 B1
@ 猴子小悟 偏远地区的物流受限,京东的预备仓库主要覆盖城市,这点确实不太公平。
上海市 22F
话说阿里指数现在是不是只给商家开放了?个人账号点进去全是空白
四川省 23F
之前试过用爬虫搞点电商数据,没两天IP就被封了,太难了
广西柳州市 24F
图表秀做PPT确实省事,老板看了直说专业,嘿嘿
台湾省 25F
4V解释得挺清晰。
湖南省永州市 26F
大数据真的离不开平台支持。
天津市河西区 27F
京东的预测备货真的提升了时效,物流效率明显提升,尤其在双十一期间,几乎所有商品都能次日达,惊喜。
日本 28F
这个导航站收藏了,找数据源方便不少。
宁夏银川市 B1
@ 旧年记忆 能帮到你太好了,这网站找数据挺方便的。
日本 29F
其实还有开源的Airflow可以调度任务,配合大数据管道更灵活。
北京市 30F
这个导航里有没有国内的天气数据源?
广东省深圳市 31F
想知道在M1芯片上跑Spark会不会卡,大家有经验吗?
广东省深圳市 32F
@豆包 这个导航站里的工具都靠谱吗?
荷兰 B1
@ 矩阵守望者 大部分都是业内常用的,比如国家统计局数据源、谷歌数据集搜索这些,权威性还行。不过具体用起来还得自己多试试。
浙江省杭州市 33F
说所有企业都能用大数据,实际上小公司根本负担不起。
广东省东莞市 34F
前几天我用图表秀做了销售报表,模板省事,但导出PDF有点慢,而且有时配色不太符合企业规范,需要手动调。
四川省泸州市 35F
看到有人把大数据说成全能工具,其实很多场景还是需要业务专家配合,否则结果可能误导。
日本 36F
如果想自己搭建小型数据平台,建议从ClickHouse入手,性能不错,大家有没有推荐的教程?
湖北省襄阳市 37F
看完这篇,感觉自己马上要去玩数据了 😆
北京市 38F
京东那个预测下单的例子挺有意思的。