> 资讯 >

正文 >2017年全球大数据概览

2017年全球大数据概览

   2017-05-09 21:48   作者:   编辑:郭晴天
字号:T T

2017年数据生态系统概览

 

1、基础设施

 

去年的许多趋势仍在延续,例如流处理的重要性日益增加,Spark仍高居榜首,不过像Flink这样的有趣竞争者正在涌现。此外还有一下一些趋势:

 

SQL已经正式回归
 

 

在被NoSQL技术“打压”了10年之后,SQL数据库技术现已正式回归。Google最近发布了Spanner数据库的云端版。Spanner和 CockroachDB(Spanner的开源版)都提供一种高存活性、强一致性,可伸缩的SQL数据库。Amazon推出的AthenaSnowflake 等产品类似,是一种大型的SQL数据引擎,可直接查询S3 Bucket中存储的数据。Google BigQuery、SparkSQL以及Presto在企业逐渐获得采用——这些都是SQL产品。

 

数据虚拟化
 

 

与公有云采用相关的一个有趣的趋势是数据虚拟化的迅速崛起。旧的ETL流程需要移动大量数据(通常需要为数据集创建副本)和创建数据仓库,数据虚拟化使得企业可以在数据保持不动的情况下对其进行分析,借此提高速度和敏捷性。许多下一代数据分析产品供应商,现在都可以同时提供数据虚拟化和数据准备服务,借此帮助客户更轻松地访问存储在云端的数据。

 

数据管控和安全
 

 

随着大数据在企业中的深入发展,以及数据的多样性和数量的不断增加,数据管控之类的话题变得越来越重要。许多企业选择了一种“数据湖”的方式,创建一个中央仓库,用于保存自己的所有数据。但除非人们知道数据湖中到底有什么,并且能按需访问分析工作所需的恰当数据,否则数据湖将全无用处。

 

但想让用户轻松找到自己需要的数据,同时管理好数据访问权则是非常棘手的。除了数据湖以外,治理的另一个集中的主题是以安全的、可审计的方式为任何人提供对可靠数据的便捷访问。Informatica、 Collibra、Alation等大小供应商提供了数据目录、参考数据管理、数据字典以及数据帮助台等服务。

 

2、分析

 

数据科学家是濒危物种吗?
 

 

几年前,数据科学家还被誉为“21世纪最性感的职业”。就算到现在,Glassdoor的“美国最佳职位”排行榜中,“数据科学家”依然高居榜首。

 

但是,这个才出现没几年的职业现在似乎陷入了困顿。部分原因在于其必要性,虽然学校和程序员课程依然在批量制造出新的数据科学家军团,但这个岗位依然有很大空缺。在某些组织中,数据科学部门已经从原本的促进者演变为瓶颈。

 

与此同时,随着AI技术的大众化和自服务工具的飞速涌现,现在无论数据科学技能极为有限的数据工程师 ,甚至非技术型的数据分析师 ,都已经可以承担原本只能由数据科学家负责的基本任务。企业的大量数据工作,尤其是枯燥乏味的简单工作,将由数据工程师和数据分析师通过自动化工具来处理,而不再需要具备深厚技能的数据科学家参与。

 

也就是说,数据科学最终可能会完全由机器来处理。一些初创公司已经明确将自己的产品定位为“数据科学自动化”,其中最值得一提的包括刚刚获得5400万美元融资的DataRobot,SalesforceEinstein也宣称自己可以提供能自动生成的模型。

 

毫无疑问,这些趋势在数据科学社区不受欢迎,且存在一些争议。然而,数据科学家目前还不需要对此过于担心。在可预见的将来,自服务工具和自动化模型选择将会“强化”数据科学家的能力,而非彻底取代他们,他们可以将更多精力用于需要进行判断、创新、社交技能,或需要具备垂直行业知识的任务中。

 

让一切协同工作:数据工作台的崛起
 

 

在大多数大型企业中,大数据的运用通常都是从少数相对独立的项目开始的(这里部署个Hadoop集群,那里部署个分析工具),并且会产生一些新的职位(数据科学家、首席数据官)。

 

但现在异质性已经开始发展,各种各样的工具在整个企业范围内得到了使用。在大型企业中,集中化的“数据科学部门”正在让位于更加“去中心化的组织”,通常会有数据科学家、数据工程师,以及数据分析师组成的跨职能群体,正深入地融入到不同业务部门中。因此,对于平台来说,需求已经变的更加明确,那就是需要让所有人都能协作到一起来,因为大数据项目能否成功,主要取决于能否将不同技术、人员和流程完美融合在一起。

 

因此,一个全新的协作平台类型正在加速出现,并催生出一种所谓的“DataOps” (类似于DevOps)的概念。该领域值得关注的重大投资包括Knime(A轮,2千万美元)以及Domino Data Lab(A轮1千万美元)。Cloudera刚刚发布了一款基于所收购的Sense技术开发的工作台产品。这一领域的开源活动也很强劲,Jupyter和Anaconda就是例子。

 

3、应用程序

 

AI驱动的垂直应用程序
 

 

AI驱动的垂直应用程序的已经出现了好多年,但原本的溪流何时演变成了现在的滔天巨浪 ?突然之间,似乎每个人都开始开发AI应用程序,无论是新成立的,还是已经取得重大进展的初创公司,都开始在AI领域押注,希望能为自己创造下一轮增长点(例如InsideSales)。

 

在这种状况和趋势影响下,尽管有一些初创公司提出了很多激动人心的技术,但仍然存在挂羊头卖狗肉纯粹蹭热度的企业。在某些领域使用了某种机器学习技术的公司,并不算人工智能公司。

 

总地来说,AI初创公司的创建并不容易。而其中最关键的第一步在于选择一个垂直领域所面临的问题。除了要有深厚的技术DNA外,还需要深思熟虑的定位和策略。但是AI带来的无限可能性是很难不让人着迷的。

 

尤其是去年,把任何数据问题用AI来解决显然已成趋势,无论是企业一样还是垂直行业都是如此。考虑到现实情况,今年我们在图表的应用程序分类中添加了交通运输、房地产、保险业等垂直行业。同时还将一些非常活跃的行业拆分为两个类别,例如营销应用(拆分为B2B和B2C)以及生命科学(拆分为医疗健康和生命科学)。

 

除了这些领域外,还有一些非常新潮的应用(例如无人车),今天的AI技术正在缺乏想象力的企业应用领域发挥着作用,从人员流失预测到后端办公室自动化,再到安全,以不同形式提供了切实可行的收效。

 

AI导致人类失业的问题也许还没有得到政府部门的重视,但将来没有任何一个职业会不受影响。这些问题已得到很多白领职业的证明,例如医生或律师等。(参见 Ben Thompson:AI 已来,你最应该担心的不是生命,而是存在的意义)

 

尤其是金融领域,似乎一直在思考着AI的可能性和威胁。多年来艰难度日的对冲基金正在为自己的算法寻找合适的替代数据。由AI驱动的全新对冲基金(如Numerai、Data Capital Management 等)尽管还处在发展的早期阶段,但已经实现了快速发展。华尔街一些著名的事务所都在使用AI取代人力(BlackRock、 Goldman Sachs等)。

 

机器人的反击
 

 

无论是爱是恨,2016年都可谓是“机器人元年”。很多消息交流服务都提供全自动化的实时对话代理程序。聊天机器人尽管出现的时间不长,但已经经历了好几个炒作周期,从一开始的承诺,到Tay所面临的灾难(译注:Tay是微软提供的一种基于人工智能技术的聊天机器人),再到迷你复兴,乃至于Facebook在其Messenger平台推出的AI机器人错误率达到70%之后缩减了这方面的努力。

 

现在看来对于机器人程序的热情似乎有些早,原因可能是人们因为机器人程序在亚洲的崛起,或者Slack等底层基础架构的快速增长而得出了过于乐观的信号。当然,这种机器人程序有着巨大的潜力,但其真正成熟还需要很长的时间。

 

目前,无论是“生产商”(初创公司需要专注于每个具体的业务领域,少作承诺)还是“消费者”(我们都需要习惯于机器人程序可以和不能做到的事情,Alexa正在帮助我们意识到这些!)都需要调整我们的期待值。

 

现在,最美好的未来可能属于重要领域需要人类介入的服务,或者完全采取不同于机器人程序的定位,使用AI技术来增强人类能力的技术(我们得出这一结论的依据来自frame.ai)。

 

四、结论

 

大数据与AI强强联合,我们即将进入大数据技术的“收获”季节。忽略所有的炒作,其潜能将非常巨大。

 

随着核心基础设施以及应用程序端的不断成熟,AI驱动的应用正在蓬勃发展,2017年,大数据/AI生态将开足马力,驶向美好未来。

 

附录1:2016年大数据版图推出以来的完整收购清单(被收购者/收购者/收购金额)

 

2017年第一季度 (5家)

 

  • Mobileye / Intel / $15.3B

  • AppDynamics / Cisco / $3.7B

  • Nimble Storage / HPE / $1.1B

  • Kaggle / Google

  • Dextro / Taser

 

2016 年(36家)

 

  • Qlik / Thoma Bravo / $3B

  • Cruise Automation / GeneralMotors / $1B

  • Apigee / Google / $625M

  • OPower / Oracle / $532M

  • Tapad / Telenor / $360M

  • Nervana Systems / Intel /$350M

  • SwiftKey / Microsoft / $250M

  • Withings / Nokia / $191M

  • Circulate / Acxiom (LiveRamp)/ $140M

  • Altiscale / SAP / $125M

  • Viv Labs / Samsung / $100M

  • Connectifier / LinkedIn /$100M

  • Recombine / Cooper / $85M

  • MetaMind / Salesforce / $32.8M

  • Livefyre / Adobe

  • TempoIQ / Avant

  • DataHero / Cloudability

  • Sense / Cloudera

  • io / GE

  • ai / Google

  • EagleEye Analytics / Guidewire

  • Attensity / inContact

  • RJMetrics / Magento Commerce

  • Placemeter / Netgear

  • Kimono Labs / Palantir

  • Tute Genomics / PierianDx

  • Statwing / Qualtrics

  • PredictionIO / Salesforce

  • Roambi / SAP

  • Visually / ScribbleTechnologies

  • Preact / Spotify

  • Nuevora / Sutherland GlobalServices

  • Geometric Intelligence / Uber

  • Platfora / Workday

  • Driven / Xplenty

  • Gild / Citadel

 

附录2. 2017年大数据全景分块放大版

 

  • 基础架构(infrastructure)

 

 

 

  • 分析(analytics)

 

 

 

 

  • 基础架构跨界&分析(cross—infrastructure/analytics)

 

 

 

  • 开源系统(open source)

 

 

 

  • 数据源(DATA SOURCES)

 

 

 

  • 数据源&应用程序接口(DATA SOURCES & APIS)

 

 

 

  • 垂直行业应用(APPLICATIONS-INDUSTRY)

 

 

 

  • 企业应用(APPLICATIONS-ENTERPRISE)

 

 

 

 

作者简介

 

 

Matt Turck,FirstMark投资创始合伙人。

 

在FirstMark之前,他是彭博投资的董事总经理以并帮助启动彭博资讯孵化器。Matt是TripleHop技术创始人之一,TripleHop是由风险投资支持的企业搜索软件公司,后被Oracle收购。

 

Matt热衷于社区建设,并组织每月两大事件:数据驱动的纽约(侧重于数据驱动的初创公司和大数据)和硬纽约(其中重点的东西,互联网,3D打印,和可穿戴计算)。

 

Matt毕业于巴黎科学院,并持有耶鲁大学法学院法学硕士学位(硕士学位)。