问题标题:
科学大数据与数字地球郭东华等①19世纪70年代以来,随着第二次工业革命的爆发,新技术、新发明层出不穷,以文字为载体的数据量大约每10年翻一番;从工业化时代进入到信息化时代
问题描述:

科学大数据与数字地球

郭东华等

①19世纪70年代以来,随着第二次工业革命的爆发,新技术、新发明层出不穷,以文字为载体的数据量大约每10年翻一番;从工业化时代进入到信息化时代后,信息技术革命以前所未有的方式对社会、科技、经济变革的发展起着决定作用,数据量以每3年翻一番的速度持续增长;近10年来,随着计算机技术和互联网的快速发展,音频、视频、文字、图片等半结构化、非结构化的数据大量涌现,社交网络、物联网、云计算被广泛应用,使得数据存储量、规模、种类飞速增长,大数据时代已悄然来临。2012年12月,IDC发布的“2020 年的数字宇宙”报告中指出(图1),数据量将_________,预计_____全球数据总量达40ZB。

②随着大数据时代的到来,国内外学术界正在从各种角度来分析和理解大数据的概念与内涵。当前的大数据定义主要通过两种不同的视角试图刻画大数据的外部特征:一种是相对特征,即在用户可接受的时间范围内,使用普通设备不能获取、管理和处理的数据集;另一种是绝对特征,即体量大、类型多、真实性、变化速度快。

③因此,与传统的逻辑推理研究不同,大数据研究是对数量巨大的数据做统计性的搜索、比较、聚类和分类等分析归纳,进行“相关分析”,重点关注所谓“相关性”,即2个或2个以上变量的取值之间存在某种规律性,目的在于找出数据集里隐藏的相互关系网。

④在科学研究数据与日俱增的今天,我们把与科学相关的大数据称之为科学大数据。科学大数据将复杂性、综合性、全球性和信息与通信技术高度集成性等诸多特点融于一身,其研究方法也正在从单一学科向多学科、跨学科方向转变,从自然科学向自然科学与社会科学的充分融合方向过渡,从个人或者小型科研团体向国际科学组织方向发展。

⑤科学家不仅通过对广泛的数据实时、动态地监测与分析来解决难以解决或不可触及的科学问题,更是把数据作为科学研究的对象和工具,基于数据来思考、设计和实施科学研究。科学大数据正在使科学世界发生变化,科学研究已进入了一个全新的范式--数据密集型科学范式。近年来,美国国家科学基金会投入了大量资金支持数据密集型科学计算。其中, 由戴尔公司研发的超级计算机“Stampede”已正式服役,其综合处理能力、高可用性和高性能能力超群。美国南加州地震中心利用Stampede 预测了加州破坏性地震的频率。德州大学奥斯汀分校利用StampedE.通过详细的数据建模更好地描述了从南极洲到海洋的冰川流动。

⑥人类已进入“大数据时代”。作为一种技术创新,大数据计算符合一般的技术创新、发展、成熟规律。按照技术成熟度曲线(见图2),近20 年来新科技的成熟演变速度及要达到成熟所需的时间一般分成5 个阶段。

⑦大数据研究面临着学科间的不平衡,当前大数据的技术与方法研究主要集中在互联网大数据和商业大数据的相关应用,而在产生科学大数据的典型学科中较少受到关注。事实上,以这些学科为代表的科学大数据具有异于互联网大数据的特征以及丰富内涵,对于科学大数据的深入研究将有助于建立大数据学科的理论体系和技术框架。

⑧科学大数据是地球科学发现与知识创新的引擎,是人类认识行星地球的钥匙。科学大数据的发展应从顶层设计制定国家层面大数据战略,配置大数据研究资源,开展大数据基础理论研究,推动大数据在各领域的应用。科学大数据几乎涵盖了科学界的各领域,可运用到各行各业,它对科技、经济和社会的推动有着光明的前景。我国应加速发展大数据科学,有序组织科学大数据研究,以推动地球科学和相关科学技术的跨越性发展。数字地球是科学大数据的典型学科,数字地球学科中的数据获取与组织、分析、应用体现着科学大数据几乎全部特征。从科学大数据的角度分析,可以认为数字地球就是地球大数据,或者说数字地球就是基于地球大数据发展的学科方向。

(选自2014年《中国科学》,有删改)

(1)阅读第①段并根据图1填空:数据量将___,预计___全球数据总量达40ZB.

(2)阅读第②段,请给“大数据”下一个定义。

___

(3)请概括第③段的内容。

___

(4)第⑤段中,作者举超级计算机“Stampede”例子的目的是什么?

___

(5)阅读第⑥段,根据图2.用语言描述近20年来大数据发展的概况。

___

(6)下列对⑦⑧两段理解正确的一项是___

A.当前大数据的技术与方法研究在产生科学中受到关注。

B.

李凤保回答:
  (1)第一空根据时间段和增长的数据总量可知是“以每2年翻一番的速度持续增长”, 预计到2020年全球数据总量达40ZB.   (2)解答“下定义”首先明确下定义的一般格式:被定义概念(种概念)=种差+邻近属概念,然后在语段中提取、分析、整合出对应的“被定义概念”、“种差”、“邻近属概念”,最后表述成“×××是×××”的形式.这里“大数据”是“数据集”,特征第二段中讲的很清楚,有两个大的特征,概括时注意句式的变换即可.   (3)“大数据研究是对数量巨大的数据做统计性的搜索、比较、聚类和分类等分析归纳”是讲述大数据研究的方法;“目的在于找出数据集里隐藏的相互关系网”讲述大数据研究的目的.   (4)第五段的中心句是“科学家不仅通过对广泛的数据实时、动态地监测与分析来解决难以解决或不可触及的科学问题,更是把数据作为科学研究的对象和工具,基于数据来思考、设计和实施科学研究”,而举例正是为了说明这一点.   (5)根据第六段的内容可知,图表是讲“近20年来新科技的成熟演变速度及要达到成熟所需的时间一般分成5个阶段”,根据图表可知现阶段正处于膨胀的高峰期,再经过2-5年的时间到达实质生产的高峰期.   (6)第七段的中心句是对于科学大数据的深入研究将有助于建立大数据学科的理论体系和技术框架,第八段是进一步阐述,因此选B.   答案:   (1)以每2年翻一番的速度持续增长到2020年   (2)大数据是一种在用户可接受的时间范围内,试用普通设备不能获取、管理和处理的、体量大、类型多、真实性、变化速度快的数据集.   (3)大数据研究的方法与目的   (4)是为了说明(或证明)科学大数据能有效促进科学家思考、设计及实施科学研究.   (5)大数据的发展要经历五个阶段,现阶段正处于膨胀的高峰期,再经过2-5年的时间到达实质生产的高峰期.   (6)B
科学推荐
热门科学推荐