Hero Circle Shape
Hero Moon Shape
Hero Right Shape
比特派交易所下载|大数据技术与应用

比特派交易所下载|大数据技术与应用

  • 作者: 比特派交易所下载
  • 2024-03-17 06:56:36

大数据技术与应用(高校计算机类专业)_百度百科

术与应用(高校计算机类专业)_百度百科 网页新闻贴吧知道网盘图片视频地图文库资讯采购百科百度首页登录注册进入词条全站搜索帮助首页秒懂百科特色百科知识专题加入百科百科团队权威合作下载百科APP个人中心大数据技术与应用是一个多义词,请在下列义项上选择浏览(共6个义项)展开添加义项大数据技术与应用播报讨论上传视频高校计算机类专业收藏查看我的收藏0有用+10大数据技术与应用研究方向是将大数据分析挖掘与处理、移动开发与架构、软件开发、云计算等前沿技术相结合的“互联网+”前沿科技专业。本专业旨在培养学生系统掌握数据管理及数据挖掘方法,成为具备大数据分析处理、数据仓库管理、大数据平台综合部署、大数据平台应用软件开发和数据产品的可视化展现与分析能力的高级专业大数据技术人才。 [1]中文名大数据技术与应用外文名Big data technology and application所属学科计算机科学学    制专科3年专业代码610215目录1应用领域2主修课程3主要岗位应用领域播报编辑大数据技术被渗透到社会的方方面面,医疗卫生、商业分析、国家安全、食品安全、金融安全等方面。2014年,从大数据作为国家重要的战略资源和加快实现创新发展的高度,在全社会形成“用数据来说话、用数据来管理、用数据来决策、用数据来创新”的文化氛围与时代特征。大数据科学将成为计算机科学、人工智能技术(虚拟现实、商业机器人、自动驾驶、全能的自然语言处理)、数字经济及商业、物联网应用、还有各个人文社科领域发展的核心。 [2]主修课程播报编辑面向对象程序设计、Hadoop实用技术、数据挖掘、机器学习、数据统计分析、高等数学、Python编程、JAVA编程、数据库技术、Web开发、Linux操作系统、大数据平台搭建及运维、大数据应用开发、可视化设计与开发等。主要岗位播报编辑大数据项目实施工程师、大数据平台运维工程师、大数据平台开发工程师等。新手上路成长任务编辑入门编辑规则本人编辑我有疑问内容质疑在线客服官方贴吧意见反馈投诉建议举报不良信息未通过词条申诉投诉侵权信息封禁查询与解封©2024 Baidu 使用百度前必读 | 百科协议 | 隐私政策 | 百度百科合作平台 | 京ICP证030173号 京公网安备110000020000

林子雨编著《大数据技术原理与应用(第3版)》教材官网_厦门大学数据库实验室

林子雨编著《大数据技术原理与应用(第3版)》教材官网_厦门大学数据库实验室

厦门大学数据库实验室

首页

大数据课程公共服务平台

平台简介

大数据学习路线图

精华资源一览表

全部大数据教材

在线课程视频

大数据技术原理

大数据通识导论

大数据导论

大数据百家讲坛

虚拟教研室

实训课程教材

面向教师的服务站

巡讲公开课

示范班级

教师交流群

教师培训交流班

大数据技术博客

教材配套题库

公益在线实验平台

大数据教学研讨会

实验室介绍

师资力量

硕士研究生

相关介绍

硕士招生

荣誉榜

信息发布

实验室新闻

交流活动

讲座信息

院校新闻

娱乐活动

厦大校历

厦大资源

科学研究

发表论文

专题报告

小组讨论会

数据库系统体系结构

常用学术资料

学术会议网站全集

研究领域文档资料

大数据

云数据库

超大数据库

闪存数据库

实时主动数据仓库

RDB的关键字查询

教学工作

数据科学

大数据技术基础

数据库系统原理

分布式数据库技术

C语言程序设计

项目课题

相册

博客

厦门大学数据库实验室 > 教学工作 > 数据科学 > 林子雨编著《大数据技术原理与应用(第3版)》教材官网

林子雨编著《大数据技术原理与应用(第3版)》教材官网

林子雨

2020-12-16

(updated: 2023-12-28)

230577

(访问第2版教材官网)

《大数据技术原理与应用(第3版)》人民邮电出版社   ISBN:978-7-115-54405-6定价:59.8元    版次:2021年1月第3版

(备注:第4版教材书稿已经提交出版社,预计2024年6月上市销售)

作者:林子雨(ziyulin@xmu.edu.cn, https://dblab.xmu.edu.cn/post/linziyu)

配套课程荣获“2018年国家精品在线开放课程”和“2020年国家级线上一流本科课程”

观看MOOC课程视频

2019年福建省精品在线开放课程

全国500多所高校大数据课程选用本教材

京东、当当等各大网店畅销书籍,累计销量突破18万册

扫一扫手机访问本主页

教材配套资源快速访问链接

1.第2版教材官网(访问)2.教材配套大数据软件安装和编程实践指南(访问)3.教材配套实验指导书《大数据基础编程、实验和案例教程(第2版)》(访问教材官网)4.教材配套上机实验题目和答案、课后习题(选择题)题目和答案(需要实验和习题答案的老师,可以加入大数据课程教师交流群(QQ群号: 916443807,加群申请时需要提供高校和教师姓名进行验证),加入群以后,到群文件中,找到“大数据技术原理与应用(第3版)”目录,里面就可以下载了)5.教学大纲(下载)、教学进度表(下载)6.教材目录(查看)7.讲义PPT(下载)8.教材配套授课视频(在线MOOC)(观看)9.课程思政(下载)10.500道题库(获取题库)11.第23期大数据师资培训班(2024年1月13日-20日,厦门)(访问报名主页)

样书申请

授课教师可以向人民邮电出版社申请样书,出版社联系人孙澍(手机:18911351293)。

下载专区

下载专区提供了与教材配套的各种资料的下载,包括讲义PPT(最新版本)、教学大纲、软件、数据集等。可以直接访问百度网盘地址:https://pan.baidu.com/s/1lLjW9cmS1tkBHkrqtpkjWw)(提取码是ziyu)

作者介绍

林子雨(1978-),男,博士(毕业于北京大学),国内高校知名大数据教师,厦门大学计算机科学系副教授,厦门大学数据库实验室负责人,中国计算机学会数据库专委会委员,中国计算机学会信息系统专委会委员,中国高校首个“数字教师”提出者和建设者。2013年开始在厦门大学开设大数据课程,建设了国内高校首个大数据课程公共服务平台,平台累计网络访问量超过1000万次,成为全国高校大数据教学知名品牌,并荣获“2018年福建省教学成果二等奖”和“2018年厦门大学教学成果特等奖”,主持的课程《大数据技术原理与应用》获评“2018年国家精品在线开放课程”。

主要研究方向为数据库、数据仓库、数据挖掘、大数据、云计算和物联网,并以第一作者身份在《软件学报》《计算机学报》和《计算机研究与发展》等国家重点期刊以及国际学术会议上发表多篇学术论文。作为项目负责人主持的科研项目包括1项国家自然科学青年基金项目(No.61303004)、1项福建省自然科学青年基金项目(No.2013J05099)和1项中央高校基本科研业务费项目(No.2011121049)。

教材介绍

本书系统介绍了大数据的相关知识,分为大数据基础篇、大数据存储与管理篇、大数据处理与分析篇、大数据应用篇。全书共17章,内容包含大数据的基本概念、大数据处理架构Hadoop、分布式文件系统HDFS、分布式数据库HBase、NoSQL数据库、云数据库、MapReduce、数据仓库Hive、Spark、流计算、Flink、图计算、数据可视化以及大数据在互联网、生物医学领域和其他行业的应用。本书在Hadoop、HDFS、HBase、MapReduce、Hive、Spark和Flink等重要章节安排了入门级的实践操作,以便读者更好地学习和掌握大数据关键技术。

本书可以作为高等院校大数据、计算机、信息管理等相关专业的大数据课程教材,也可供相关技术人员参考。

前言

《大数据技术原理与应用(第2版)》于2017年1月出版,在过去的三年里,大数据技术又获得了新的发展,开源流计算框架Flink迅速崛起,在市场上和Spark展开了激烈的角逐。与此同时,Hadoop、HBase和Spark的版本也在不断更新升级,一些编程接口发生了变化。因此,为了适应大数据技术的新发展,继续保持本书的先进性和实用性,我们及时对第2版内容进行了补充和修订。

在篇章设计上,本书依然分为四大部分,包括大数据基础篇、大数据存储与管理篇、大数据处理与分析篇和大数据应用篇。在大数据基础篇中,第1章介绍大数据的基本概念和应用领域,并阐述大数据、云计算和物联网的相互关系;第2章介绍大数据处理架构Hadoop,并把Hadoop版本升级到了3.0。在大数据存储与管理篇中,第3章介绍了分布式文件系统HDFS,在编程实践部分根据3.0版本的HDFS进行了修订;第4章介绍了分布式数据库HBase,在编程实践部分根据HBase2.0版本的API进行了修订;第5章介绍了NoSQL数据库,并增加了实验内容;第6章介绍了云数据库,并删除了阿里云RDS的实践内容和相关实验。在大数据处理与分析篇中,第7章介绍了分布式并行编程模型MapReduce;在第8章中对Hadoop进行了再探讨,介绍了Hadoop的发展演化和一些新特性;第9章介绍了基于Hadoop的数据仓库Hive,该章节为本书新增内容,很多大数据教师建议增加此章内容;在第10章中介绍了当前比较热门的、基于内存的分布式计算框架Spark,并把Spark版本升级到了2.4.0;第11章介绍了流计算以及开源流计算框架Storm;第12章介绍了开源流处理框架Flink,该章节为本书新增内容,从而使本书能够反映当前最热门的新兴大数据技术;第13章介绍了典型的大数据分析技术——图计算;最后在第14章简单介绍了可视化技术。在大数据应用篇中,用3章(第15章~第17章)内容介绍了大数据在互联网、生物医学领域和其他行业的典型应用。

本书是厦门大学计算机科学系大数据课程的配套教材,根据近几年的教学实践,建议安排32学时理论课,16个教学周,每周2学时。每章的具体学时分配如下:第1、3、4、5、8、9、11、12、13、15章每章安排2学时;第2、7、10章每章安排4学时;第6、14、16、17章这四章内容由学生自学完成。已经建设大数据教学实验室的高校,可以增加16学时上机实践课。

本书自从2015年7月第1版出版发行以来,得到了越来越多高校一线大数据课程教师的肯定,目前已经成为众多国内高校的大数据课程开课教材。在本书的使用过程中,很多老师给我们团队反馈了大量宝贵的意见、建议以及教学过程中遇到的困惑。比如,如何根据自己高校的课时安排合理选取部分教材章节作为课程内容、如何搭建上机实验环境(采用分布式还是伪分布式)、是否要在教学环节一直使用最新版本的大数据软件、如何实现不同大数据课程之间的有序衔接、采用什么样的编程语言等等。我们团队在自己实际教学经验的基础上,积极为大家答疑解惑,并把相关信息及时发布到教材官网。同时,我们也建立了“大数据课程教师交流群”(QQ群号:461510122),为全国高校大数据一线教师提供在线的沟通交流平台,很多老师都发扬了互帮互助的精神,在群里分享经验、解答问题。

为了更好地使用本书开展大数据教学,笔者为本书编写了配套的实验手册《大数据基础编程、实验和案例教程(第2版)》(注意,不是第3版),该实验手册侧重于介绍大数据软件的安装、使用和基础编程方法,并提供了大量实验和案例。由于大数据软件都是开源软件,安装过程一般比较复杂,也很耗费时间。为了尽量减少读者搭建大数据实验环境时的障碍,笔者在实验手册中详细写出了各种大数据软件的安装过程,可以确保读者顺利完成大数据实验环境搭建。

本书官方网站是https://dblab.xmu.edu.cn/post/bigdata3/,免费提供了全部配套资源的在线浏览和下载,并接受错误反馈和发布勘误信息。同时,在学习大数据课程的过程中,欢迎读者访问厦门大学数据库实验室建设的国内高校首个大数据课程公共服务平台(https://dblab.xmu.edu.cn/post/bigdata-teaching-platform/),该平台为教师教学和学生学习大数据课程提供讲义PPT、学习指南、备课指南、上机习题、技术资料、授课视频等全方位、一站式免费服务。

本书由林子雨执笔。在撰写第3版过程中,厦门大学计算机科学系硕士研究生程璐、林哲、郑宛玉、陈杰祥、陈绍纬、周伟敬等同学做了大量辅助性工作,在此,向他们的辛勤工作表示衷心的感谢。

大数据技术处于快速发展变革之中,我们厦门大学数据库实验室团队会持续跟踪大数据技术发展趋势,努力保持本书内容的新颖性,并把一些较新的教学内容及时发布到本书官网。由于笔者能力有限,书中难免存在不足之处,望广大读者不吝赐教。

林子雨             

厦门大学计算机科学系数据库实验室 

2020年3月

篇章介绍

第一篇 大数据基础

本篇内容介绍大数据(Big Data)的基本概念、影响和应用领域,并阐述大数据、云计算和物联网的相互关系,同时还将介绍大数据处理架构Hadoop。由于Hadoop已经成为应用最为广泛的大数据技术,因此,本书的大数据相关技术主要围绕Hadoop展开,包括Hadoop MapReduce、HDFS和HBase。本篇内容是理解后续其他篇章内容的基础。

本篇包括2章。第一章介绍大数据的概念和应用,分析了大数据、云计算和物联网的相互关系;第二章介绍大数据处理架构Hadoop。

 第二篇 大数据存储

本篇介绍大数据存储相关技术的概念与原理,包括分布式文件系统HDFS、分布式数据库HBase、NoSQL数据库和云数据库。HDFS提供了在廉价服务器集群中进行大规模分布式文件存储的能力。HBase是一个高可靠、高性能、面向列、可伸缩的分布式数据库,主要用来存储非结构化和半结构化的松散数据。NoSQL数据库可以支持超大规模数据存储,灵活的数据模型可以很好地支持Web2.0应用,具有强大的横向扩展能力,可以有效弥补传统关系型数据库的不足。云数据库是部署和虚拟化在云计算环境中的数据库,可以将用户从繁琐的数据库硬件定制中解放出来,同时让用户拥有强大的数据库扩展能力,满足各种不同类型用户的数据存储需求。需要特别指出的是,虽然云数据库在概念上更偏向于云计算的范畴,但是,云计算和大数据是密不可分的两种技术,不能割裂看待,而且,了解云数据库有助于拓展对大数据存储和管理方式的认识,因此,本篇内容介绍了云数据库的概念和相关产品。

本篇包括4章。第三章介绍分布式文件系统HDFS;第四章介绍分布式数据库HBase;第五章介绍NoSQL数据库;第六章介绍云数据库。

第三篇 大数据处理与分析

本篇介绍大数据处理与分析的相关技术。大数据包括静态数据和动态数据(流数据),静态数据适合采用批处理方式,动态数据需要进行实时计算。分布式并行编程框架MapReduce可以大幅提高程序性能,实现高效的批量数据处理。Hive是一个基于Hadoop的数据仓库工具,可以用于对存储在Hadoop文件中的数据集进行数据整理、特殊查询和分析处理,用户通过编写类似SQL的HiveQL语句就可以运行MapReduce任务,不必编写复杂的MapReduce应用程序。基于内存的分布式计算框架Spark,是一个可应用于大规模数据处理的快速、通用引擎,如今是Apache软件基金会下的顶级开源项目之一,正以其结构一体化、功能多元化的优势,逐渐成为当今大数据领域最热门的大数据计算平台。流计算框架Storm是一个低延迟、可扩展、高可靠的处理引擎,可以有效解决流数据的实时计算问题。Flink是一种具有代表性的开源流处理架构,具有十分强大的功能,它实现了Google Dataflow流计算模型,是一种兼具高吞吐、低延迟和高性能的实时流计算框架,并且同时支持批处理和流处理。大数据中包括很多图结构数据,但是MapReduce不适合用来解决大规模图计算问题,因此新的图计算框架应运而生,Pregel就是其中一种具有代表性的产品。此外,数据可视化是大数据分析的最后环节,也是非常关键的一环,因此本篇简要介绍了数据可视化的概念和相关工具。本篇包括八章。第7章介绍分布式并行编程框架MapReduce;第8章对Hadoop进行了再探讨;第9章介绍基于Hadoop的数据仓库Hive;第10章介绍基于内存的分布式计算框架Spark;第11章介绍流计算和开源流计算框架Storm;第12章介绍开源流处理框架Flink;第13章介绍图计算框架Pregel;第14章简要介绍数据可视化的概念和相关工具。

第四篇 大数据应用

大数据已经在社会生产和日常生活中得到了广泛的应用,对人类社会的发展进步起着重要的推动作用。本篇介绍大数据在互联网、生物医学、物流、城市管理、金融、汽车、零售、餐饮、电信、能源、体育娱乐、安全、政府、日常生活等方面的应用,从中我们可以深刻地感受到大数据对社会的影响及其重要价值。

本篇包括3章。第15章以推荐系统为核心介绍大数据在互联网领域的应用;第16章介绍大数据在生物医学领域的应用;第17章介绍大数据在其他领域的应用。其中,第15章需要重点理解,其他章节可以作为开拓视野的拓展性阅读材料。

第3版教材目录

点击这里查看第3版教材详细目录

教学实践

本教材源自林子雨老师在厦门大学计算机系的多年教学实践,从2013年开始已经应用于厦门大学计算机系研究生课程《大数据技术基础》和厦门大学本科生课程《大数据技术原理与应用》的实践教学,受到学生的欢迎!点击这里访问《大数据技术基础》2013班级主页。

时间

课程名称

课程性质

授课对象

授课内容

教材

班级主页

2013年秋季学期

大数据基础基础

专业选修课

厦大计算机系2013级研究生

大数据技术原理,包括Hadoop,HDFS,HBase,MapReduce,NoSQL数据库、云数据库、流计算、图计算、Zookeeper、Google Spanner、Google Dremel等

林子雨编著《大数据技术基础》PDF免费开源电子书

访问主页

2016年春季学期

大数据处理技术

专业选修课

厦大计算机系2015级研究生

大数据技术原理与应用,包括Hadoop,HDFS,HBase,MapReduce,NoSQL数据库、云数据库、流计算、图计算、数据可视化、推荐系统、大数据在各个领域的应用等

林子雨编著《大数据技术原理与应用(第1版)》

访问主页

2017年春季学期

大数据处理基础

专业选修课

厦大计算机系2016级研究生

基于内存的分布式计算框架Spark,完整讲解整套Spark技术

林子雨编著在线版《Spark入门教程》

访问主页

2017年春季学期

大数据技术原理与应用

全校公共选修课

厦大本科生

大数据技术原理与应用,包括Hadoop,HDFS,HBase,MapReduce,NoSQL数据库、云数据库、流计算、图计算、数据可视化、推荐系统、大数据在各个领域的应用等

林子雨编著《大数据技术原理与应用(第2版)》

访问主页

2018年春季学期

大数据技术原理与应用

计算机系选修课

厦大计算机系大三本科生

大数据技术原理与应用,包括Hadoop,HDFS,HBase,MapReduce,NoSQL数据库、云数据库、流计算、图计算、数据可视化、推荐系统、大数据在各个领域的应用等

林子雨编著《大数据技术原理与应用(第2版)》

访问主页

2019年春季学期

大数据技术原理与应用

计算机系选修课

厦大计算机系大三本科生

大数据技术原理与应用,包括Hadoop,HDFS,HBase,MapReduce,NoSQL数据库、云数据库、流计算、图计算、数据可视化、推荐系统、大数据在各个领域的应用等

林子雨编著《大数据技术原理与应用(第2版)》

访问主页

2020年春季学期

大数据技术原理与应用

计算机系选修课

厦大计算机系大三本科生

大数据技术原理与应用,包括Hadoop,HDFS,HBase,MapReduce,NoSQL数据库、云数据库、流计算、图计算、数据可视化、推荐系统、大数据在各个领域的应用等

林子雨编著《大数据技术原理与应用(第2版)》

访问主页

教材勘误

注:在教材使用过程中,如发现任何错误,欢迎联系教材作者林子雨:ziyulin@xmu.edu.cn。在此向读者表示衷心的感谢!

致谢

本书由林子雨执笔。从2015年至今,已经诞生第1版、第2版和第3版教材,在各个版本教材的撰写过程中,实验室很多同学做了大量辅助性工作,包括厦门大学计算机科学系硕士研究生刘颖杰(2012级硕士研究生)、叶林宝(2012级硕士研究生)、蔡珉星(2013级硕士研究生)、李雨倩(女,2013级硕士研究生)、谢荣东(2014级硕士研究生)、罗道文(2014级硕士研究生)、邓少军(2014级硕士研究生)、阮榕城(2015级硕士研究生)、薛倩(2015级硕士研究生)、魏亮(2016级硕士研究生)、曾冠华(2016级硕士研究生)、程璐(2017级硕士研究生)、林哲(2017级硕士研究生)、郑宛玉(2018级硕士研究生)、陈杰祥(2018级硕士研究生)、陈绍纬(2019级硕士研究生)、周伟敬(2019级硕士研究生)以及本科生黄梓铭(2011级本科生)、李粲(女,2012级本科生)等。在此,向这些同学的辛勤工作表示衷心的感谢。同时,衷心感谢实验室夏小云老师对教材建设作出的大量奉献。

刘颖杰

叶林宝

蔡珉星

李雨倩

 

 

谢荣东

罗道文

黄梓铭

李粲

阮榕城

薛倩

魏亮

曾冠华

程璐

林哲

郑宛玉

陈杰祥

陈绍纬

周伟敬

夏小云

林子雨

 

<

林子雨编著《大数据技术原理与应用(第3版)》教材配套大数据软件安装和编程实践指南

>

第17期大数据师资培训班主页

最新内容更多

实验室举办大数据百家讲坛第117期

2024-03-08

实验室举办大数据百家讲坛第116期

2024-02-23

赖军、林添阳和陈德蓥等企业人士来访

2024-01-25

祝贺”大数据百家讲坛”荣获“2023年度合作伙伴共生奖”

2024-01-23

第23期大数据课程教师培训交流班主页

2024-01-10

实验室举办大数据百家讲坛第115期

2024-01-06

林子雨主讲《数据库系统原理》2024班级主页

2024-01-03

林子雨主讲《大数据技术原理与应用》2024班级主页

2024-01-03

林子雨主讲《大数据处理技术》2024班级主页

2024-01-03

第23期大数据师资培训班报名主页(Hadoop+Spark综合班,寒假,厦门,2024年1月13日-20日)

2024-01-01

热门内容更多《大数据技术原理与应用(第2版)》教材官网

2015-03-13林子雨编著《大数据技术原理与应用》教材配套大数据软件安装和编程实践指南

2016-01-24大数据学习路线图

2018-09-22林子雨编著《大数据技术原理与应用(第3版)》教材官网

2020-12-16重磅:大数据课程实验案例:网站用户行为分析(免费共享)

2016-11-27林子雨

2012-01-13Spark课程综合实验案例:淘宝双11数据分析与预测

2017-03-06林子雨编著《大数据技术原理与应用(第3版)》教材配套大数据软件安装和编程实践指南

2020-12-01林子雨主讲入门级大数据在线课程

2015-11-14《Spark编程基础(Scala版)》教材官网

2017-09-09



© 2014 厦门大学数据库实验室, All Rights Reserved.

大数据技术原理与应用_厦门大学_中国大学MOOC(慕课)

大数据技术原理与应用_厦门大学_中国大学MOOC(慕课)

课程

学校

学校云

慕课堂

下载APP

扫码下载官方APP

登录  |  注册

播放

国家精品

获得国家精品在线开放课程认定的课程

了解更多

大数据技术原理与应用

分享

课程详情

课程评价

spContent=入门级大数据课程,获评教育部“2018年国家精品在线开放课程”和“2020年国家级线上一流本科课程”,适合初学者,完备的课程在线服务体系,可以帮助初学者实现“零基础”学习大数据。课程指导思想是“构建知识体系、阐明基本原理、引导初级实践、了解相关应用”。课程由国内高校知名大数据教师厦门大学林子雨老师主讲。配套的《大数据技术原理与应用(第3版)》教材已经被500多所高校采用。

—— 课程团队

课程概述

入门级大数据课程,适合初学者,完备的课程在线服务体系,可以帮助初学者实现“零基础”学习大数据课程。课程采用厦门大学林子雨老师编著的国内高校第一本系统性介绍大数据知识专业教材《大数据技术原理与应用》。课程紧紧围绕“构建知识体系、阐明基本原理、引导初级实践、了解相关应用”的指导思想,对大数据知识体系进行系统梳理,做到“有序组织、去粗取精、由浅入深、渐次展开”。课程由国内高校知名大数据教师厦门大学林子雨副教授主讲。课程内容(固定在每周一上午10点发布一章内容):第一讲:大数据概述(2024年2月26日发布)第二讲:大数据处理架构Hadoop(2024年3月4日发布)第三讲:分布式文件系统HDFS(2024年3月11日发布)第四讲:分布式数据库HBase(2024年3月18日发布)第五讲:NoSQL数据库(2024年3月25日发布)第六讲:云数据库(2024年4月1日发布)第七讲:MapReduce(2024年4月8日发布)第八讲:Hadoop架构再探讨(2024年4月15日发布)第九讲:数据仓库Hive(2024年4月22日发布)第十讲:Spark(2024年4月29日发布)第十一讲:流计算(2024年5月6日发布)第十二讲:Flink(2024年5月13日发布)第十三讲:图计算(2024年5月20日发布)第十四讲:大数据在不同领域的应用(2024年5月27日发布)期末考试:2024年6月3日上午10点到6月9日晚上9点学习完本入门级课程以后,欢迎继续在中国大学MOOC平台学习后续的进阶级大数据课程《Spark编程基础》(课程地址:https://www.icourse163.org/course/XMU-1205811805)

授课目标

课程的定位是入门级课程,本课程的目标是为学生搭建起通向“大数据知识空间”的桥梁和纽带。本课程将系统梳理总结大数据相关技术,介绍大数据技术的基本原理和大数据主要应用,帮助学生形成对大数据知识体系及其应用领域的轮廓性认识,为学生在大数据领域“深耕细作”奠定基础、指明方向。

课程大纲

预备知识

面向对象编程(比如Java)、数据库、操作系统

证书要求

为积极响应国家低碳环保政策, 2021年秋季学期开始,中国大学MOOC平台将取消纸质版的认证证书,仅提供电子版的认证证书服务,证书申请方式和流程不变。 电子版认证证书支持查询验证,可通过扫描证书上的二维码进行有效性查询,或者访问 https://www.icourse163.org/verify,通过证书编号进行查询。学生可在“个人中心-证书-查看证书”页面自行下载、打印电子版认证证书。 完成课程教学内容学习和考核,成绩达到课程考核标准的学生(每门课程的考核标准不同,详见课程内的评分标准),具备申请认证证书资格,可在证书申请开放期间(以申请页面显示的时间为准),完成在线付费申请。 认证证书申请注意事项:1. 根据国家相关法律法规要求,认证证书申请时要求进行实名认证,请保证所提交的实名认证信息真实完整有效。2. 完成实名认证并支付后,系统将自动生成并发送电子版认证证书。电子版认证证书生成后不支持退费。

参考资料

林子雨.大数据技术原理与应用(第3版),人民邮电出版社,2021年1月(教材官网)。林子雨.大数据导论(通识课版),高等教育出版社,2020年2月(教材官网)林子雨-大数据基础编程、实验和案例教程(第2版),清华大学出版社,2020年10月(教材官网)。林子雨,赖永炫,陶继平.Spark编程基础(Scala版),人民邮电出版社,2018年8月(教材官网)。高校大数据课程公共服务平台:https://dblab.xmu.edu.cn/post/8197/大数据学习路线图:https://dblab.xmu.edu.cn/post/10164/【后续学习内容】学习完本入门级课程以后,欢迎继续在中国大学MOOC平台学习后续的进阶级大数据课程《Spark编程基础》(课程地址:https://www.icourse163.org/course/XMU-1205811805)

由高教社联手网易推出,让每一个有提升愿望的用户能够学到中国知名高校的课程,并获得认证。

友情链接

网易云课堂

智慧高教

关注我们

关于我们

关于我们

学校云

联系我们

常见问题

意见反馈

法律条款

网上有害信息举报(涉未成年人):网站 https://www.12377.cn 邮箱(涉未成年人) youdao_jubao@rd.netease.com

粤B2-20090191-26

| 京ICP备12020869号-2 |

京公网安备44010602000207

©2014-2024

icourse163.org

浙公网安备 33010802012594号

大数据:发展现状与未来趋势_中国人大网

大数据:发展现状与未来趋势_中国人大网

当前位置:首页

十三届全国人大常委会专题讲座第十四讲

大数据:发展现状与未来趋势

梅宏

来源: 中国人大网  浏览字号: 大 中 小

2019年10月30日 16:22

中国特色社会主义进入新时代,实现中华民族伟大复兴的中国梦开启新征程。党中央决定实施国家大数据战略,吹响了加快发展数字经济、建设数字中国的号角。习近平总书记在十九届中共中央政治局第二次集体学习时的重要讲话中指出:“大数据是信息化发展的新阶段”,并做出了“推动大数据技术产业创新发展、构建以数据为关键要素的数字经济、运用大数据提升国家治理现代化水平、运用大数据促进保障和改善民生、切实保障国家数据安全”的战略部署,为我国构筑大数据时代国家综合竞争新优势指明了方向!

今天,我拟回顾大数据的发端、发展和现状,研判大数据的未来趋势,简述我国大数据发展的态势,并汇报我对信息化新阶段和数字经济的认识,以及对我国发展大数据的若干思考和建议。

一、大数据的发端与发展

从文明之初的“结绳记事”,到文字发明后的“文以载道”,再到近现代科学的“数据建模”,数据一直伴随着人类社会的发展变迁,承载了人类基于数据和信息认识世界的努力和取得的巨大进步。然而,直到以电子计算机为代表的现代信息技术出现后,为数据处理提供了自动的方法和手段,人类掌握数据、处理数据的能力才实现了质的跃升。信息技术及其在经济社会发展方方面面的应用(即信息化),推动数据(信息)成为继物质、能源之后的又一种重要战略资源。

“大数据”作为一种概念和思潮由计算领域发端,之后逐渐延伸到科学和商业领域。大多数学者认为,“大数据”这一概念最早公开出现于1998年,美国高性能计算公司SGI的首席科学家约翰·马西(John Mashey)在一个国际会议报告中指出:随着数据量的快速增长,必将出现数据难理解、难获取、难处理和难组织等四个难题,并用“Big Data(大数据)”来描述这一挑战,在计算领域引发思考。2007年,数据库领域的先驱人物吉姆·格雷(Jim Gray)指出大数据将成为人类触摸、理解和逼近现实复杂系统的有效途径,并认为在实验观测、理论推导和计算仿真等三种科学研究范式后,将迎来第四范式——“数据探索”,后来同行学者将其总结为“数据密集型科学发现”,开启了从科研视角审视大数据的热潮。2012年,牛津大学教授维克托·迈尔-舍恩伯格(Viktor Mayer-Schnberger)在其畅销著作《大数据时代(Big Data: A Revolution That Will Transform How We Live,Work,and Think)》中指出,数据分析将从“随机采样”、“精确求解”和“强调因果”的传统模式演变为大数据时代的“全体数据”、“近似求解”和“只看关联不问因果”的新模式,从而引发商业应用领域对大数据方法的广泛思考与探讨。

大数据于2012、2013年达到其宣传高潮,2014年后概念体系逐渐成形,对其认知亦趋于理性。大数据相关技术、产品、应用和标准不断发展,逐渐形成了包括数据资源与API、开源平台与工具、数据基础设施、数据分析、数据应用等板块构成的大数据生态系统,并持续发展和不断完善,其发展热点呈现了从技术向应用、再向治理的逐渐迁移。经过多年来的发展和沉淀,人们对大数据已经形成基本共识:大数据现象源于互联网及其延伸所带来的无处不在的信息技术应用以及信息技术的不断低成本化。大数据泛指无法在可容忍的时间内用传统信息技术和软硬件工具对其进行获取、管理和处理的巨量数据集合,具有海量性、多样性、时效性及可变性等特征,需要可伸缩的计算体系结构以支持其存储、处理和分析。

大数据的价值本质上体现为:提供了一种人类认识复杂系统的新思维和新手段。就理论上而言,在足够小的时间和空间尺度上,对现实世界数字化,可以构造一个现实世界的数字虚拟映像,这个映像承载了现实世界的运行规律。在拥有充足的计算能力和高效的数据分析方法的前提下,对这个数字虚拟映像的深度分析,将有可能理解和发现现实复杂系统的运行行为、状态和规律。应该说大数据为人类提供了全新的思维方式和探知客观规律、改造自然和社会的新手段,这也是大数据引发经济社会变革最根本性的原因。

二、大数据的现状与趋势

全球范围内,研究发展大数据技术、运用大数据推动经济发展、完善社会治理、提升政府服务和监管能力正成为趋势。下面将从应用、治理和技术三个方面对当前大数据的现状与趋势进行梳理。

一是已有众多成功的大数据应用,但就其效果和深度而言,当前大数据应用尚处于初级阶段,根据大数据分析预测未来、指导实践的深层次应用将成为发展重点。

按照数据开发应用深入程度的不同,可将众多的大数据应用分为三个层次。第一层,描述性分析应用,是指从大数据中总结、抽取相关的信息和知识,帮助人们分析发生了什么,并呈现事物的发展历程。如美国的DOMO公司从其企业客户的各个信息系统中抽取、整合数据,再以统计图表等可视化形式,将数据蕴含的信息推送给不同岗位的业务人员和管理者,帮助其更好地了解企业现状,进而做出判断和决策。第二层,预测性分析应用,是指从大数据中分析事物之间的关联关系、发展模式等,并据此对事物发展的趋势进行预测。如微软公司纽约研究院研究员David Rothschild通过收集和分析赌博市场、好莱坞证券交易所、社交媒体用户发布的帖子等大量公开数据,建立预测模型,对多届奥斯卡奖项的归属进行预测。2014和2015年,均准确预测了奥斯卡共24个奖项中的21个,准确率达87.5%。第三层,指导性分析应用,是指在前两个层次的基础上,分析不同决策将导致的后果,并对决策进行指导和优化。如无人驾驶汽车分析高精度地图数据和海量的激光雷达、摄像头等传感器的实时感知数据,对车辆不同驾驶行为的后果进行预判,并据此指导车辆的自动驾驶。

当前,在大数据应用的实践中,描述性、预测性分析应用多,决策指导性等更深层次分析应用偏少。一般而言,人们做出决策的流程通常包括:认知现状、预测未来和选择策略这三个基本步骤。这些步骤也对应了上述大数据分析应用的三个不同类型。不同类型的应用意味着人类和计算机在决策流程中不同的分工和协作。例如:第一层次的描述性分析中,计算机仅负责将与现状相关的信息和知识展现给人类专家,而对未来态势的判断及对最优策略的选择仍然由人类专家完成。应用层次越深,计算机承担的任务越多、越复杂,效率提升也越大,价值也越大。然而,随着研究应用的不断深入,人们逐渐意识到前期在大数据分析应用中大放异彩的深度神经网络尚存在基础理论不完善、模型不具可解释性、鲁棒性较差等问题。因此,虽然应用层次最深的决策指导性应用,当前已在人机博弈等非关键性领域取得较好应用效果,但是,在自动驾驶、政府决策、军事指挥、医疗健康等应用价值更高,且与人类生命、财产、发展和安全紧密关联的领域,要真正获得有效应用,仍面临一系列待解决的重大基础理论和核心技术挑战。在此之前,人们还不敢、也不能放手将更多的任务交由计算机大数据分析系统来完成。这也意味着,虽然已有很多成功的大数据应用案例,但还远未达到我们的预期,大数据应用仍处于初级阶段。未来,随着应用领域的拓展、技术的提升、数据共享开放机制的完善,以及产业生态的成熟,具有更大潜在价值的预测性和指导性应用将是发展的重点。

二是大数据治理体系远未形成,特别是隐私保护、数据安全与数据共享利用效率之间尚存在明显矛盾,成为制约大数据发展的重要短板,各界已经意识到构建大数据治理体系的重要意义,相关的研究与实践将持续加强。

随着大数据作为战略资源的地位日益凸显,人们越来越强烈地意识到制约大数据发展最大的短板之一就是:数据治理体系远未形成,如数据资产地位的确立尚未达成共识,数据的确权、流通和管控面临多重挑战;数据壁垒广泛存在,阻碍了数据的共享和开放;法律法规发展滞后,导致大数据应用存在安全与隐私风险;等等。如此种种因素,制约了数据资源中所蕴含价值的挖掘与转化。

其中,隐私、安全与共享利用之间的矛盾问题尤为凸显。一方面,数据共享开放的需求十分迫切。近年来人工智能应用取得的重要进展,主要源于对海量、高质量数据资源的分析和挖掘。而对于单一组织机构而言,往往靠自身的积累难以聚集足够的高质量数据。另外,大数据应用的威力,在很多情况下源于对多源数据的综合融合和深度分析,从而获得从不同角度观察、认知事物的全方位视图。而单个系统、组织的数据往往仅包含事物某个片面、局部的信息,因此,只有通过共享开放和数据跨域流通才能建立信息完整的数据集。

然而,另一方面,数据的无序流通与共享,又可能导致隐私保护和数据安全方面的重大风险,必须对其加以规范和限制。例如,鉴于互联网公司频发的、由于对个人数据的不正当使用而导致的隐私安全问题,欧盟制定了“史上最严格的”数据安全管理法规《通用数据保护条例》(General Data Protection Regulation,GDPR),并于2018年5月25日正式生效。《条例》生效后,Facebook和谷歌等互联网企业即被指控强迫用户同意共享个人数据而面临巨额罚款,并被推上舆论的风口浪尖。2020年1月1日,被称为美国“最严厉、最全面的个人隐私保护法案”——《加利福利亚消费者隐私法案》(CCPA)将正式生效。CCPA规定了新的消费者权利,旨在加强消费者隐私权和数据安全保护,涉及企业收集的个人信息的访问、删除和共享,企业负有保护个人信息的责任,消费者控制并拥有其个人信息,这是美国目前最具典型意义的州隐私立法,提高了美国保护隐私的标准。在这种情况下,过去利用互联网平台中心化搜集用户数据,实现平台化的精准营销的这一典型互联网商业模式将面临重大挑战。

我国在个人信息保护方面也开展了较长时间的工作,针对互联网环境下的个人信息保护,制定了《全国人民代表大会常务委员会关于加强网络信息保护的决定》《电信和互联网用户个人信息保护规定》《全国人民代表大会常务委员会关于维护互联网安全的决定》和《消费者权益保护法》等相关法律文件。特别是2016年11月7日,全国人大常委会通过的《中华人民共和国网络安全法》中明确了对个人信息收集、使用及保护的要求,并规定了个人对其个人信息进行更正或删除的权利。2019年,中央网信办发布了《数据安全管理办法(征求意见稿)》,向社会公开征求意见,明确了个人信息和重要数据的收集、处理、使用和安全监督管理的相关标准和规范。相信这些法律法规将在促进数据的合规使用、保障个人隐私和数据安全等方面发挥不可或缺的重要作用。然而,从体系化、确保一致性、避免碎片化考虑,制订专门的数据安全法、个人信息保护法是必要的。

另一方面,我们也应看到,这些法律法规也将在客观上不可避免地增加数据流通的成本、降低数据综合利用的效率。如何兼顾发展和安全,平衡效率和风险,在保障安全的前提下,不因噎废食,不对大数据价值的挖掘利用造成过分的负面影响,是当前全世界在数据治理中面临的共同课题。

近年来,围绕大数据治理这一主题及其相关问题,国际上已有不少成功的实践和研究探索工作,诸如在国家层面推出的促进数据共享开放、保障数据安全和保护公民隐私的相关政策和法规,针对企业机构的数据管理能力评估和改善,面向数据质量保证的方法与技术,促进数据互操作的技术规范和标准等。然而,考察当前的研究和实践,仍存在三个方面的主要问题。

一是大数据治理概念的使用相对“狭义”,研究和实践大都以企业组织为对象,仅从个体组织的角度考虑大数据治理的相关问题,这与大数据跨界流动的迫切需求存在矛盾,限制了大数据价值的发挥。二是现有研究实践对大数据治理内涵的理解尚未形成共识,不同研究者从流程设计、信息治理和数据管理应用等不同视角,给出了大数据治理的不同定义,共识的形成尚有待时日!三是大数据治理相关的研究实践多条线索并行,关联性、完整性和一致性不足。诸如,国家层面的政策法规和法律制定等较少被纳入大数据治理的视角;数据作为一种资产的地位仍未通过法律法规予以确立,难以进行有效的管理和应用;大数据管理已有不少可用技术与产品,但还缺乏完善的多层级管理体制和高效管理机制;如何有机结合技术与标准,建立良好的大数据共享与开放环境仍需要进一步探索。缺少系统化设计,仅仅在已有的相关体系上进行扩展和延伸,可能会导致数据治理的“碎片化”和一致性缺失等等。

当前,各界已经普遍认识到了大数据治理的重要意义,大数据治理体系建设已经成为大数据发展重点,但仍处在发展的雏形阶段,推进大数据治理体系建设将是未来较长一段时间内需要持续努力的方向。

三是数据规模高速增长,现有技术体系难以满足大数据应用的需求,大数据理论与技术远未成熟,未来信息技术体系将需要颠覆式创新和变革。

近年来,数据规模呈几何级数高速成长。据国际信息技术咨询企业国际数据公司(IDC)的报告,2020年全球数据存储量将达到44ZB(1021),到2030年将达到2500ZB。当前,需要处理的数据量已经大大超过处理能力的上限,从而导致大量数据因无法或来不及处理,而处于未被利用、价值不明的状态,这些数据被称为“暗数据”。据国际商业机器公司(IBM)的研究报告估计,大多数企业仅对其所有数据的1%进行了分析应用。

近年来,大数据获取、存储、管理、处理、分析等相关的技术已有显著进展,但是大数据技术体系尚不完善,大数据基础理论的研究仍处于萌芽期。首先,大数据定义虽已达成初步共识,但许多本质问题仍存在争议,例如:数据驱动与规则驱动的对立统一、“关联”与“因果”的辩证关系、“全数据”的时空相对性、分析模型的可解释性与鲁棒性等;其次,针对特定数据集和特定问题域已有不少专用解决方案,是否有可能形成“通用”或“领域通用”的统一技术体系,仍有待未来的技术发展给出答案;其三,应用超前于理论和技术发展,数据分析的结论往往缺乏坚实的理论基础,对这些结论的使用仍需保持谨慎态度。

推演信息技术的未来发展趋势,较长时期内仍将保持渐进式发展态势,随技术发展带来的数据处理能力的提升将远远落后于按指数增长模式快速递增的数据体量,数据处理能力与数据资源规模之间的“剪刀差”将随时间持续扩大,大数据现象将长期存在。在此背景下,大数据现象倒逼技术变革,将使得信息技术体系进行一次重构,这也带来了颠覆式发展的机遇。例如,计算机体系结构以数据为中心的宏观走向和存算一体的微观走向,软件定义方法论的广泛采用,云边端融合的新型计算模式等;网络通信向宽带、移动、泛在发展,海量数据的快速传输和汇聚带来的网络的Pb/s级带宽需求,千亿级设备联网带来的Gb/s级高密度泛在移动接入需求;大数据的时空复杂度亟需在表示、组织、处理和分析等方面的基础性原理性突破,高性能、高时效、高吞吐等极端化需求呼唤基础器件的创新和变革;软硬件开源开放趋势导致产业发展生态的重构;等等。

三、大数据与数字经济

大数据是信息技术发展的必然产物,更是信息化进程的新阶段,其发展推动了数字经济的形成与繁荣。信息化已经历了两次高速发展的浪潮,始于上世纪80年代,随个人计算机大规模普及应用所带来的以单机应用为主要特征的数字化(信息化1.0),及始于上世纪90年代中期,随互联网大规模商用进程所推动的以联网应用为主要特征的网络化(信息化2.0)。当前,我们正在进入以数据的深度挖掘和融合应用为主要特征的智能化阶段(信息化3.0)。在“人机物”三元融合的大背景下,以“万物均需互联、一切皆可编程”为目标,数字化、网络化和智能化呈融合发展新态势。

在信息化发展历程中,数字化、网络化和智能化是三条并行不悖的主线。数字化奠定基础,实现数据资源的获取和积累;网络化构建平台,促进数据资源的流通和汇聚;智能化展现能力,通过多源数据的融合分析呈现信息应用的类人智能,帮助人类更好地认知复杂事物和解决问题。

信息化新阶段开启的另一个重要表征是信息技术开始从助力经济发展的辅助工具向引领经济发展的核心引擎转变,进而催生一种新的经济范式—“数字经济”。数字经济是指以数字化知识和信息为关键生产要素、以现代信息网络为重要载体、以信息通信技术的有效使用为效率提升和经济结构优化的重要推动力的一系列经济活动,是以新一代信息技术和产业为依托,继农业经济、工业经济之后的新经济形态。从构成上看,农业经济属单层结构,以农业为主,配合以其他行业,以人力、畜力和自然力为动力,使用手工工具,以家庭为单位自给自足,社会分工不明显,行业间相对独立;工业经济是两层结构,即提供能源动力和行业制造设备的装备制造产业,以及工业化后的各行各业,并形成分工合作的工业体系。数字经济则可分为三个层次:提供核心动能的信息技术及其装备产业、深度信息化的各行各业以及跨行业数据融合应用的数据增值产业。当前,数字经济正处于成型展开期,将进入信息技术引领经济发展的爆发期、黄金期!

从另一个视角来看,如果说过去20多年,互联网高速发展引发了一场社会经济的“革命”,深刻地改变了人类社会,现在可以看到,互联网革命的上半场已经结束。上半场的主要特征是“2C”(面向最终用户),主战场是面向个人提供社交、购物、教育、娱乐等服务,可称为“消费互联网”。而互联网革命的下半场正在开启,其主要特征将是“2B”(面向组织机构),重点在于促进供给侧的深刻变革,互联网应用将面向各行业,特别是制造业,以优化资源配置、提质增效为目标,构建以工业物联为基础和工业大数据为要素的工业互联网。作为互联网发展的新领域,工业互联网是新一代信息技术与生产技术深度融合的产物,它通过人、机、物的深度互联,全要素、全产业链、全价值链的全面链接,推动形成新的工业生产制造和服务体系。当前,新一轮工业革命正在拉开帷幕,在全球范围内不断颠覆传统制造模式、生产组织方式和产业形态,而我国正处于由数量和规模扩张向质量和效益提升转变的关键期,需要抓住历史机遇期,促进新旧动能转换,形成竞争新优势。我国是制造大国和互联网大国,推动工业互联网创新发展具备丰富的应用场景、广阔的市场空间和巨大的推进动力。

数字经济未来发展呈现如下趋势:一是以互联网为核心的新一代信息技术正逐步演化为人类社会经济活动的基础设施,并将对原有的物理基础设施完成深度信息化改造和软件定义,在其支撑下,人类极大地突破了沟通和协作的时空约束,推动平台经济、共享经济等新经济模式快速发展。以平台经济中的零售平台为例,百货大楼在前互联网时代对促进零售业发展起到了重要作用。而从上世纪九十年代中后期开始,伴随互联网的普及,电子商务平台逐渐兴起。与要求供需方必须在同一时空达成交易的百货大楼不同,电子商务平台依托互联网,将遍布全球各个角落的消费者、供货方连接在一起,并聚合物流、支付、信用管理等配套服务,突破了时空约束,大幅减少了中间环节,降低了交易成本,提高了交易效率。按阿里研究院的报告,过去十年间,中国电子商务规模增长了10倍,并呈加速发展趋势。二是各行业工业互联网的构建将促进各种业态围绕信息化主线深度协作、融合,在完成自身提升变革的同时,不断催生新的业态,并使一些传统业态走向消亡。如随着无人驾驶汽车技术的成熟和应用,传统出租车业态将可能面临消亡。其他很多重复性的、对创新创意要求不高的传统行业也将退出历史舞台。2017年10月,《纽约客》杂志报道了剑桥大学两名研究者对未来365种职业被信息技术淘汰的可能性分析,其中电话推销员、打字员、会计等职业高居榜首。三是在信息化理念和政务大数据的支撑下,政府的综合管理服务能力和政务服务的便捷性持续提升,公众积极参与社会治理,形成共策共商共治的良好生态。四是信息技术体系将完成蜕变升华式的重构,释放出远超当前的技术能力,从而使蕴含在大数据中的巨大价值得以充分释放,带来数字经济的爆发式增长。

四、我国大数据发展的态势

党的十八届五中全会将大数据上升为国家战略。回顾过去几年的发展,我国大数据发展可总结为:“进步长足,基础渐厚;喧嚣已逝,理性回归;成果丰硕,短板仍在;势头强劲,前景光明”。

作为人口大国和制造大国,我国数据产生能力巨大,大数据资源极为丰富。随着数字中国建设的推进,各行业的数据资源采集、应用能力不断提升,将会导致更快更多的数据积累。预计到2020年,我国数据总量有望达到8000EB(1018),占全球数据总量的21%,将成为名列前茅的数据资源大国和全球数据中心。

我国互联网大数据领域发展态势良好,市场化程度较高,一些互联网公司建成了具有国际领先水平的大数据存储与处理平台,并在移动支付、网络征信、电子商务等应用领域取得国际先进甚至领先的重要进展。然而,大数据与实体经济融合还远不够,行业大数据应用的广度和深度明显不足,生态系统亟待形成和发展。

随着政务信息化的不断发展,各级政府积累了大量与公众生产生活息息相关的信息系统和数据,并成为最具价值数据的保有者。如何盘活这些数据,更好地支撑政府决策和便民服务,进而引领促进大数据事业发展,是事关全局的关键。2015年9月,国务院发布《促进大数据发展行动纲要》,其中重要任务之一就是“加快政府数据开放共享,推动资源整合,提升治理能力”,并明确了时间节点,2017年跨部门数据资源共享共用格局基本形成;2018年建成政府主导的数据共享开放平台,打通政府部门、企事业单位间的数据壁垒,并在部分领域开展应用试点;2020年实现政府数据集的普遍开放。随后,国务院和国务院办公厅又陆续印发了系列文件,推进政务信息资源共享管理、政务信息系统整合共享、互联网+政务服务试点、政务服务一网一门一次改革等,推进跨层级、跨地域、跨系统、跨部门、跨业务的政务信息系统整合、互联、协同和数据共享,用政务大数据支撑“放管服”改革落地,建设数字政府和智慧政府。目前,我国政务领域的数据开放共享已取得了重要进展和明显效果。例如:浙江省推出的“最多跑一次”改革,是推进供给侧结构性改革、落实“放管服”改革、优化营商环境的重要举措。以衢州市不动产交易为例,通过设立综合窗口再造业务流程,群众由原来跑国土、住建、税务3个窗口8次提交3套材料,变为只跑综合窗口1个窗口1次提交1套材料,效率大幅提高。据有关统计,截至2019年上半年,我国已有82个省级、副省级和地级政府上线了数据开放平台,涉及41.93%的省级行政区、66.67%的副省级城市和18.55%的地级城市。

我国已经具备加快技术创新的良好基础。在科研投入方面,前期通过国家科技计划在大规模集群计算、服务器、处理器芯片、基础软件等方面系统性部署了研发任务,成绩斐然。“十三五”期间在国家重点研发计划中实施了“云计算和大数据”重点专项。当前科技创新2030大数据重大项目正在紧锣密鼓地筹划、部署中。我国在大数据内存计算、协处理芯片、分析方法等方面突破了一些关键技术,特别是打破“信息孤岛”的数据互操作技术和互联网大数据应用技术已处于国际领先水平;在大数据存储、处理方面,研发了一些重要产品,有效地支撑了大数据应用;国内互联网公司推出的大数据平台和服务,处理能力跻身世界前列。

国家大数据战略实施以来,地方政府纷纷响应联动、积极谋划布局。国家发改委组织建设11个国家大数据工程实验室,为大数据领域相关技术创新提供支撑和服务。发改委、工信部、中央网信办联合批复贵州、上海、京津冀、珠三角等8个综合试验区,正在加快建设。各地方政府纷纷出台促进大数据发展的指导政策、发展方案、专项政策和规章制度等,使大数据发展呈蓬勃之势。

然而,我们也必须清醒地认识到我国在大数据方面仍存在一系列亟待补上的短板。

一是大数据治理体系尚待构建。首先,法律法规滞后。目前,我国尚无真正意义上的数据管理法规,只在少数相关法律条文中有涉及到数据管理、数据安全等规范的内容,难以满足快速增长的数据管理需求。其次,共享开放程度低。推动数据资源共享开放,将有利于打通不同部门和系统的壁垒,促进数据流转,形成覆盖全面的大数据资源,为大数据分析应用奠定基础。我国政府机构和公共部门已经掌握巨大的数据资源,但存在“不愿”、“不敢”和“不会”共享开放的问题。例如:在“最多跑一次”改革中,由于技术人员缺乏,政务业务流程优化不足,涉及部门多、链条长,长期以来多头管理、各自为政等问题,导致很多地区、乡镇的综合性窗口难建立、数据难流动、业务系统难协调。同时,由于办事流程不规范,网上办事大厅指南五花八门,以至于同一个县市办理同一项事件,需要的材料、需要集成的数据在各乡镇的政务审批系统里却各有不同,造成群众不能一次性获得准确的相关信息而需要“跑多次”。当前,我国的政务数据共享开放进程,相对于《行动纲要》明确的时间节点,已明显落后,且数据质量堪忧。不少地方的政务数据开放平台,仍然存在标准不统一、数据不完整、不好用甚至不可用等问题。政务数据共享开放意义重大,仍需要坚持不懈地持续推进。此外,在数据共享与开放的实施过程中,各地还存在片面强调数据物理集中的“一刀切”现象,对已有信息化建设投资保护不足,造成新的浪费。第三,安全隐患增多。近年来,数据安全和隐私数据泄露事件频发,凸显大数据发展面临的严峻挑战。在大数据环境下,数据在采集、存储、跨境跨系统流转、利用、交易和销毁等环节的全生命周期过程中,所有权与管理权分离,真假难辨,多系统、多环节的信息隐性留存,导致数据跨境跨系统流转追踪难、控制难,数据确权和可信销毁也更加困难。

二是核心技术薄弱。基础理论与核心技术的落后导致我国信息技术长期存在“空心化”和“低端化”问题,大数据时代需避免此问题在新一轮发展中再次出现。近年来,我国在大数据应用领域取得较大进展,但是基础理论、核心器件和算法、软件等层面,较之美国等技术发达国家仍明显落后。在大数据管理、处理系统与工具方面,我国主要依赖国外开源社区的开源软件,然而,由于我国对国际开源社区的影响力较弱,导致对大数据技术生态缺乏自主可控能力,成为制约我国大数据产业发展和国际化运营的重大隐患。

三是融合应用有待深化。我国大数据与实体经济融合不够深入,主要问题表现在:基础设施配置不到位,数据采集难度大;缺乏有效引导与支撑,实体经济数字化转型缓慢;缺乏自主可控的数据互联共享平台等。当前,工业互联网成为互联网发展的新领域,然而仍存在不少问题:政府热、企业冷,政府时有“项目式”、“运动式”推进,而企业由于没看到直接、快捷的好处,接受度低;设备设施的数字化率和联网率偏低;大多数大企业仍然倾向打造难以与外部系统交互数据的封闭系统,而众多中小企业数字化转型的动力和能力严重不足;国外厂商的设备在我国具有垄断地位,这些企业纷纷推出相应的工业互联网平台,抢占工业领域的大数据基础服务市场。

五、若干思考和建议

最后,我想基于自己在大数据领域的研究实践,汇报若干思考和建议。一家之见,仅供参考。

(一)大力发展行业大数据应用

当前,我国互联网领域的大数据应用市场化程度高、发展较好,但行业应用广度和深度明显不足,生态系统亟待形成和发展。事实上,与实体经济紧密结合的行业大数据应用蕴含了更加巨大的发展潜力和价值。以制造业为例,麦肯锡研究报告称:制造企业在利用大数据技术后,其生产成本能够降低10%—15%。而大数据技术对制造业的影响远非成本这一个方面。利用源于产品生命周期中市场、设计、制造、服务、再利用等各个环节数据,制造业企业可以更加精细、个性化地了解客户需求;建立更加精益化、柔性化、智能化的生产系统;创造包括销售产品、服务、价值等多样的商业模式;并实现从应激式到预防式的工业系统运转管理模式的转变。制造业是国民经济不可或缺的一环,也是一个国家竞争力背后的强大力量支撑。我国制造业位居世界第一,却大而不强。企业创新能力不足,高端和高价值产品欠缺,在国际产业分工中处于中低端,大力推动制造业大数据应用的发展,对产业升级转型至关重要。

当前,我国不同行业领域正在积极推进数字化转型、网络化重构、智能化提升,推动行业大数据应用,也是推进数字中国建设的重要途径和基础。

(二)建立系统全面的大数据治理体系

大数据是数字经济的关键要素,强大的信息技术产业和全面深度信息化赋能的传统行业无疑是数字经济的基础!大数据治理须从营造大数据产业发展环境的视角予以全面、系统化考虑!

我以为,在一国之范围内,大数据治理体系建设涉及国家、行业和组织三个层次,至少包含数据的资产地位确立、管理体制机制、共享与开放、安全与隐私保护等四方面内容,需要从制度法规、标准规范、应用实践和支撑技术等视角多管齐下,提供支撑。

在国家层次,重点是要在法律法规层面明确数据的资产地位,奠定数据确权、流通、交易和保护的基础,制定促进数据共享开放的政策法规和标准规范,促进政务数据和行业数据的融合应用,并且出台数据安全与隐私保护的法律法规,保障国家、组织和个人的数据安全。在行业层次,重点是要在国家相关法律法规框架下,充分考虑本行业中企业的共同利益与长效发展,建立规范行业数据管理的组织机构和数据管控制度,制定行业内数据共享与开放的规则和技术规范,促进行业内数据的共享交换和融合应用。在组织层次,重点是要提升企业对数据全生命期的管理能力,促进企业内部和企业间的数据流通,提升数据变现能力,保障企业自身的数据安全及客户的数据安全和隐私信息。

在数据治理体系建设中,数据共享开放是大数据资源建设的前提,在现阶段重要性尤其突出。在平衡数据共享开放和隐私保护、数据安全的关系时,我以为,还是需要强调应用先行、安全并重的原则。数据共享开放不应被孤立看待,可能需要综合考虑数据的使用场合及数据主体的权益。如,数据集中管理可能带来保管上的安全问题,然而数据融合才能产生价值,一定程度的集中是趋势所在,也更利于建立更强大可靠的保护机制;多源数据的融合可能导致信息泄露,然而在确知风险前,是否需要因其“可能性”而拒绝技术的应用?数据脱敏仍然可能存在隐私泄露的风险,是否允许个体在知情前提下“用隐私换方便”、“用隐私换治疗换健康”?是否允许使用符合当前“标准”、但无法确保未来一定不出现信息泄露的脱敏方法,并对相关应用予以免责?当然,加强兼顾隐私保护、数据安全和数据流动利用的新技术研发,也非常必要。当前,如安全多方计算、同态加密、联邦学习等技术研发,希望允许拥有数据的各方在不向其他组织或个人公开数据中所含敏感信息的情况下,实现数据的融合利用。虽然这些技术尚处于发展的初级阶段,但因其广阔的应用前景而受到普遍关注。

另外,打破信息孤岛、盘活数据存量是当前一项紧迫的任务,而在此过程中,不宜过分强调物理集中,而应将逻辑互联作为打通信息“孤岛”的手段,逻辑互联先行,物理集中跟进。在数据共享体系建设中,需要在一定层级上构建物理分散、逻辑统一、管控可信、标准一致的政务信息资源共享交换体系,在不改变现有信息系统与数据资源的所有权及管理格局的前提下,明晰责权利,即:数据应用部门提需求、数据拥有部门做响应、交换平台管理部门保流转。同时,集约化的政务云建设正成为政府、企业建设新的信息系统的首选方案,如何在新一轮建设热潮中,从规划、立项审批、建设、审计等环节以及方案指导、标准规范和技术支持等方面给予全方位保障,尽可能避免新“孤岛”的产生,也是一项重大挑战。

(三)以开源为基础构建自主可控的大数据产业生态

在大数据时代,软件开源和硬件开放已成为不可逆的趋势,掌控开源生态,已成为国际产业竞争的焦点。建议采用“参与融入、蓄势引领”的开源推进策略,一方面鼓励我国企业积极“参与融入”国际成熟的开源社区,争取话语权;另一方面,也要在建设基于中文的开源社区方面加大投入,汇聚国内软硬件资源和开源人才,打造自主可控开源生态,在学习实践中逐渐成长壮大,伺机实现引领发展。中文开源社区的建设,需要国家在开源相关政策法规和开源基金会制度建立方面给予支持。此外,在开源背景下,对“自主可控”的内涵定义也有待更新,不一定强调硬件设计和软件代码的所有权,更多应体现在对硬件设计方案和软件代码的理解、掌握、改进及应用能力。

(四)积极推动国际合作并筹划布局跨国数据共享机制

2018年11月17日,习近平总书记在APEC工商领导人峰会上发表主旨演讲指出“经济全球化是人类社会发展必经之路”,“各国都是全球合作链条中的一环”。在数字经济快速发展的时代背景下,我国应该积极推动在大数据技术和应用方面的国际合作,建立跨国数据共享机制,与其他国家一起分享数字经济的红利,同时也使我国获得更多发展机遇和更大发展空间,积极促进数字经济下人类利益共同体和命运共同体的构建。当前,我国正在积极推动“一带一路”合作发展。各国在合作的各个领域都将产生大量的数据。建议积极推进跨国的大数据治理合作,在保障数据安全的前提下,促进数据跨境流动,从而形成围绕国家合作各个领域的大数据资源,为数字经济领域的国际合作奠定坚实的基础。“一带一路”沿线大都属发展中国家,无论技术还是经济水平较之发达国家都有明显差距。而数字经济这一新经济形态的成型发展将带给包括中国在内的各发展中国家经济转型发展的历史性机遇期。经济后发国家有机会在新经济的全球垄断性格局形成之前,与发达国家站在同一起跑线上,并且由于没有“路径依赖”所带来的历史包袱,也有可能在新一轮的竞争中占有优势。

(五)未雨绸缪,防范大数据发展可能带来的新风险

大数据发展可能导致一系列新的风险。例如,数据垄断可能导致数据“黑洞”现象。一些企业凭借先发展起来的行业优势,不断获取行业数据,但却“有收无放”,呈现出数据垄断的趋势。这种数据垄断不仅不利于行业的健康发展,而且有可能对国家安全带来冲击和影响。又如,数据和算法可能导致人们对其过分“依赖”及社会“被割裂”等伦理问题。大数据分析算法根据各种数据推测用户的偏好并推荐内容,在带来便利的同时,也导致人们只看到自己“希望看到的”信息,从而使人群被割裂为多个相互之间难以沟通、理解的群体,其可能引发的社会问题将是难以“亡羊补牢”的。

需要看到,以互联网为代表的新一代信息技术所带来的这场社会经济“革命”,在广度、深度和速度上都将是空前的,也会是远远超出我们从工业社会获得的常识和认知、远远超出我们的预期的,适应信息社会的个体素质的养成、满足未来各种新兴业态就业需求的合格劳动者的培养,将是我们面临的巨大挑战!唯有全民提升对大数据的正确认知,具备用大数据思维认识和解决问题的基本素质和能力,才有可能积极防范大数据带来的新风险;唯有加快培养适应未来需求的合格人才,才有可能在数字经济时代形成国家的综合竞争力。

我的汇报结束,谢谢大家!

(主讲人系中国人民解放军军事科学院副院长)

          

名词解释:

API:应用编程接口(Application Programming Interface)的首字母缩写,是指某软件系统或平台为其他应用软件系统提供的一组函数,通过调用这些函数,其他应用软件系统可以使用此软件系统或平台的部分功能或访问某些数据。

开源平台:“开源”是开放源代码的简称,开源平台是指支持开源社区活动,管理开放源代码,向所有开源社区参与者提供相关服务的软件平台(平台基于互联网构建并通过互联网通过服务)。任何人都可以获得开源软件的源代码并加以修改,并在某个预先约定的开源协议限制范围内发布修改后的新版本。结合上下文,这里的开源平台是指提供大数据管理、处理、分析等方面能力的开源软件的软件平台。

可伸缩的计算体系结构:可伸缩英文为scalable,指一个计算系统的能力和性能随应用负载的增加,通过极少的改动或配置甚至只是简单的硬件资源增加,而保持线性增长的能力,是表征计算系统处理能力的一个重要的设计指标。可伸缩的计算体系结构是计算系统体系结构设计追求的重要指标,软件定义、虚拟化、资源池化等方法和技术常用于可伸缩性的实现。

鲁棒性:鲁棒是英文Robust的音译,也就是健壮的意思,因此鲁棒性也被翻译为健壮性。鲁棒性一般用于描述一个系统在异常或极端情况下仍然可以工作的能力。结合上下文,这里谈及的大数据分析模型的鲁棒性是指在数据存在错误、噪音、缺失,甚至在恶意数据攻击等异常情况下,模型仍然能得到较为准确结论的能力。

数据互操作:数据互操作是指不同信息系统之间可以通过网络连接对彼此的数据进行访问,包括对其他系统数据的读取与写入。数据互操作是实现数据共享的基础。

“全数据”:“全数据”也称“全量数据”,是与“采样数据”相对的概念。传统的数据分析受限于数据采集、存储、处理的成本,一般都仅对问题相关的所有数据进行局部采样,并基于采样获得的部分数据进行分析,得出结论,结论的准确性与采样方法以及对被采样数据的统计假设密切相关。而大数据时代,人们开始提出“全数据”的概念,即,并不采样,而是将与问题相关的所有数据全部输入到分析模型中分析。这种方法避免了因采样而可能带来的误差,但是也增加了计算成本。

云边端融合:云是指云计算中心,边是指边缘计算设备,端是指终端设备。以智能家居为例,智能电视、冰箱、空调等直接与用户交互的设备是“端”,通过互联网连接的异地的云计算平台是“云”,而安装在每个家庭的智能家居中控服务器是“边”。云计算中心具有强大的计算存储能力,一般用于复杂的数据计算处理;终端设备距离最终用户较近,对用户的操作响应快,一般负责与用户进行交互;边缘计算设备介于“云”和“端”之间,负责对端所采集的数据做本地化处理,同时将需要更强大计算能力支持的任务和数据发往云计算中心处理,并将“云”返回的结果提供给端设备。云边端融合是一种“云”、“边”、“端”不同计算设备各司其职,密切协同且优势互补的新型计算模式。

宽带、移动、泛在的网络通信:“宽带”是指通信速率高,海量大数据的高速传输需求推动骨干网络向Pb/s发展;“移动”是指移动通信;“泛在”是指无所不在。宽带、移动、泛在通信是指:未来大量移动终端和物联网设备通过无所不在的接入网络接入主干网并通过高速主干网络进行通信。

安全多方计算:安全多方计算是为解决在保护隐私信息以及没有可信第三方的前提下,一组互不信任的参与方之间的协同计算问题而提出的理论框架。安全多方计算能够同时确保输入的隐私性和计算的正确性,在无可信第三方的前提下通过数学理论保证参与计算的各方成员输入信息不暴露,且同时能够获得准确的运算结果。此项技术的研究尚处于初级阶段。

同态加密:同态加密是一种密码学技术,其核心在于保证:对经过同态加密的数据进行处理(如:运行某种数据分析算法)后得到输出,将这一输出进行解密,其结果与用同一方法(即上述数据分析算法)处理未加密的原始数据得到的输出结果一致。同态加密技术使得数据拥有者可以将数据加密后交给第三方处理,从第三方获得处理结果后,对此结果进行解密便可获得所期望的结果。如此一来,数据拥有者就不必担心因将原始数据交给第三方而存在的隐私泄露风险,同时又能获得第三方提供的数据分析服务。此项技术的研究尚处于初级阶段。

联邦学习:联邦机器学习是一个多组织协同的机器学习框架,使得一个组织在不共享原始数据的情况下,可以利用其他组织数据中所蕴含的信息和知识,建立协同的机器学习模型。此模型比各组织仅利用本组织内部数据而训练的机器学习模型有更高的性能。此项技术的研究尚处于初级阶段。

ZB、EB、Pb/s、Gb/s:在计算机领域,一个二进制位称为一个比特,一般用小写b表示;而8个二进制位称一个字节,用大写B表示。简言之:1B=8b。计算数据量或数据所需存储空间大小时,习惯用字节为单位(用B表示)。1KB=1024B,1MB=1024KB,1GB=1024MB(通常简记为109),1TB=1024GB,1PB=1024TB,1EB=1024PB,1ZB=1024EB。1EB约等于10亿GB,而1ZB约等于1万亿GB。假设一首长为3分钟的歌曲录制成MP3文件(44K/320kbps音质),大小约为8MB,那么1ZB的数据存储空间可存储MP3格式歌曲140万亿多首,如果全部听一遍,需要8亿多年。计算网络传输速率时习惯上用比特每秒为单位(用b/s表示)。1Pb/S和1Gb/S分别代表1秒钟传输的数据是1P(1000万亿)个比特和1G(10亿)个比特。网络速率1Gb/S(此处是小写b)的情况下,下载一个2GB(此处是大写B)的电影,需要16秒;而网络速率1Pb/S的情况下,仅需要0.016毫秒。

编 辑: 王伟

责 编: 王伟

<< 返回首页

 

相关文章

     

大数据技术与应用专业介绍和就业前景分析 - 知乎

大数据技术与应用专业介绍和就业前景分析 - 知乎首发于学历提升切换模式写文章登录/注册大数据技术与应用专业介绍和就业前景分析一字师电子科技大学助学点自考专科本科,全日制学历,成考、国开可咨询全日制专科 专升本 大数据技术与应用 高职扩招专业简介随着网络和信息技术的不断普及,人类生产生的数据量正在呈指数级增长。大量的新数据源的出现导致了非结构化、半结构化数据爆发式的增长。这些海量的数据已经远远超出人力所能处理的范畴,怎么管理和使用这些数据,让他们发挥应有的作用?这样大数据概念就应运而生。大数据技术被渗透到社会的方方面面,医疗卫生、商业分析、国家安全、食品安全、金融安全等方面。2014年,从大数据作为国家重要的战略资源和加快实现创新发展的高度,在全社会形成“用数据来说话、用数据来管理、用数据来决策、用数据来创新”的文化氛围与时代特征。大数据科学将成为计算机科学、人工智能技术(虚拟现实、商业机器人、自动驾驶、全能的自然语言处理)、数字经济及商业、物联网应用、还有各个人文社科领域发展的核心。大数据特征1.Volume(大量)大数据的特征首先就是数据规模大。随着互联网、物联网、移动互联技术的发展,人和事物的所有轨迹都可以被记录下来,数据呈现出爆发性增长。数据量的存储单位从过去的GB到TB、甚至达到了PB、EB。2.Variety(多样)数据来源的广泛性,决定了数据形式的多样性。大数据可以分为三类,一是结构化数据,如财务系统数据、信息管理系统数据、医疗系统数据等,其特点是数据间因果关系强;二是非结构化的数据,如视频、图片、音频等,其特点是数据间没有因果关系;三是半结构化数据,如HTML文档、邮件、网页等,其特点是数据间的因果关系弱。有统计显示,目前结构化数据占据整个互联网数据量的75%以上,而产生价值的大数据,往往是这些非结构化数据。3.Velocity(高速)数据的增长速度和处理速度是大数据高速性的重要体现。与以往的报纸、书信等传统数据载体生产传播方式不同,在大数据时代,大数据的交换和传播主要是通过互联网和云计算等方式实现的,其生产和传播数据的速度是非常迅速的。另外,大数据还要求处理数据的响应速度要快,例如,上亿条数据的分析必须在几秒内完成。数据的输入、处理与丢弃必须立刻见效,几乎无延迟、4.Value(价值)大数据的核心特征是价值,其实价值密度的高低和数据总量的大小是成反比的,即数据价值密度越高数据总量越小,数据价值密度越低数据总量越大。任何有价值的信息的提取依托的就是海量的基础数据,当然目前大数据背景下有个未解决的问题,如何通过强大的机器算法更迅速的在海量数据中完成数据的价值提纯。大数据发展趋势分析根据监测统计,2018年全球的数据总量为30.2ZB(1个ZB等于十几万亿亿字节),目前全球数据的增长速度在每年40%左右,预计2020年全球的数据总量将达到58ZB。人类社会继蒸汽时代、电气时代和网络时代之后,正加速跨进大数据时代。1、开源软件和产业垂直整合,最大限度获得商业利润。2、非结构化大数据处理分析成为难点和重点,滋生出以在线云服务的方式提供信息监测、统计分析、关系挖局、传播效果评估等一些列服务。3、大企业的定制化解决方案,推动了大数据标准化和产品化解决方案市场的发展。大数据技术应用领域1、公共领域电力行业、智能交通、电子政务、司法系统四个方面。2、互联网电子商务、网络广告、网络新闻和搜索引擎、旅行预订、社交网络、网络视频、网络音乐和网络游戏。3、智慧城市4、金融行业专业人才需求分析在“大数据”背景之下,精通“大数据”的专业人才将成为企业最重要的业务角色,“大数据”从业人员薪酬持续增长,人才缺口巨大。全球最顶尖管理咨询公司麦肯锡(Mckinsey)出具的一份详细分析报告显示,截止2019年,大数据领域的工作需求急剧扩大,工作岗位激增,大数据科学家的缺口在14万~19万之间。而动地利用大数据做决策的分析师及经理的岗位缺口达到150万左右。专业培养目标大数据技术与应用研究方向是将大数据分析挖掘与处理、移动开发与架构、软件开发、云计算等前沿技术相结合的“互联网+”前沿科技专业。本专业旨在培养学生系统掌握数据管理及数据挖掘方法,成为具备大数据分析处理、数据仓库管理、大数据平台综合部署、大数据平台应用软件开发和数据产品的可视化展现与分析能力的高级专业大数据技术人才。经过本专业的人才培养学生逐步成长为:A、大数据可视化工程师B、大数据运维工程师C、大数据分析工程师以上就是对大数据技术与应用这个专业的介绍和就业前景的分析,欢迎大家在评论区留言讨论和补充和为我点赞加关注。发布于 2021-07-14 12:06大数据专升本高职扩招​赞同​​添加评论​分享​喜欢​收藏​申请转载​文章被以下专栏收录学历提升学历的重要性越来越明显,从自我求职晋升到孩子

中国信通院发布《大数据白皮书(2022年)》

中国信通院发布《大数据白皮书(2022年)》

上海外国语大学官方网站

SISU Global

学校主页

Language :ZH

中文

English

导航

首页

认识我们

相关政策

支撑项目

开放交流

更多

中国信通院发布《大数据白皮书(2022年)》

发布者:梁刚健发布时间:2023-01-09浏览次数:4257

原文链接:https://mp.weixin.qq.com/s/K1g0LXENK5d0x7aP4M4FvQ原创 中国信通院 中国信通院CAICT 2022年,全球大数据技术产业与应用创新不断迈向新高度。宏观看,国际方面,美欧、韩日、澳洲通过政策、法案、设立机构等形式,持续深化实施自身大数据战略。国内方面,党中央、国务院再次做出一系列重要部署,我国大数据领域良好的发展态势进一步巩固。微观看,数据存储与计算、数据管理、数据流通、数据应用、数据安全五大核心领域均伴随相关政策、技术、产业、应用的不断演进,发展目标进一步明确和丰富,发展成效不断显现。2023年1月4日,第五届“数据资产管理大会”在线上举办。会上,中国信息通信研究院云计算与大数据研究所所长何宝宏发布了《大数据白皮书(2022年)》并进行了深度解读。白皮书聚焦过去一年来大数据领域不断涌现的新技术、新模式、新业态,分析总结全球和我国大数据发展的总体态势,并重点针对数据存储与计算、数据管理、数据应用、数据流通、数据安全五大核心领域,逐一分析、探讨其发展现状、特征、问题和趋势,最后对我国大数据未来发展进行展望与研判。白皮书核心观点1. 我国大数据产业发展态势好动力足。我国大数据经过多年高速发展,产业规模高速增长,创新能力不断增强,生态体系持续优化,市场前景广受认可,呈现良好发展态势。近一年,我国在政策、人才、资金等方面持续加码,为大数据后续发展注入强劲动力。2. 数据存储与计算领域通过深度优化实现提质增效。经过60余年发展,数据存储与计算领域总体技术框架趋于成熟,在此基础上,以云化、湖仓一体为代表的深度优化理念不断涌现,并逐步应用,为数据存储与计算领域进一步降本提质提供了新范式。3. 数据管理领域在政策引领下规模化落地。2020年来,行业、地方大力推动DCMM贯标评估,通过“以评促建”的方式提升数据管理能力,累计完成近千家企业的评估。各领域企业的数据管理意识和能力不断增强,越来越多的企业开始从顶层统筹规划数据管理工作,我国数据管理能力建设呈现大规模落地态势。4. 数据流通领域流通规范体系加速构建。制度创新方面,党中央、国务院发布以《关于构建数据基础制度 更好发挥数据要素作用的意见》为代表的一系列政策文件,为我国数据流通产业发展提供了重要思路;技术创新方面,数据流通技术提供了“数据可用不可见”“数据可控可计量”的数据服务新范式,为企业安全地获取和利用外部数据提供了技术可能。5. 数据应用领域积极探索数据深层价值的释放路径。由于技术能力不足、前序工作未就绪等因素限制,传统数据应用主要针对的是少量、局部、非实时数据,依赖大量人工决策,导致数据主要释放其浅层价值。当前,国内外各方正积极探索新的数据应用方法论,并在不同行业、不同场景进行滚动式实践,从而释放数据深层价值,目前已取得初步进展。6. 强需求牵引数据安全产业生态飞速发展。2021年来,数据安全体系建设进程明显提速。政策层面,数据安全法律政策逐步细化,政策环境不断完善,为企业数据安全建设提供政策引领;技术层面,数据安全技术产品蓬勃发展,数据安全培训、数据安全评估等方面需求呈现爆炸式增长。白皮书目录一、大数据发展总体态势(一)各国深化推进自身大数据战略(二)我国大数据发展态势好动力足(三)五大核心领域发展方向进一步明确二、数据存储与计算:通过深度优化实现提质增效(一)数据存储与计算发展历久弥新(二)当前数据存储与计算发展呈现三大特点(三)数据存储与计算面临的主要挑战与发展趋势三、数据管理:在政策引领下规模化落地(一)政策驱动行业实践日益成熟(二)当前数据管理发展呈现四大特点(三)数据管理面临的主要挑战与发展趋势四、数据流通:流通规范体系加速构建(一)数据流通发展重心向“规范化”转移(二)当前数据流通发展呈现四大特点(三)数据流通面临的主要挑战与发展趋势五、数据应用:积极探索数据深层价值的释放路径(一)数据应用开始探索第三阶段实践路径(二)当前数据应用发展呈现三大特点(三)数据应用面临的主要挑战与发展趋势六、数据安全:强需求牵引产业生态飞速发展(一)数据安全发展基础不断夯实(二)当前数据安全发展呈现三大特点(三)数据安全面临的主要挑战与发展趋势七、总结与展望更多精彩,敬请阅读解读PPT。1234567891011121314151617版权声明:本白皮书版权属于中国信息通信研究院,并受法律保护。转载、摘编或利用其它方式使用本白皮书文字或者观点的,应注明“来源:中国信息通信研究院”。违反上述声明者,本院将追究其相关法律责任。校  审 | 陈  力、珊  珊编  辑 | 凌  霄

虹口校区

中国上海市大连西路550号(200083)

松江校区

中国上海市文翔路1550号(201620)

© 2020 上海外国语大学 Shanghai Intemational Studies University - SISU|沪ICP备05051495号

一篇文章详解大数据技术和应用场景-腾讯云开发者社区-腾讯云

详解大数据技术和应用场景-腾讯云开发者社区-腾讯云民工哥一篇文章详解大数据技术和应用场景关注作者腾讯云开发者社区文档建议反馈控制台首页学习活动专区工具TVP最新优惠活动文章/答案/技术大牛搜索搜索关闭发布登录/注册首页学习活动专区工具TVP最新优惠活动返回腾讯云官网民工哥首页学习活动专区工具TVP最新优惠活动返回腾讯云官网社区首页 >专栏 >一篇文章详解大数据技术和应用场景一篇文章详解大数据技术和应用场景民工哥关注发布于 2020-09-16 17:25:485.8K0发布于 2020-09-16 17:25:48举报文章被收录于专栏:民工哥技术之路民工哥技术之路什么是大数据说起大数据,估计大家都觉得只听过概念,但是具体是什么东西,怎么定义,没有一个标准的东西,因为在我们的印象中好像很多公司都叫大数据公司,业务形态则有几百种,感觉不是很好理解,所以我建议还是从字面上来理解大数据,在维克托迈尔-舍恩伯格及肯尼斯库克耶编写的《大数据时代》提到了大数据的4个特征:一个是数量大一个是价值大一个是速度快一个是多样性第一个是数量比较大,只有数据体量达到了PB级别以上,才能被称为大数据。1PB等于1024TB,1TB等于1024G,那么1PB等于1024*1024个G的数据。第二个是价值大,你如果有1PB以上的全国所有20-35年轻人的上网数据的时候,那么它自然就有了商业价值,比如通过分析这些数据,我们就知道这些人的爱好,进而指导产品的发展方向等等。如果有了全国几百万病人的数据,根据这些数据进行分析就能预测疾病的发生,这些都是大数据的价值。第三个就是多样性,如果只有单一的数据,那么这些数据就没有了价值,比如只有单一的个人数据,或者单一的用户提交数据,这些数据还不能称为大数据,所以说大数据还需要是多样性的,比如当前的上网用户中,年龄,学历,爱好,性格等等每个人的特征都不一样,这个也就是大数据的多样性,当然了如果扩展到全国,那么数据的多样性会更强,每个地区,每个时间段,都会存在各种各样的数据多样性。第四个是速度快,就是通过算法对数据的逻辑处理速度非常快,1秒定律,可从各种类型的数据中快速获得高价值的信息,这一点也是和传统的数据挖掘技术有着本质的不同。大数据的行业应用大数据无处不在,大数据应用于各个行业,包括金融、汽车、餐饮、电信、能源、体能和娱乐等在内的社会各行各业都已经融入了大数据的印迹。制造业,利用工业大数据提升制造业水平,包括产品故障诊断与预测、分析工艺流程、改进生产工艺,优化生产过程能耗、工业供应链分析与优化、生产计划与排程。金融行业,大数据在高频交易、社交情绪分析和信贷风险分析三大金融创新领域发挥重大作用。汽车行业,利用大数据和物联网技术的无人驾驶汽车,在不远的未来将走入我们的日常生活。互联网行业,借助于大数据技术,可以分析客户行为,进行商品推荐和针对性广告投放。电信行业,利用大数据技术实现客户离网分析,及时掌握客户离网倾向,出台客户挽留措施。能源行业,随着智能电网的发展,电力公司可以掌握海量的用户用电信息,利用大数据技术分析用户用电模式,可以改进电网运行,合理设计电力需求响应系统,确保电网运行安全。物流行业,利用大数据优化物流网络,提高物流效率,降低物流成本。城市管理,可以利用大数据实现智能交通、环保监测、城市规划和智能安防。生物医学,大数据可以帮助我们实现流行病预测、智慧医疗、健康管理,同时还可以帮助我们解读DNA,了解更多的生命奥秘。体育娱乐,大数据可以帮助我们训练球队,决定投拍哪种题财的影视作品,以及预测比赛结果。安全领域,政府可以利用大数据技术构建起强大的国家安全保障体系,企业可以利用大数据抵御网络攻击,警察可以借助大数据来预防犯罪。个人生活, 大数据还可以应用于个人生活,利用与每个人相关联的“个人大数据”,分析个人生活行为习惯,为其提供更加周到的个性化服务。大数据的价值,远远不止于此,大数据对各行各业的渗透,大大推动了社会生产和生活,未来必将产生重大而深远的影响。大数据使用的技术说起大数据,大数据有三个层数据采集、存储、计算三层。第一个是数据采集层,以App、saas为代表的服务。大数据基础阶段需掌握的技术有:Linux、Docker、KVM、MySQL基础、Oracle基础、MongoDB、redis以及hadoopmapreduce hdfs yarn等。第二个数据存储层,比如云存储,需掌握的技术有:hbase、hive、sqoop等。比如:Hadoop作为一个开源的框架,专为离线和大规模数据分析而设计,HDFS作为其核心的存储引擎,已被广泛用于数据存储。HBase,是一个分布式的、面向列的开源数据库,可以认为是hdfs的封装,本质是数据存储、NoSQL数据库。HBase是一种Key/Value系统,部署在hdfs上,克服了hdfs在随机读写这个方面的缺点,与hadoop一样,Hbase目标主要依靠横向扩展,通过不断增加廉价的商用服务器,来增加计算和存储能力。第三个是数据计算应用层,以数据为基础,为将来的移动社交、交通、教育,金融进行服务,涉及到大数据架构设计阶段需掌握的技术有:Flume分布式、Zookeeper、Kafka等,以及大数据实时计算阶段需掌握的技术有:Mahout、Spark、storm。大数据的岗位1.数据分析师Data analyst指熟悉相关业务,熟练搭建数据分析框架,掌握和使用相关的分析常用工具和基本的分析方法,进行数据搜集、整理、分析,针对数据分析结论给管理销售运营提供指导意义的分析意见。2.数据架构师Data architect对Hadoop解决方案的整个生命周期进行引导,包括需求分析,平台选择,技术架构设计,应用设计和开发,测试和部署。深入掌握如何编写MapReduce的作业及作业流的管理完成对数据的计算,并能够使用Hadoop提供的通用算法, 熟练掌握Hadoop整个生态系统的组件如: Yarn,HBase、Hive、Pig等重要组件,能够实现对平台监控、辅助运维系统的开发。3.大数据工程师Big DataEngineer收集和处理大规模的原始数据(包括脚本编写,网页获取,调用APIs,编写SQL查询等);将非结构化数据处理成适合分析的一种形式,然后进行分析;根据所需要的和专案分析商业决策。4.数据仓库管理员Data warehousemanager:指定并实施信息管理策略;协调和管理的信息管理解决方案;多个项目的范围,计划和优先顺序安排;管理仓库的各个方面,比如数据外包,移动,质量,设计和实施。5.数据库管理员Database manager提高数据库工具和服务的有效性;确保所有的数据符合法律规定;确保信息得到保护和备份;做定期报告;监控数据库性能;改善使用的技术;建立新的数据库;检测数据录入程序;故障排除。6.商业智能分析员Businessintelligence analyst就工具,报告或者元数据增强来进行传播信息;进行或协调测试,以确保情报的定义与需求相一致;使用商业智能工具来识别或监测现有和潜在的客户;综合目前的商业只能和趋势数据,来支持采取行动的建议;维护或更新的商业智能工具,数据库,仪表板,系统或方法;及时的管理用户流量的商业情报。本文参与 腾讯云自媒体分享计划,分享自微信公众号。原始发表:2018-08-19,如有侵权请联系 cloudcommunity@tencent.com 删除数据库sql大数据node.js数据分析本文分享自 民工哥技术之路 微信公众号,前往查看如有侵权,请联系 cloudcommunity@tencent.com 删除。本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!数据库sql大数据node.js数据分析评论登录后参与评论0 条评论热度最新登录 后参与评论推荐阅读LV.关注文章0获赞0目录什么是大数据大数据的行业应用大数据使用的技术大数据的岗位相关产品与服务数据库云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!产品介绍2024新春采购节领券社区专栏文章阅读清单互动问答技术沙龙技术视频团队主页腾讯云TI平台活动自媒体分享计划邀请作者入驻自荐上首页技术竞赛资源技术周刊社区标签开发者手册开发者实验室关于社区规范免责声明联系我们友情链接腾讯云开发者扫码关注腾讯云开发者领取腾讯云代金券热门产品域名注册云服务器区块链服务消息队列网络加速云数据库域名解析云存储视频直播热门推荐人脸识别腾讯会议企业云CDN加速视频通话图像分析MySQL 数据库SSL 证书语音识别更多推荐数据安全负载均衡短信文字识别云点播商标注册小程序开发网站监控数据迁移Copyright © 2013 - 2024 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有 深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569腾讯云计算(北京)有限责任公司 京ICP证150476号 |  京ICP备11018762号 | 京公网安备号11010802020287问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档Copyright © 2013 - 2024 Tencent Cloud.All Rights Reserved. 腾讯云 版权所有登录 后参与评论00

大数据技术与应用

大数据技术与应用

大数据技术与应用

引用

收藏

作者:

余以胜主编

ISBN:

9787030624055

出版日期:

2019-11

版次:

1

中图分类号:

TP274

学科分类:

信息与系统科学相关工程与技术

丛书:

附注信息:

21世纪高等院校教材

阅读

  图书简介:

《大数据技术与应用》在对大数据理论和技术进行系统、深入研究的基础上,首次将大数据技术方法和行业应用相结合,形成了基础技术篇(上篇)和行业应用篇(下篇)两个部分。其中上篇介绍了大数据的起源、思想、特点和价值,以及大数据关键技术、应用思路和应用关键问题;下篇分别对大数据产业链、大数据+工业行业、大数据+金融行业、大数据+零售行业、大数据+医疗行业、大数据+电信行业等多个典型应用行业进行了分析,最后提出中国大数据产业发展前景及趋势。

  图书目录:

版权信息

中国科技出版传媒股份有限公司 版权所有

京ICP备14028887号-19

京公网安备 11010102004272号

联系我们

地址:北京市东城区东黄城根北街16号

邮编:100717

Email:elib@cspm.com.cn

销售咨询

电话:010-64014357

Email:elib@cspm.com.cn

个人购书请访问: www.ecsponline.com

电话:0316-6178903(焦老师)

离线阅读器

CAJViewer 下载

返回顶部

×

图书荐购

*姓名:

*机构名称:

*院/系/所:

*推荐人邮箱:

推荐理由:

确定

大数据技术与应用 - 清华大学 - 学堂在线

术与应用 - 清华大学 - 学