|
数据科学与大数据技术本科专业概述,从产生背景、专业设置、基本内容、课程体系、未来的普世化等综述13k字,附今日新闻四则4k字;合17k字,详读约35分钟,文末打赏后“阅读原文”下载完整版PDF文档。
目录
一、数据科学与大数据技术产生的背景
二、教育部2017年新开数据科学与大数据技术本科专业
2.1 北京大学“数据科学与大数据技术”本科专业介绍
2.2 对外经济贸易大学“数据科学与大数据技术”本科专业介绍
2.3 中南大学“数据科学与大数据技术”本科专业介绍
三、数据科学的基本内容
四、大数据技术相关课程体系
五、数据科学与大数据技术的未来:会类似计算机一样普世化吗?
参考文献
Appx.附录(4722字)目录
2017年3月17日(星期五)农历丁酉年二月二十新闻四则汇编(4295字)
附i. 早报,3月17日,星期五短新闻
附ii. 2017年3月17日周五读报!一切美好从“勇往直前”开始!
附iii. 2017年3月17日(丁酉鸡年二月二十)周五/早读分享:
附iv. 2017年3月17日(星期五)农历丁酉年二月廿癸卯日
外附:数据简化DataSimp社区译文志愿者招募启事
信息社会在计算机、互联网、电信业、工业自动化、无纸办公、行业大数据等科技进步的情况下,催熟了本科层次的数据科学和大数据技术专业。本文针对数据科学与大数据技术本科专业,从产生背景、专业设置、基本内容、课程体系、未来的普世化等几个方面做个概述。
一、数据科学与大数据技术产生的背景
人类对自然事物、知识信息、产品业务流程、活动决策等生活生产的各个层面进行数字化,产生和使用越来越多的数据。这也可以看做是世界的数据化,传统的“数据”这个词已经无法准确描述这一宏伟的虚拟世界,出现了一个新名词——大数据,以突出数据增量和多样性等4V特征:体量(Volume)大、多样化(Variety)、速度快(Velocity)、价值性(Value)。数据体量大指数据量呈爆炸式增长,全球90%以上的数据是近两年内产生出来的。仅 2015 年,全球产生约 8.6 ZB(泽字节)数据,且数据量正以每年约50%的速度持续增长[1]。数据类型多样指非结构化和半结构化数据种类巨多;速度快指对海量数据处理分析的速度越来越快。受大数据驱动,生产和科学研究正在产生一系列新的议题和实践。全球的数据储量仅在 2011 就达到 1.8 ZB(或 1.8 万亿GB),相当于每个美国人每分钟写 3 条Twitter信息,总共写 2.6976 万年。根据国际数据公司IDC统计, 2014 年全球数据总量为 8 ZB,预计到2020年达到 44 ZB,2015 年全球大数据储量达到 8.61 ZB[2]。而今后十年,用于存储数据的全球服务器总量还将增长十倍。
人类及其世界不断地数据化,在云计算、非结构化数据存储技术发展同时,大数据已经成为当前学术界、工业界的热点和焦点。越来越多的数据不断产生和使用,数据也成为驱动生产和科学研究的新方法。传统数据样本以千、万计就算较多了,可以借助统计分析软件加以操作。但当数据达到以亿、万亿计,数据的分析和可视化就变得有难度了,甚至查询和读写都是技术问题。联合国在 2012 年发布的大数据白皮书《大数据促发展:挑战与机遇》中指出,大数据时代已经到来,大数据的出现将会对社会各个领域产生深刻影响。2013 年被称为中国大数据元年,各行各业开始高度关注大数据的研究和应用。从公司战略到产业生态,从学术研究到生产实践,从城镇管理乃至国家治理,都将发生本质的变换,大数据将成为时代变革的力量。“用数据来说话、用数据来管理、用数据来决策、用数据来创新”的文化氛围与时代特征愈发鲜明。大数据时代新特征要求设计和构建相应的管理决策分析模型与方法,有效地将信息科学和商业应用相结合。
美国 IDC 、Wikibon 等咨询机构预测, 2016 年,全球的大数据核心产业规模约为300亿元美金[3]。行业研究机构 Wikibon 预计大数据市场从 2011 年到 2026 年将获得 17 %年复合增长率, 2026 年达到 840 亿美元高峰,全球大数据市场预计在 2025 年将达到 1220 亿美元收益[4]。中国是继美国之后大数据行业发展最快的国家,中国信息通信研究院 2016 年 12 月发布的《中国大数据发展调查报告(2016)》指出:我国 2015 年大数据核心产业达到 115.9 亿元,增速 38 %, 2016 年达到168亿元, 2017 - 2018 还将维持 40 %的高速增长[5]。中国信息通信研究院 2015 年 5 月发布的《中国大数据发展调查报告(2015)》指出: 2014 年我国大数据市场规模达到 84 亿元人民币,预计 5 年内,国内大数据人才缺口将高达 130万左右,需要社会、高校和企业共同努力去培养和挖掘[6]。大数据相关热门职业有:数据规划师、数据工程师、数据架构师、数据分析师、数据应用师、数据科学家。
与大数据知名度和企业热情形成对比的是,大数据面临全球性人才短缺。企业对大数据分析和预测技术人才的需求超过传统商业智能和信息管理人才。据麦肯锡报告,在美国市场, 2018 年大数据人才(包括高级数据分析专家)缺口将高达19万,在“具有深入分析能力的人才”方面,可能面临着 14~19万分析人才缺口,而美国企业“能够提出正确问题并利用大数据分析来做出有效决策的经理和分析师”缺口则会达到 150 万[7]。商业数据分析是现在全美增长最迅速的领域,据New Vantage Partners公司对美国《财富》500强公司调查显示:85%的500强企业已经或正在筹划推出大数据项目,未来几年这些企业在数据分析上的投资将平均上涨36%。《哈佛商业评论》的一篇文章将数据分析称作“21世纪最热门的职业”。人力资源公司Kforce的调研报告预测 2014 年全球大数据相关的八大职业平均年薪将达到11.75万~14.06万美元,数据科学家平均年薪为11.9万美元(程序员平均年薪6.5万美元),LinkedIn投票显示“统计分析和数据挖掘”是2014年的求职法宝。擅长数学、会用Python编程、且对行业了如指掌——拥有这样技能集的数据科学家在业界需求量巨大。
中国计算机学会 CCF 大数据专家委员会《2016年大数据发展趋势预测》报告指出,很多数据相关实验室、专项研究院所出现,《数据学》等专门著作纷纷出版,数据科学的雏形已经出现。建议共同支持“数据科学”的基础研究,并努力将基础研究的成果导入技术研究和应用的范畴中[8]。聚焦大数据研究,更多的高校已经在学科新兴点的布局和人才培养上有所行动。在课堂上,和大数据相关的课程教学,正在呈现“加速度”变革的态势。上海财经大学信息管理与工程学院副院长、斯坦福博士葛冬冬教授认为:管理科学领域受大数据研究影响,相关分支的课程正处于一个新老交替的剧烈变革期。因为大数据的研究,会使很多新的研究内容、研究方法和研究结果源源不断地出现,而这些新成果又会指导现实,继而产生新的问题。斯坦福大学这所北美顶级名校面向博士生的课程安排和教学方式,较之于他本人当年在斯坦福就读博士期间已有显著变化,而且这个变化是每年都能明显感觉到的。国家层面的研究者可以通过全国范围的实时银联卡消费数据做大数据分析,间接地对中国消费经济走向、国民经济行为等宏观层面的问题开展精准研究。上海财经大学信管学院的科研和教学在大数据驱动下的变化,学科边界在加速消融、新的研究领域层出不穷。大数据与金融学结合的金融科技(Fintech)深刻变革金融征信、风控、自动化交易、机器人投资顾问等多项产业;互联网、复杂网络理论、社会学、数据挖掘相结合催生出社交网络乃至社会计算方向;计算机与媒体学(含新闻媒体)结合产生出数字媒体处理方向;数据挖掘与生物学结合产生了计算生物学方向等等……
中国是人口和人才大国,但掌握和应用大数据技术的创新人才极度稀缺,培养掌握大数据核心技术且拥有专业知识的人才,促使教育者和全社会行业人员重视数据科学与大数据技术专业的发展。
二、教育部2017年新开数据科学与大数据技术本科专业
高等学校作为高端人才培养的主要机构,须尽快整合资源、调整专业结构、增加专业设置、改革培养方案,以适应社会对大数据人才的需求[9]。国家十三五规划纲要中明确提出:“实施国家大数据战略,推进数据资源开放共享”。 2015年 8 月 31 日,经李克强总理批示,国务院印发国发〔2015〕50 号文件《促进大数据发展行动纲要》,系统部署大数据发展工作。其中指出要加强大数据相关专业人才培养,鼓励高校设立数据科学和数据工程相关专业,重点培养专业化数据工程师等大数据专业人才。鼓励采取跨校联合培养等方式开展跨学科大数据综合型人才培养,大力培养具有统计分析、计算机技术、经济管理等多学科知识的跨界复合型人才[10]。基于大数据时代、计算思维以及 CS2013 等背景,要不断顺应计算机领域技术、理论的发展和社会需求, 遵循准确定位、强化特色、注重内涵以及突出优势等原则, 实现培养模式、课程教材、教学管理、教学团队、教学方式等方面综合改革,造就教育理念先进、特色鲜明与办学水平高的全新的人才培养形式[11]。
教育部分别于2016年2月和9月公布新增大数据本科和专科专业。2015年度教育部普通高等学校本科专业备案后,教育部直属高校新增审批本科专业里,“大数据”、“网络安全”这样的词汇非常多,相关专业占了该条目下新专业的1/3左右。经申报、教育部学科发展与专业设置专家委员会评议、征求相关行业部门意见、公示、审核等规范流程, 2016 年 2 月教育部公布的高校新增专业名单中,新增本科专业“数据科学与大数据技术”(专业代码080910T),北京大学、对外经济贸易大学、中南大学成为首批获批高校;浙大、华中师范大学新增“信息安全”专业;厦门大学、四川大学新增“网络空间安全”专业。2016年9月,教育部宣布新增专科专业“大数据技术与应用”(专业代码610215)[12]。其他海高校虽然面向本科招生的大数据专业还未获批建立,但相关的科研和人才培养早已启动,很多专业设置了“数据科学与大数据技术”类似的专业方向。
数据科学与大数据技术专业强调培养具有多学科交叉能力的大数据人才,主要有以下三方面素质:一是理论上,对数据科学涉及的思想、概念、模型、方法的理解和运用;二是实践上,能动手编程或用工具处理实际数据;三是应用上,采取大数据技术方式解决具体产业界、行业应用的问题。清华大学数据科学研究院开展大数据硕士项目,在大数据人才培养上进行了有力的尝试。复旦大学采取“2+2”的本科大数据培养模式,2016年9月首批学生开始进入该校大数据学院就读。对外经济贸易大学作为首批获批大数据专业的高校,目前已完成专业人才培养方案和课程体系设置,首届大数据本科生将于2017年9月正式入学。南方科技大学数学系于2016年9月开设《大数据技术导论》课程,值得一提的是该课程开创性地结合了大数据教育实训平台进行教学。上海交通大学、中山大学、贵州大学、武汉大学等国内高校也均开始设置大数据学院或开始大数据人才培养方面的布局。预计2017年,将有数十所高校获批“数据科学与大数据技术”本科专业和“大数据技术技术与应用”专科专业。复旦大学投入6000万元的“大数据试验场”项目,将达到1PB(2的50次方字节)数据规模的试验能力;上海财经大学联合斯坦福大学教授完成国内第一个开源线性优化求解器,开始对标H2O等世界著名开源求解器,打算推出机器学习的计算套件……这些新动向,对如今大学的“数据科学与大数据技术”相关人才的培养,都有很好的推动和示范作用——计算机科学、统计学、信息学、数学、生物学、金融及管理等各大学科,都因大数据而巨变。
体制内培养人才尚属起步探索阶段,人才培养需要3-4年的周期,体制内向产业界规模性输送大数据人才大约在2019年到2020年;加之体制内招生受到教育部计划名额的限制,培养人才的数量远远低于市场需求。体制外,各种大数据线上线下培养班和公司,早已经在积极探索。
2.1 北京大学“数据科学与大数据技术”本科专业介绍
北京大学在鄂维南院士牵头组织实施下,率先建成本科、硕士和博士三个层次完整的大数据教育体系,设立了全校范围的大数据科学与研究中心和大数据科学委员会,在全校的层面统筹大数据教育工作。
大数据教学实践需要以数据为核心、以问题为导向,包含实践操作,意味着高校必须在大数据人才培养上进行创新和改革,否则培养的人才可能会和市场需求脱节。故而北京大学校内机构——北京大数据研究院,在2016年12月成立博雅大数据学院,积极探索体制外的大数据人才培养模式,致力于解决我国大数据人才极度缺乏的问题。另外,北大采用全球首家大数据教育、竞赛和服务平台“数据嗨客”进行实训,博雅《数据科学导引》等课程率先在北京大学和南方科技大学开设。博雅大数据学院的“大数据师资培训班”为院校、企业、机构培养大数据专业讲师,提升讲师的综合教学能力,为行业构筑优质的大数据教育生态。大数据线上学习与实训平台“数据嗨客”,向学生提供结合真实案例的学习、练习、考试、竞赛、交流等特色服务,弥补了大数据教学实训资源的不足。政企层面,博雅大数据学院凭借自身丰富的大数据教学资源和经验,为政企客户提供针对不同岗位职能、不同应用场景的大数据培训和咨询服务,得到了一致的认可[13]。
大数据分析涉及到的最重要的两块是统计和算法。北京大数据中心对大数据的理解并不局限在数据库、数据中心等层面,也不同于市场上的教育培训机构将Hadoop工具作为大数据培训课程核心的做法,二是努力提升学生的数据分析能力:从数据里面获取信息、形成智慧。数据分析的过程是大数据最重要的层面。
2.2 对外经济贸易大学“数据科学与大数据技术”本科专业介绍
对外经济贸易大学开设大数据分析专业的基础是财经学校背景优势。对外经济贸易大学在经贸、金融、管理、法律等专业拥有得天独厚的条件。秉承创新“商业大数据人才”的培养方略,建立适合财经类院校的商务大数据专业,为国家产业转型与行业发展需求贡献合格的人才,支撑国家大数据战略的实现,是大数据专业的出发点;从社会发展需求出发,建设以国际化、精品化、金融与商务相结合为特色的大数据专业是专业建设的指导思想。
大数据专业依托信息学院多名优秀海内外大数据分析背景教学科研队伍,师资队伍多元化教育背景和工作经历是学院的巨大财富,也为该专业创建提供了先决条件。同时2014年信息学院先后两次派教师参加大数据核心课程培训,为新专业申报进行了专业师资的储备。信息学院为建设大数据专业,多次召开专业建设研讨会,如,邀请2015CCTV两会大数据制作公司技术总监来学院介绍大数据的采集、处理、展示等全过程;邀请新浪微博大数据中心建设人员就大数据专业人才需求、专业定位进行研讨;组建有大数据企业参加的专业申报筹备小组等等。
大数据人才培养方案针对业界共识与对外经济贸易大学学科背景实际,主线是“大数据分析+信息技术+经济贸易应用”。大数据是应用性、实践性很强的专业,信息学院拥有国家级实验教学示范中心,为大数据人才培养提供了可行的实践教学环境。对外经济贸易大学开设大数据专业就业方向:(1)贸易金融方向大数据分析师:主要就业岗位在供应链融资公司、P2P信贷征信平台、商业银行等。(2)网络营销方向大数据分析师:主要就业岗位在互联网广告、O2O营销公司、大型网络媒体等。(3)物流与电子商务方向大数据分析师。主要就业岗位在电子商务公司、现代物流公司、第三方支付公司等。学生职业生涯成长目标为首席数据官(CDO)。
2.3 中南大学“数据科学与大数据技术”本科专业介绍
2015年7月,中南大学申报,现已获批成为首批教育部设立“数据科学与大数据技术专业”的三所高校之一。
数据科学与大数据技术师资来源主要是信息科学与工程学院的计算机科学与技术系及软件学院90人,信息安全与大数据研究院80人,网络信息中心30人,数学与统计学院30人。全部教职人员共计230余人,其中具有博士学位的教师156人,比例达69%。数据科学与大数据技术-计算机学科方向有:一、透明技术与主动服务,二、计算优化及其应用,三、计算机视觉与数字医疗,四、可信计算与计算机网络,五、网构软件与网络资源管理,六、数据科学与医学大数据。数据科学与大数据技术学科现有学科平台建设情况:1.教育部“移动医疗”重点实验室(2012年),2.湖南省金融货币识别与自主服务平台工程技术研究中心(2013年),3.湖南省区域医疗信息共享与协同服务示范平台(2010年),4.声探测与信息对抗湖南省国防科技重点实验室(2014年),5.湖南省“医疗大数据”协同创新中心(2015年)[14]。中南张尧学院士偏向于数据科学和其他学科的结合,数据处理一类的比数学有应用操作性,比计算机多了策略分析,具有很好的就业和创业前景。以后类似交叉学科会越来越多,还可以做机器学习和数据挖掘,课程设置合理!
三、数据科学的基本内容[16]
北京大学元培学院院长、院士鄂维南教授就什么是数据科学?它和已有的信息科学、统计学、机器学习等学科有什么不一样?在微信公号“大数据教育联盟”昨天发文《数据科学的基本内容》里面描述了他所认知的数据科学之基本内容。以下全文转录与此,尤其是鄂院士对数据分析本质的概论,我认为相当准确,富有启发性和科学性。
数据科学
作为一门新兴的学科,数据科学所依赖的两个因素是:一是数据的广泛性和多样性;二是数据研究的共性。现代社会的各行各业都充满了数据。这些数据的类型多种多样,不仅包括传统的结构化数据,也包括网页、文本、图像、视频、语音等非结构化数据。正如我们后面将要讨论到的,数据分析本质上都是在解反问题,而且常常是随机模型的反问题。所以对它们的研究有着很多的共性。例如自然语言处理和生物大分子模型都用到隐马尔科夫过程和动态规划方法,其最根本的原因是它们处理的都是一维的随机信号。再如图像处理和统计学习中都用到的正则化方法,也是处理反问题的数学模型中最常用的一种手段。
数据科学主要包括两个方面:用数据的方法来研究科学和用科学的方法来研究数据。前者包括生物信息学、天体信息学、数字地球等领域;后者包括统计学、机器学习、数据挖掘、数据库等领域。这些学科都是数据科学的重要组成部分, 但只有把它们有机地整合在一起,才能形成整个数据科学的全貌。
用数据的方法来研究科学,最典型的例子是开普勒关于行星运动的三大定律,如图1。开普勒的三大定律是根据他的前任,一位叫第谷的天文学家留给他的观察数据总结出来的。表1是一个典型的例子。这里列出的数据是行星绕太阳一周所需要的时间(以年为单位)和行星离太阳的平均距离(以地球与太阳的平均距离为单位)。从这组数据可以看出,行星绕太阳运行的周期的平方和行星离太阳的平均距离的立方成正比,这就是开普勒的第三定律。
图3 用数据的方法研究科学的典型例子:开普勒三大定律
表1:太阳系八大行星绕太阳运动的数据
| 行星
| 周期(年)
| 平均距离
| 周期²/距离³
| 水星
| 0.241
| 0.39
| 0.98
| 金星
| 0.615
| 0.72
| 1.01
| 地球
| 1.00
| 1.00
| 1.00
| 火星
| 1.88
| 1.52
| 1.01
| 木星
| 11.8
| 5.20
| 0.99
| 土星
| 29.5
| 9.54
| 1.00
| 天王星
| 84.0
| 19.18
| 1.00
| 海王星
| 165
| 30.06
| 1.00
| 开普勒虽然总结出他的三大定律,但他并不理解其内涵。牛顿则不然,牛顿用他的第二定律和万有引力定律把行星运动归结成一个纯粹的数学问题,即一个常微分方程组。如果忽略行星之间的相互作用,那么各行星和太阳之间就构成了一个两体问题。我们很容易求出相应的解,并由此推出开普勒的三大定律。
牛顿运用的是寻求基本原理的方法,它远比开普勒的方法深刻。牛顿不仅知其然,而且知其所以然。所以牛顿开创的寻求基本原理的方法成了科学研究的首选模式。这种方法在上个世纪初期达到了顶峰:在它的指导下,物理学家们提出了量子力学。原则上来讲,我们日常生活中所碰到的自然现象都可以从量子力学出发得到解决。量子力学提供了研究化学、材料科学、工程科学、生命科学等几乎所有自然和工程学科的基本原理。这应该说是很成功的。但事情远非这么简单。狄拉克指出,如果以量子力学的基本原理为出发点去解决这些问题,那么其中的数学问题太困难了。所以如果要想有进展,还是必须做妥协,也就是说要对基本原理作近似。
尽管牛顿模式很深刻,但对复杂的问题,开普勒模式往往更有效。举一个例子,表2中形象地描述了一组人类基因组的SNP数据(Single Nucleotide Polymorphism data)。一组研究人员在全世界挑选出1064个志愿者,并把他们的SNP数据数字化,也就是把每个位置上可能出现的10种碱基对用数字来代表,对这组数据作主成分分析,就可以得到图2中的结果。其中横轴和纵轴代表的是第一和第二奇异值所对应的特征向量。这些向量一共有1064个分量,对应1064个志愿者。值得注意的是这组点的颜色所代表的意义。可以看出,人类进化的过程可以从这组数据中通过最常见的统计分析的方法主成分分析展示出来。主成分分析是一种简单的数据分析方法。其原理是对数据的协方差矩阵作特征值分解。
表2:SNP数据的示意
|
| SNP1
| SNP2
| …
| SNPm
| 志愿者1
| 0
| 1
| …
| 0
| 志愿者2
| 0
| 2
| …
| 1
| 志愿者3
|
|
|
|
| …
| …
| …
| …
| …
| 志愿者n
| 1
| 9
| …
| 1
|
图4 对SNP数据作主成分分析的结果告诉我们人类进化的过程
这样的问题,如果采用从基本原理出发的牛顿模式,则基本上是没法解决的。而基于数据的开普勒模式则是行之有效。开普勒模式最成功的例子是生物信息学和人类基因组工程。正是因为它们的成功,材料基因组工程等类似的项目也被提上了议事日程。同样,天体信息学、计算社会学等等也成了热门学科。这些都是用数据的方法来研究科学问题的例子。图像处理是另外一个典型的例子。图像处理是否成功是由人的视觉系统决定的。所以要从根本上解决图像处理的问题,就需要从理解人的视觉系统着手,并了解不同质量的图像,对人的视觉系统产生什么样的影响。这样的理解当然很深刻,而且也许是我们最终所需要的。但从目前来看,它过于困难也过于复杂。解决很多实际问题时并不会真正使用它,而是使用一些更为简单的数学模型。
用数据的方法来研究科学问题,并不意味着就不需要模型。只是模型的出发点不一样,不是从基本原理的角度去找模型。就拿图像处理的例子来说,基于基本原理的模型需要描述人的视觉系统以及它与图像之间的关系。而通常的方法则可以是基于更为简单的数学模型,如函数逼近的模型。
怎样用科学的方法来研究数据?这包括以下几个方面的内容:数据采集、数据存储和数据分析。下面我们将主要讨论数据分析。
数据分析的中心问题
在讨论数据分析之前,我们先来看看数据的类型。比较常见的数据有以下几种类型:
1. 表格:这是最为经典的数据类型。在表格数据中,通常行代表样本,列代表特征。
2. 点集(point cloud):很多数据都可以看成是某空间中的点的集合。
3. 时间序列:文本、通话和DNA序列等都可以看成是时间序列。它们也是一个变量(通常可以看成是时间)的函数。
4. 图像:可以看成是两个变量的函数。
5. 视频:时间和空间坐标的函数。
6. 网页和报纸:虽然网页或报纸上的每篇文章都可以看成是时间序列,但整个网页或报纸又具有空间结构。
7. 网络数据:网络本质上是图,由节点和联系节点的边构成。
除了上述基本数据类型外,还可以考虑更高层次的数据,如图像集,时间序列集,表格序列等。数据分析的基本假设就是观察到的数据都是由背后的一个模型产生的。数据分析的基本问题就是找出这个模型。由于数据采集过程中不可避免地会引入噪声,通常这些模型都是随机模型。
表3:常用数据类型对应的数据模型
| 数据类型
| 模型
| 点集
| 概率分布
| 时间序列
| 随机过程(如隐马尔科夫过程等)
| 图像
| 随机场(如吉布斯随机场)
| 网络
| 图模型,贝叶斯模型
| 大部分情况下,我们并不感兴趣整个模型,而只是希望找到模型的一部分内容。例如我们利用相关性来判断两组数据是不是相关的,利用排序来对数据的重要性进行排名,使用分类和聚类将数据进行分组等。
很多情况下,我们还需要对随机模型作近似。最常见的是把随机模型近似为确定型模型。所有的回归模型都采用了这样的近似。基于变分原理的图像处理模型也采用了同样的近似。另一类方法是对其分布作近似,例如假设概率分布是正态分布,或假设时间序列是马尔科夫链等。
数据的数学结构
要对数据作分析,就必须先在数据集上引入数学结构。基本的数学结构包括度量结构、网络结构和代数结构。
1. 度量结构。在数据集上引进度量(距离),使之成为一个度量空间。文本处理中的余弦距离函数就是一个典型的例子。
2. 网络结构。有些数据本身就具有网络结构,如社交网络。有些数据本身没有网络结构,但可以附加上一个网络结构。例如度量空间的点集,我们可以根据点与点之间的距离来决定是否把两个点连接起来,这样就得到一个网络结构。PageRank算法是利用网络结构的一个典型例子。
3. 代数结构。我们可以把数据看成是向量、矩阵,或更高阶的张量。有些数据集具有隐含的对称性也可以用代数的方法表达出来。
在上述数学结构的基础上,我们可以问更进一步的问题,例如拓扑结构和函数结构。
1. 拓扑结构。从不同的尺度去看数据集,得到的拓扑结构可能是不一样的。最著名的例子是3×3的自然图像数据集里面隐含着一个2维的克莱因瓶。
2. 函数结构。对点集而言,寻找其中的函数结构是统计学的基本问题。这里的函数结构包括:线性函数,用于线性回归;分片常数,用于聚类或分类;分片多项式,如样条函数;其他函数如小波展开等。
数据分析的主要困难
我们碰到的数据通常有这样几个特点。一是数据量大。大家只要想一想,万维网上有多少网页,这些网页上有多少数据,就可以对现在碰到的数据量之大有点感觉了。数据量大带来的挑战是计算方面的,因此一些随机方法就显得重要,另外一种思路是分布式计算。第二是数据维数高。例如前面提到的SNP数据是64万维的。第三是数据类型复杂。数据可以是网页或报纸,也可以是图像,视频,多种类型的数据给数据融合带来困难。第四是噪音大。数据在生成、采集、传输和处理等流程中,均可能引入噪音。这些噪音的存在给数据清洗和分析带来挑战。需要有一定的修正功能的模型,例如图像中的正则化和机器学习中的去燥自编码器。
这里面最核心的困难是维数高。维数高给我们带来的是维数灾难(curse ofdimensionality)。即模型的复杂度和计算量随着维数的增加而指数增长。
那么怎样克服维数高带来的困难?通常有两类方法。一类方法就是将数学模型限制在一个极小的特殊类里面,如线性模型。另一类方法是利用数据可能有的特殊结构,例如稀疏性、低维或低秩和光滑性等。这些特性可以通过对模型作适当的正则化而实现,也可以通过降维方法来实现。
总而言之,数据分析本质上是一个反问题。因此,处理反问题的许多想法,如正则化,在数据分析中扮演了很重要的角色。这也正是统计学与统计力学的不同之处。统计力学处理的是正问题,统计学处理的是反问题。
算法的重要性
跟模型相辅相成的是算法以及这些算法在计算机上的实现。特别是在数据量很大的情况下,算法的重要性就显得尤为突出。从算法的角度来看,处理大数据主要有两条思路。
第一条思路是降低算法的复杂度,即计算量。通常我们要求算法的计算量是线性标度的,也就是说计算量跟数据量成线性关系。但很多关键的算法,尤其是优化方法,还达不到这个要求。对特别大的数据集,例如说万维网上的数据或社交网络数据,我们希望能有次线性标度的算法,也就是说计算量远小于数据量。这就要求我们采用抽样的方法。最典型的例子是随机梯度下降法(Stochastic Gradient Descent,SGD)。第二条思路是分布式计算,它的基本想法是把一个大问题分解成很多小问题,然后分而治之。著名的MapReduce框架就是一个这样的例子。
就现阶段而言,对算法的研究被分散在两个基本不相往来的领域里:计算数学和计算机科学。计算数学研究的算法基本上是针对像函数这样的连续结构。其主要的应用对象是微分方程等。计算机科学处理的主要是离散结构,如网络。而现实数据的特点介于两者之间:数据本身是离散的,而往往数据的背后有一个连续的模型。所以要发展针对数据的算法,就必须把计算数学和计算机科学研究的算法有效地结合起来。
四、大数据技术相关课程体系[17]
“数据科学与大数据技术”专业(专业代码080910T)强调培养具有多学科交叉能力的大数据人才。该专业重点培养具有以下三方面素质的人才:一是理论性的,主要是对数据科学中模型的理解和运用;二是实践性的,主要是处理实际数据的能力。三是应用性的,主要是利用大数据的方法解决具体行业应用问题的能力。
该专业包括基础课程、核心课程及选修课程三大模块。其中专业基础课程涵盖了数学、统计学、计算机科学等理论知识。专业核心课程侧重数据分析、计算、计算机技术以及大数据应用等方面的内容,包括了《数据科学导引》、《数据采集》及《大数据应用导论》等课程。专业选修课程在专业核心课程的基础上深入学习,包括《深度学习》、《大数据分析的算法》、《云计算与大数据平台》等,同时也在应用方面开设了新兴的行业课程,例如《金融大数据应用》、《健康医疗大数据:理论与应用》、《交通大数据:理论与应用》等。
培养目标:
“数据科学与大数据技术”专业,培养德、智、体、美全面发展,掌握数据科学的基础知识、理论、及技术,包括面向大数据应用的数学、统计,计算机等学科基础知识,数据建模、高效分析与处理, 统计学推断的基本理论、基本方法和基本技能。对自然科学和社会科学等应用领域中大数据的了解,具有较强的专业能力和良好外语运用能力,能胜任数据分析与挖掘算法研究和大数据系统开发的研究型和技术型人才。
“数据科学与大数据技术”课程体系
2016年9月,教育部公布新增“大数据技术与应用”专科专业
“大数据技术与应用”专业(专业代码610215)强调培养具有大数据实践能力的大数据人才。该专业重点培养具有以下两方面素质的人才:一是工具的掌握,掌握数据采集和数据分析的基本工具;二是数据分析能力,掌握实用数据分析和初步数据建模能力。
该专业包括基础课程、核心课程及选修课程三大模块。其中专业基础部分侧重为语言和专业基础方面的课程,包括《大数据的Python基础》、《Linux系统基础》、《大数据的统计基础》等。专业核心部分涵盖了数据采集、存储与处理方面的内容,包括《数据存储(MySQL)》及《数据清洗》等课程。专业选修部分以大数据分析、开发及应用为重点,开设包括《数据分析导论》、《大数据行业应用导论》、《数据可视化》、《Hadoop大数据平台基础》等课程。
培养目标:“大数据技术与应用”专业,培养掌握数据科学的基础知识及大数据相关技术,掌握大数据清洗和分析常用工具的使用,具有卓越的实践能力,能胜任数据清洗、数据存储、数据分析与挖掘、大数据系统开发与构建等工作的专业应用型人才。
“大数据技术与应用”专业课程体系
目前全国各类高校、高职院校已陆续开始围绕大数据专业建设展开研究并申报大数据专业。作为交叉型学科,大数据的相关课程涉及数学、统计和计算机等学科知识,需要系统的大数据专业教材讲义支撑教学。博雅大数据学院编写了《大数据分析的Python基础》《数据清洗》《数据科学导论》《数据采集与网络爬虫》《大数据应用导论》《金融征信》《大数据的数学基础》《数据可视化》《深度学习:算法与应用》《健康医疗大数据:理论与应用》《交通大数据:理论与应用》等课程。由欧高炎、朱占星、董彬和鄂维南合著的《数据科学导论》即将由高等教育出版社出版。
五、数据科学与大数据技术的未来:会类似计算机一样普世化吗?
秦陇纪10言:教育机构的专业设置来源于自然认知、社会分工和专业领域等角度,能直接从自然界、生活生产分工获得的,切勿臆造新名词,直接用就好;对那些不能直接用的特殊领域、共性问题,也可以形成专业领域,大都是从人类直接事务共性所抽象和思想理论提炼和升华得来。科学技术迟于宗教、哲学,更迟于人类原始社群,如今越来越重要,成为真正能从根本上促进社会发展的内在动因。传统社会生活方式自然形成的生活、生产、娱乐、商业、社群等,成为普适性外因和基础环境。推动人类教育事业发展,对脱离生产生活分工的专业做简化、撤并,使复杂的人类文明成果,可以在每个人有限的精力中,得到继承和发展!数据科学就是一种特殊的抽象专业领域。
随着数据科学和技术的普及和应用,将来会在各种设备、事务流程、分析处理方法得到普及,那时候,“数据科学与大数据技术”专业会像今天的计算机专业领域一样,变成普世化存在,成为各学科常规化计量、分析、留存手段。相关科学、技术、工程、产业也会成为人类社会生活、生产、娱乐、商业、社群普适性基础事业和工作。数据科学不再显得突出和特殊,十年后也许就是一种普通的专业领域,也许会消失在更加重要的学科合并中,但那个周期还有很远一段年份要走。
参考文献
[1][6] 中国信息通信研究院.中国大数据发展调查报告(2015)[EB/OL].http://www.catr.cn/kxyj/qwfb/bps/201509/t20150907_2128047.htm,2015.
[2][3][4][5] 中国信息通信研究院.中国大数据发展调查报告(2016)[EB/OL].http://www.catr.cn/kxyj/qwfb/bps/201612/t20161228_2185495.htm,2016(12).
[7] 秦陇纪.信息社会的数据资源概论[M/OL].北京:数据简化DataSimp(微信公众号),2017:18-19,20.
文末打赏后“阅读原文”可百度网盘下载完整版PDF文档。
Appx.附录(4722字)
内附、2017年3月17日(星期五)农历丁酉年二月二十新闻四则汇编(4295字)
附i. 早报,3月17日,星期五
1、美联储如期加息25基点!预计今年还有两次加息;
2、ofo携手芝麻信用打造“信用骑行”:650分可免押金;
3、无印良品回应315曝光:所有食品为合法进口 不下架;
4、韩媒:两名韩国牧师在中国被捕 涉嫌协助"脱北者";
5、315第一枪 互动百科网竟成最大虚假广告"垃圾站";
6、到34岁要被华为辞退?员工:干部末位淘汰很残酷;
7、职业打假人一年投入百万买假货 自称不赚个几倍就白干了;
8、河南一农妇短信辱骂镇领导被拘10日 家里曾被强征耕地;
9、广州知名火锅店惊人内幕 一锅底料重复利用560次;
10、耐克时隔5年又现"气垫门":中国消费者被戏弄惨了;
11、国际刑警组织对金正男案4名朝鲜嫌犯发红色通缉令;
12、阿里巴巴出售部分陌陌股份 但称继续支持陌陌;
【心语】如果你想造一艘船,不要鼓励人们去伐木、去分配工作、去发号施令。你应该做的是,教会人们去渴望大海的宽广无边和高深莫测。
附ii. 2017年3月17日周五读报!一切美好从“勇往直前”开始!
1、国务院办公厅正式印发《关于进一步激发社会领域投资活力的意见》。要求进一步激发医疗、养老、教育、文化、体育等社会领域投资活力:①扎实有效放宽行业准入;②进一步扩大投融资渠道;③认真落实土地税费政策;④大力促进融合创新;⑤加强监管优化服务。
2、商务部:1-2月,全国新设立外商投资企业3860家,同比增长13.7%;实际使用外资金额1386.8亿元人民币,同比下降2.3%。2月当月全国新设立外商投资企业1850家,同比增长33.3%;实际使用外资金额585.9亿元人民币,同比增长9.2%。
3、3.15后续:①上海检疫局:经排查确认,无印良品进口记录未发现核辐射地区产品。②耐克连发声明:承诺全额退款,未提三倍赔偿。
4、2017上海国际半程马拉松赛将于4.23在浦东开跑。起点东方明珠塔,终点东方体育中心,全程21公里左右。本次参赛规模扩至15000人。跑友可于3月16日16时-19日17时登陆www.shang-ma.com预报名。
5、共享单车平台ofo与蚂蚁金服旗下的芝麻信用宣布达成战略合作,将开启共享单车的信用免押模式。ofo上海用户如果芝麻信用分在650分以上,可以“芝麻信用免押金”用车。
6、彭博社:三星已经在与多家银行合作,希望在未来数月内支持Galaxy S8的“刷脸”支付。有报道称,Galaxy S8的面部识别速度极快,不到0.01秒即可解锁手机。
7、财富品质研究院:截至2016年,中国拥有千万富豪超过400万人,亿万富豪15万人,已形成全球最大的高端财富群体。2016年,中国“要客”(特指净资产在1000万元以上的人群)境外旅游共消费超6000亿元,奢侈品消费近4800亿元,中国“要客”人均每年境外奢侈品消费12万元。
8、2017年1月中国所持美国国债环比减少73亿美元至1.0511万亿美元,重新延续了去年11月以前的六个月连降趋势。与此同时,日本1月所持美债环比增加117亿美元至1.1025万亿美元,为最近六个月以来首次增加。
9、朝鲜驻华公使举行记者会:批评美韩应为半岛局势恶化负责,并称“美国在朝鲜家门口武力威胁不断,朝鲜就将不断进行核试验。目前朝鲜半岛处在核战争边缘。”
10、韩媒:中国对“萨德”展开激烈报复,近期二度部署了能够覆盖韩日全境的探测半径达3000公里的天波雷达。天波雷达的电波还能捕捉到普通雷达难以探测到的隐身飞机,美国在日本山口县岩国航空基地部署的最新型隐身战斗机F-35B或将被纳入中国的监视网。
11、在史上最强的厄尔尼诺爆发不到一年之际,新一轮的厄尔尼诺可能在今年7月爆发。澳洲气象局表示,八个气候模型中的六个显示,七月份可能会达到厄尔尼诺的临界值。其预计,今年有50%的可能爆发厄尔尼诺。
12、昨天再好,也回不去;明天再难,也要抬脚继续。只有走完必须走的路,才能过想过的生活。逆境或低谷,不过是包装不够精美的人生礼物。
美好一天从“勇往直前”开始!
附iii. 2017年3月17日(丁酉鸡年二月二十)周五/早读分享:
1、【预告】今日:国新办举行解读《政府工作报告》!
2、【无印良品:央视错了!我们产品不下架】针对央视曝光无印良品销售日本核漏区产品的回应,央视错了?!无印良品对了?!消费者会用脚去投票!在安全方面我们都要有百分之百的态度:宁愿相信有不应相信无!让这种无良的商家滚到垃圾箱里去吧!
3、【长三角今年再投资2262亿元建设铁路】计划年内将开工建设沪苏铁路、盐通铁路、沪通二期、安九铁路、昌景黄铁路、黄池铁路、甬金铁路、杭绍台铁路、庄桥至宁波增建三四线、水蚌电化蚌埠外绕、大丰港支线、湖州西货场等12个项目。
4、【恒大被"招安" 万科股权之争走向终结】据业内人士说,恒大将表决权委托给深铁一年。此举扭转了万科管理层所面对的不利局面,但是,王石的时代也会翻过一页。
5、【中国环保产业协会等被降级】民政部发布公告称,把:中国环保产业协会、中国爆破行业协会从4A级降至3A级。把:东方华厦文化遗产保护中心、中国生物多样性保护与绿色发展基金会、中国圆明园学会、中国交响乐发展基金会和中国投资协会从3A级降至2A级。这7家社会组织存在上年度检查不合格、连续2年年度检查基本合格或受相关政府部门行政处罚情形。
6、【央行:逆回购和MLF中标利率上行并不是加息】央行负责人表示,16日央行逆回购和MLF操作合计投放3830亿元,但中标利率仍上行了10BP,反映了近期国内外影响市场资金供求因素的变化。中标利率上行并不是加息,中央银行工具箱的工具比较多,不必对每次操作数量、价格都作出过渡解读。
7、【萨德下月中旬投入使用】即将部署在星州的萨德系统核心装备X波段雷达16日运抵韩国。部分负责操作的美军士兵也于16日抵达乌山驻韩美空军基地。韩美军方为使萨德尽早投入实战竭尽全力,正在压缩程序,多项工作共同开展。
8、【美联储加息反而引起美元暴跌、全球股市狂欢的真相】专家认为,由于美联储认为美国经济处于温和复苏状态,这是对于经济韧性的确认。此外,美联储预计年内还将加息二次,符合预期,打消了此前市场认为会更快加息的担忧。这一切都推动了全球股市上涨,美元和国债收益率下挫。
9、【昨日股市收评:沪指高开高走涨0.84%】周四两市高开高走,沪指创3个月以来新高,盘中各板块普涨,最活跃的是次新股。截止收盘,沪指收报3268.94点,涨0.84%,成交2445亿元;深成指报10624.42点,涨0.77%,成交3060亿元;创业板收报1966.73点,涨0.46%,成交913.7亿元。板块普涨,证券、采掘、港口航运、银行、新股与次新股、钛白粉等涨幅居前。
10、【仙言潮声】人生亦如瓷碗,可以盛美酒,也可以去装食饭!不必挑剔,不贪不占!碗装下的都是理智,装不下的就是愤怒,否则碗容易被打碎。
美好的一天从合适最好开始!
附iv. 2017年3月17日(星期五)农历丁酉年二月廿癸卯日
每天三分钟 知晓天下事
A、【国内】
1)张德江看望参加人大会议报道的新闻工作者;全国两会送出这些民生福利,将惠及你我生活:今年再抓10类重点消费品质量提升,要修订或者新建跑道标准,要全部取消药品加成,提高养老金、居民医保财政补助;两会受权发布:政府工作报告;
2)高景一号商遥卫星发回清晰影像图,高程相对精度达到1米,可区分单个树冠;
3)[法制与反腐] 北京官方打击非法销售瘦脸针,查验1500余盒,破获销售假药案5起;广东省高级人民法院党组成员许佩华接受组织审查;
4)住建部部长:中国已有1000万户居民住进公租房;
5)中国网民消费者权益受损人均过百元,消协去年挽回消费者损失3.87亿;
6)全国人大常委会委员令狐安:国家公务人员家庭财产公示应写进公务员法;
7)国家发改委:2025年中国形成三大世界级机场群,运输机场数量达260个左右,北京新机场、成都新机场等一批重大项目将建成投产;
8)[军事] 新修订的军队院校招收学员体格检查标准发布施行;
9)[港澳] 范徐丽泰:“港-独”分裂国家,更伤害香港同胞;香港推出首批追踪本地恒生指数和恒生国企指数的杠杆和反向产品,可对冲风险;香港将办国际车展,定位新能源和人工智能;
10)[台湾] 李克强:继续提供优惠,让台商台胞和大陆共享发展机遇;马英九穿建国中学校服锻炼“内含台-独密码”,国民党指其“害党亡国”。
B、【国际】
1)习近平同沙特国王萨勒曼举行会谈;沙特国王萨勒曼访华,中国与沙特在石油等各领域深化合作引发外界关注;
2)韩检方将于21日传唤朴槿惠,6名律师聘书将提交检方;
3)英议会通过脱欧法案引抗议,首相称月底前启动脱欧,反对脱欧的英国民众示威;
4)柬埔寨拒还美国5亿美元债务:这笔钱“沾了血”;柬副首相索安在北京病逝,终年66岁;
5)土耳其恫言废除欧洲难民潮协议,或对荷兰进一步制裁;
6)暴风雪肆虐美国东北部,9个州发布暴雪警报,五千多万人生活受到严重影响;
7)金正男案:国际刑警对4朝鲜嫌犯发红色通缉令。
C、【财经证券】
1)李克强:将继续保持人民币基本稳定,外汇储备充裕、中国经济增长6.5%的目标不低;国办发文:37条政策措施进一步激发社会领域投资活力;
2)权威专家:每年铁路投资8000亿可期,或持续十年,目前中国铁路运营里程12.4万公里;
3)浙江出台意见推动中小微企业“专精特新”;
4)副省级城市20多年没有新增,郑州兰州福州欲升格;
5)昨日收盘:沪指3268.94/+0.84% 深成指10624.42/+0.77% 创业板1966.73/+0.46% 恒指24288.28/+2.08%。
D、【文教体娱】
1)2017年考研“国家线”公布,3月17日起可申请调剂;
2)故宫博物院院长单霁翔:要把紫禁城完整交给下一个600年;南宋《六龙图》超3亿元纽约成交,晚清时流散海外;
3)高校复印店业务从校内扩至校外,中小学教辅书被批量复印“团购”;毕业生求职变成贷款培训,利率超过10%,陷阱重重;
4)羽联排名:李宗伟排第一,谌龙第三林丹第七,96超新星石宇奇紧追林丹,李雪芮回前十。
E、【生活服务】
1)今起江南、华南等地将有较强降水过程,江西北部、湖南中部、贵州东南部、广西东北部等地的部分地区有大到暴雨;
2)北京市西城区:白纸坊“议事会”督办小实事,搜集民声民意,解决社区事务;北京“心目影院”11年为盲人讲电影645场;
3)2017沪增分配供应市筹、区筹公共租赁住房约1万套;
4)广东全面打造社会共治体系四招护航舌尖上的安全;
5)2016户籍人口城镇化率排名出炉,西安位列前三;
6)郑州拟开通新航线,直飞洛杉矶旧金山;
7)在广东东莞、中山等地,无良商家拿有毒化工品给黑木耳增重,可致癌致死。
F、【健康养生】
1)抓住养生的黄金时间效果更好:走路:饭后两小时;泡脚:晚上9点;洗澡:睡前90分钟;刷牙:饭后半小时;喝牛奶:餐前30分钟;吃水果:饭后半小时;喝茶:饭后1~2小时;晒太阳:上午9点、下午4点 ;午睡:13点;锻炼:16点-18点。
2)老年人春季保健不妨喝一些养生汤,春季养生的重点在于养肝,建议喝一些具有养肝功效的汤,常见的有鲫鱼赤小豆汤、天麻鱼头汤、泥鳅豆腐汤、羊肝枸杞汤、西红柿鸭蛋汤、山药枸杞鸡汤等。
(编辑:西安知非 自新华、中新、腾讯、凤凰、东方财富网)
外附v:数据简化DataSimp社区译文志愿者招募启事
“数据简化DataSimp”社区翻译组、媒体组缺少志愿者,①设计黑白静态和三彩色动态社区LOGO图标;②翻译美欧IT大数据、人工智能、编程开发技术文章的至少投一篇高质量首译美欧数据科学技术论文,方可正式成为数据简化DataSimp社区贡献者。非诚勿扰,季度无贡献者自动退出。请扫下面的二维码,加入数据简化DataSimp社区(实名制微信群,拉人请修改昵称为:姓名-单位-职务)。
(已在秦陇纪10其他群的朋友,切勿重复加群)
Data Simplification and Sciences Wechat and Toutiao Public Account, QinDragon2010@qq.com, 2017.02.17Fri, Xi’an, Shaanxi, China:
LIFE
Life begins at the end of your comfort zone.
-- Neale Donald Walsch
THE DAY
The strength of purpose and the clarity of your vision,along with the tenacity to pursue it,is your underlying driver of success.
-- Ragy Tomas
长按下面二维码“识别图中二维码”关注公众号:数据简化DataSimp(搜索此名称也行)。
文末打赏后“阅读原文”可下载此文完整PDF文档。
(西安秦陇纪10数据简化DataSimp综合汇编,欢迎有志于数据简化之传媒、技术的实力伙伴加入全球“数据简化DataSimp”社区!欢迎转载注明出处:秦陇纪10数据简化DataSimp公众号、头条号“数据简化DataSimp、科学Sciences”汇译编,投稿邮箱QinDragon2010@qq.com) |
|