中文 English
  当前位置:首页>> 新闻动态>>学术新闻
2013年3月29日,侯庆虎教授参加天津大数据技术与产业研讨会
来源:天津大学应用数学中心 发布时间:2013-04-19  
                                   

2013年3月29日,由天津市科学技术委员会主办,天津南大通用数据技术有限公司承办的“天津大数据技术与产业研讨会”在天津赛象酒店召开。天津大学应用数学中心侯庆虎教授参加了此次研讨会。

会议邀请了中国计算机学会大数据专家委员会委员靳小龙博士作了主题演讲“大数据的挑战与发展趋势”。演讲分为三个部分:

一、大数据特性与发展趋势

大数据是无法在可容忍的时间内用传统IT技术和软硬件工具对其进行感知、获取、管理、处理和服务的数据集合。大数据的来源既有来自物理世界的数据,如科学观测、生物数据、天文学数据等,又有人类活动相关的数据,如社交网、互联网、金融与经济数据。IBM公司总结了大数据的4个V的特性:大量(Volume)、多样(Variety)、快速(Velocity)、价值(Value)。大数据的核心是价值,包括科学价值、经济价值、工业价值和社会价值。1998年图灵奖获得者、数据库技术奠基人Jim Gray认为,数据驱动的研究将成为第四种科学研究的范式;著名市场调研公司高德纳公司的分析报告指出,到2015年使用先进数据管理系统的企业将比未使用的企业盈利能力高出20%;大数据催生了一些新的产品和服务;大数据还使得我们能够更准确地进行经济、消费趋势的分析。上世纪60年代是数据库发展的时代,90年代是数据中心的时代,现在则是数据产业发展的时代。预计到2015年,全球数据产业将产生340亿的年产值,提供440万个职位。

二、大数据基础研究的主要方向

大数据的研究内容主要包括:感知与表示、存储与管理、数据挖掘与社会化计算。中国计算机学会大数据专家委员会组织70位专家(包括学术界46位,产业界14位,海外10位)进行调研,提出了大数据研究与应用的4个方面共计14个领域:

1. 科学问题:数据的科学问题、大数据的基本内涵、计算模式。

2. 技术问题:数据的多样性与数据态、大数据的空间维问题(分布、感知与传输)、大数据的时间维问题(流式化、时效性、在线处理)、如何将大数据变小、数据的价值提炼。

3. 应用实践问题:大数据应用领域、大数据对于系统的要求、数据质量问题、大数据安全和隐私。

4. 大数据生态问题:数据资源化和共享管理、大数据的生态环境。

三、大数据的研究热点与挑战问题

1. 数据科学与大数据的学科边界。需要对大数据给出科学定义,清晰说明其内涵与外延;大数据区别于其他数据的关键特征是什么;大数据是否意味着全数据。需要为动态、高维、复杂大数据建立形式化、结构化的描述,并在此基础上发展大数据处理技术。

2. 数据计算的基本模式与范式。数据密集型计算的基本范式;数据计算的效率评估与数据计算复杂性理论;去中心化的/自组织的计算模式;基于数据的智能。

3. 大数据特性与数据态。包括关系复杂性、空间复杂性和时间复杂性三个方面。

4. 大数据的压缩与提炼。一方面是将大数据变小,在尽量不损失价值的条件下,减小数据规模;另一方面是价值提炼,通过群体智慧,实现认知计算对数据价值的发酵和提炼。

5. 大数据安全和隐私问题。包括大数据规模的密码学、分布式编程框架中的安全计算、非关系型数据存储、安全的数据存储和事务日志、终端输入的确认/过滤、可扩展的、可组合的、脱敏的数据挖掘和分析,强制的访问控制和安全通信等。

6. 大数据对IT技术架构的挑战。大数据对于系统在存储、传输和计算方面提出了很多非常苛刻的要求;大数据平台将是技术高峰,包括了计算平台、传输平台、存储平台、交互平台等。

7. 大数据的应用及产业链。大数据的应用一定要与领域知识相结合,对于不同的领域环境和不同的应用需求,大数据的获取、分析、反馈的方式都会不同。针对不同行业与领域业务需求,展开数据特征与业务特征的研究,进行大数据应用分类与技术需求分析,构建“需求分析-业务模型-数据模型-数据采集-数据分析-总结反馈-数据分析”的全生命周期应用模型。

8. 大数据的生态问题。包括资源和共享管理:数据所有权问题,数据权益的认定与保护,如何在保护多方利益的前提下解决数据共享问题;还有一些其他生态问题:与政治、经济、社会、法律、科学的交叉影响,大数据对国家治理模式、企业的决策、组织和业务流程、个人生活方式都将产生巨大的影响,其模式值得研究。

靳小龙博士的报告还给出了大数据的发展趋势,包括7个方面、37个子项:

1. 整体态势和发展方面:更大的数据、数据资源化、数据价值凸显、数据的私有化、数据共享联盟。

2. 大数据与学术:令人瞩目的学科(大数据分析与预测、分布式计算、社会计算)、数据科学兴起、数学学科发生变革、自组织计算、基于海量知识的智能、大数据分析的革命性方法、学术活动盛行。

3. 大数据与人:更奇妙的人机交互、分析平民化、数据化生存。

4. 大数据的安全与隐私:大数据隐私问题、大数据安全、数据保护关系到国家安全。

5. 大数据应用:最瞩目的应用(医疗、金融、电子商务、城市管理)、精确个性化推荐系统、数据清洗、政府大数据、大数据加强军队、犯罪预测。

6. 大数据系统和处理:处理能力难以满足需要、处理模式多样化、网络压力突出。

7. 大数据对产业的影响:资本高度关注、产业政策、非结构化数据处理、数据产品丰富、数据外包、产业垂直整合、大数据新职业,大数据与云计算等深度融合。

最后,靳小龙博士预测了大数据在2013年的十项发展趋势:

1. 数据的资源化

2. 大数据的隐私问题突出

3. 大数据与云计算等深度融合

4. 基于大数据的智能的出现

5. 大数据分析的革命性方法

6. 大数据安全

7. 数据科学兴起

8. 数据共享联盟

9. 大数据新职业

10. 更大的发展

天津市科委赵海山主任在讲话中介绍了天津市大数据技术与产业发展环境与政策。他指出,天津市科委对于加强各个方面交流,加深大数据各个方面的理解,推动大数据产业的发展非常重视。此前在北京已经开过一次大数据研讨会,此次会议目的是为今后大数据产业在天津的发展理出思路。

天津近几年发展很快。连续5年在全国增速排名第一,平均增幅16.5%,GDP规模超过了万亿,支柱产业的一大批项目也落到天津,天津已经成为国内实体经济的热点地区。下一步要将天津的制造业优势转化为新产业优势,依靠实体经济、制造业的优势,继续提升产业结构,各产业协同快速发展。为此天津市科委提前进行研讨和预判,推动产业不断聚集,使天津得到更可持续、更好的发展。

天津与北京同城化效应越来越明显,58同城、软通动力、百合、搜狐、数据中心等30多家一流互联网企业,还有一批优秀的创业团队都聚集到天津。天津原有的信息产业企业也发展得很好。张德江委员长来天津到海量信息进行了视察,了解了大数据的发展。在大数据方面,我们有很好的科研基础。天津在整个发展中积极推进智慧型城市的建设,用信息技术和现代管理辅助现代服务业的发展。现在天津在电子口岸、智慧社区、电子商务与制造品牌等多个领域中启动了示范工程,也为天津的信息技术、服务这方面的产业提供了很大机会。现在天津软件注册企业将近400家,产值达到350亿,也形成了一定的规模,另外,天津在南开大学、天津大学等46所高校中信息领域的毕业生每年达到2万多人,在研究方面也有很好的成果。

在公共技术平台建设方面,天津已经建成了滨海新区的超算中心,现在世界排名第四。在超算中心周边形成了一大批信息服务的国际国内重点企业,在开发区形成了一个产业的集群。另外,天津市承担的国家信息安全产业化基地、国家科技文化融合示范基地、电子商务示范城市等项目,中央都给予了支持和产业发展的位置,为整个产业的发展也提供了基础支撑。

大数据产业引起了天津市方方面面的高度关注,很多区域重视这个产业的发展,海洋高新区明确提出要建立大数据产业园,开发区利用原有超算中心进一步聚集国内外优势的信息企业,也建成了大数据产业园。在政策方面,之前都是对信息行业整体有产业政策,包括招商的政策。这次会议,将研讨如何聚集资源,使大家能够协同创新、共同发展,搭建一个大数据产业比较好的、至少在国内能够形成比较优势的产业聚集。

天津对面向未来的发展高度重视,特别是目前天津的发展已经到了一个特别的阶段,与北京的关系越来越密切。上周天津市政府和北京市政府签了一个全面合作的协议,天津市明确提出要借助首都资源,从政府的层面积极支持和推进两个城市在学术界、产业界包括基础设施、旅游、文化、科技等各个方面的全面融合发展和合作发展。两个城市之间资源的共享以及发展方向上的互补、互相借势发展将成为今后发展的一个重大机遇。

另外,天津正在抓科技型中小企业的发展,从政策的角度,应该说聚集了全国最优势、最有吸引力的政策,希望通过互动,能够在大数据,在信息产业、特别是面向未来的互联网产业涌现出一批能够在国内领先的科技小巨人,科委将抓住重点给予支持和帮助。

天津南大通用数据技术有限公司的崔维力作了题为“大数据时代——国产数据库的机遇与挑战”的发言。他谈到大数据为天津市的发展带来了多种机遇,南大通用就合作了相关的多个项目,例如食品溯源、环保监测、房产监测、社保分析、纳税分析、智能电网、文化资源等。同时大数据还带来一些战略型新兴产业,如新型数据库、大数据分析与展现、集群服务器、大规模存储、情报分析、舆情分析。

大数据为国产数据库的发展带来了机遇,可称为“天时、地利、人和”。“天时”是指发展时间的机遇。数据库产品从上世纪80年代经历了初始创新、行业成熟直到垄断形成三个发展阶段。到2000年,Oracle、IBM和微软占据了绝对市场,德国、日本等开发的数据库放弃了市场化。而大数据使得创新重启,特别是开源产品发展迅速,对垄断形成了冲击,这为国产数据库的发展提供了30年一遇的大机遇。与传统数据库技术相比,大数据时代的数据库架构多元化,出现了NewSQL和NoSQL新的技术。采用分布式文件系统、内存计算和新型硬件。“地利”是指中国具有世界级的大数据市场。由于人口基数大,国内已经有许多行业大数据,例如电信、金融、电网、报表、邮件、安监、遥感、物联网等。“人和”是指用户对国产新型数据库大力支持:技术上与国外同类产品同步,应用价值明显,风险可控,也符合行业和国家发展的趋势。

天津海量信息技术有限公司的郝玺龙就“情报挖掘——大数据的核心应用”作了发言,他认为,大数据分析成功的关键一是要有技术支撑,二是要有实际的客户价值。

南开大学信息学院院长袁晓洁就“大数据对计算技术的挑战”作了发言,介绍了南开大学信息学院计划开展的研究。研究共分六个方面:

1. 数据的获取与传输。包括面向智能交通的车载网络数据收集、传输与分析,面向移动社交和机会计算的智能终端自组织网络数据传输研究,面向物联网应用的大数据处理基础性研究。

2. 大数据存储。包括基于大数据分析的企业级数据中心主动容错机制,针对众多核平台的搜索引擎多级存储架构关键技术,数据访问规律感知的大数据存储系统研究。

3. 大数据计算。包括数据密集型高性能异构计算模型与编程框架研究,面向大规模数据处理的分布式计算模型研究,多维多模态大数据管理的关键技术。

4. 大数据分析。多源异构大数据智能分析关键技术,基于分层语义内容分析的海量图像检索研究,基于大数据的大流量异常检测方法研究,基于全网数据的电子商务消费者行为与偏好研究。

5. 大数据安全。大数据基础平台的服务模型及安全机制研究,大数据服务处理平台的性能测试基准研究。

6. 生物学大数据分析。基因组数据的存储,生物医学图像,生物医学文本。

天津大学计算机学院副院长冯志勇就“基于语义的大数据存储技术”发言。语义大数据为人工智能提供了新的希望,例如电脑“沃森”几乎通过了图灵测试。首份关于大数据的国际期刊《Big Data》在第一期中有两篇文章关注RDF在大数据中的作用。天津大学将在新型非易失性存储器件的基础上研究智能混合存储策略和语义大数据原生RDF分布式存储体系结构,并应用于电子政务中。

各企业代表纷纷发言。软通动力信息技术集团有限公司代表认为我国在基础建设中积累了大量数据,但在数据质量、完整度方面还与西方有近20年的差距。数据的公共服务平台建设将是一个热点。百合网代表认为目前我国主要还处于数据收集阶段,但是对于数据科学家的培养应该从现在就开始了。昊优明镝科技有限公司代表建议将大数据的团队分为感知与获取、层析与存储、分析与应用、产品与市场、法律与标准化等五组进行深入讨论。天大计算机学院、大数据专委会委员王文俊教授认为,目前大数据来源可以分为互联网、行业数据、物联网、视频四类,技术方面包括数据分析、非关系型数据库、网络技术。本土语言数据的处理是我国大数据时代的一个具有优势的方向。

泰达开发区科技局韩玉刚副局长表示开发区要建设中国的“慧谷”,大数据对信息产业非常重要,是中国发展的机遇,数据安全和管理方面有挑战。

塘沽海洋高新区管委会李超主任介绍到,海洋高新园区已经完成了产业园的整合,与中科院和国防科大进行合作,将建成占地百万平米的大数据产业园,目前已经有医药检索的项目正在实施。

滨海新区科委主任黄亚楼教授在发言说,大数据的理论研究要响应应用问题,因为有些技术是可以替代的;大数据的核心是数据分析;政府有数据资源,美国已经公开了大量数据,滨海新区也有专利、企业、港口、海关等大量数据。

天津市科委李彭越总工程师在讲话中表示科技要进行产业部署,要与当前工作合拍,要有利于抢占制高点。政府的定位是支持和推动大数据的发展,但还是要市场牵头。大数据目前仍然处于培育阶段,科委将做好服务,把科技的资源和一些措施向企业开放、向全社会开放。与大数据相关的新产业、新技术将作为科委工作的重中之重。