『壹』 核能核电股票有哪些
核电公司股票值得大家在熊市中买进并长期持有:牛来时候是你的收获时!
一、锆材料:
1、升华拜克(600226):子公司“升华锆谷”,中国最大的锆系列产品制造与销售企业,在日本锆产品市场上拥有了90%的客户,在美国锆产品的市场上也拥有了50%的客户。
2、东方锆业(002167):是全球品种最齐全锆制品专业制造商之一。
二、锆合金:
1、嘉宝集团(600622):参股上海高泰稀贵金属,生产核燃料锆合金管、钛、铌及其他稀贵金属及合金等系列产品,公司旗下的高泰公司是一家主要研制、生产核燃料锆合金管、钛、铌及其他稀贵金属及合金等系列产品,公司年产核电用锆管65万米,而每100万千瓦发电能力一年要消耗掉20到25万吨金属锆,这就使锆合金产品的市场前景十分广阔
三、核级钠:
1、兰太实业(600328):应用高科技钠净化技术所生产的核极钠,公司拥有储量1.14亿吨吉兰泰盐湖,金属钠的生产能力位居全球第三和亚洲第一。公司与中国原子能科学研究院合作建设核极金属钠生产项目,应用高科技钠净化技术生产核极钠,已经向我国第一座快中子实验核反应堆提供了350吨的核极钠,此举不仅使公司取得了核极钠的生产技术及其配套设备,而且使公司成功的切入了高尖端科技的核能源领域。
四、核发电:
1、申能股份(600642):参股秦山核电,拥有秦山联营公司12%和秦山第三核电公司10%股权。
五、核电设备:
周涛介绍说,目前,国内的核岛设备市场上,上海电气与西门子联合体占有率达45%(每年订单近30亿元),哈电与GE联合体占有率仅有5%,剩余的50%为东方电气所占;在常规岛设备市场上,上海电气与西门子联合体、哈电与GE联合体和东方电气基本上是三分天下。
“在核岛部分的竞争格局方面,目前来看东方电气略胜一筹。”周涛表示,但长期来看,格局还可能发生变化。
一位分析人士表示,核电行业景气对不同的核电设备商影响不一,对核电细分领域有竞争优势或核电设备比重高的企业利好更大,例如生产核承压设备的海陆重工(002255)、生产变压器的天威保变(600550)、生产核电空调设备的哈空调(600202)等。相反,对业务结构比较多元的东方电气来说,利好因素没有想象的那么大。
目前A股市场主要有上海机电600835、东方锅炉600786、东方电机600875等电力设备类上市公司。
1、东方电气(600875):主要生产核发电设备,常规岛部分技术基本成熟,
2 、上海机电(600835):上海机电主要生产核电成套起重设备, 独立中标秦山核电三期70万千瓦的核电项目
3 、东方锅炉(600875):东方锅炉主要生产核反应设备。已成功岭澳一期2*100万千瓦核电站8台核岛主设备的分包制作
4、哈空调(600202):电站(核)空气处理机组专业生产厂家,公司两大核心业务中,大型电站空冷设备和石化空冷设备都保持较快增长。
5、自仪股份(600848):核电仪控系统
6、沃尔核材(002130):是核辐射改性新材料的高新技术企业,主要业务是核辐射化工材料生产。核电厂使用的热缩材料和辐射电线的市场潜力十分巨大,目前公司产品已经销售到70多个国家和地区。
7、奥特迅 (002227):自动化电源设备及其智能单元研发、制造、销售和服务
8、上电股份(600627):输配电龙头
9、中成股份(000151):低温供热堆技术
10、海陆重工(002255):具有制造核反应堆"心脏"设备堆内构件吊篮筒体能力
11、中核科技(000777):核电阀门,大股东为中国核工业集团公司,阀门行业的龙头企业,公司获得国家核安全局颁发的压水堆核电阀门设计、制造许可证,具有国家核安全级局批准的国内唯一生产核安全1级、2级铸件资质,其研制的核电站关键阀门技术指标达到国际同类产品水平,具备设计制造百万千瓦级核电阀门的能力。
600835上海机电;;600202哈空调;000151中成;;000733振华科技。 000543皖能电力, 000601韶能股份
『贰』 《大数据时代》谁在引爆大数据
赫獗臼橛腥鎏氐悖菏紫龋嗣欠治龊脱芯磕掣鱿窒笫保褂萌康氖荩皇欠浅檠氖荨>褪窃诖笫菔贝颐遣恍枰〉悖恍枰阋恍┏檠乔康魅莞拍睢5诙,在大数据时代不能一味的追求数据的精确性,而要适应它的多样性、丰富性。甚至要接受错误的数据,这也是非常有价值的。第三,强调数据之间的相关性,不强调其因果性,强调是什么,不强调为什么。 【书籍信息】 作者:(英)迈尔-舍恩伯格,(英)库克耶 著,盛杨燕,周涛 译 出版社:浙江人民出版社 出版时间:2013-1-1 【内容介绍】 《大数据时代》是国外大数据系统研究的先河之作,本书作者维克托02迈尔02舍恩伯格被誉为“大数据商业应用第一人”,拥有在哈佛大学、牛津大学、耶鲁大学和新加坡国立大学等多个互联网研究重镇任教的经历,早在2010年就在《经济学人》上发布了长达14页对大数据应用的前瞻性研究。 维克托·尔耶·舍恩伯格在本书中前瞻性地指出,大数据带来的信息风暴正在变革我们的生活、工作和思维,大数据开启了一次重大的时代转型,并用三个部分讲述了大数据时代的思维变革、商业变革和管理变革。 维克托最具洞见之处在于,他明确指出,大数据时代最大的转变就是,放弃对因果关系的渴求,而取而代之关注相关关系。也就是说只要知道“是什么”,而不需要知道“为什么”。这颠覆了千百年来人类的思维惯例,对人类的认知和与世界交流的方式提出了全新的挑战。 本书认为大数据的核心就是预测。大数据将为人类的生活创造前所未有的可量化的维度。大数据已经成为了新发明和新服务的源泉,而更多的改变正蓄势待发。书中展示了谷歌、微软、亚马逊、IBM、苹果、facebook、twitter、VISA等大数据先锋们最具价值的应用案例。 【作者简介】 维克托·迈尔-舍恩伯格(Viktor Mayer-Sch·nberger) “大数据时代的预言家”,他是十余年潜心研究数据科学的技术权威,他是最早洞见大数据时代发展趋势的数据科学家之一,也是最受人尊敬的权威发言人之一。他曾先后任教于世界最著名的几大互联网研究学府。现任牛津大学网络学院互联网治理与监管专业教授,曾任哈佛大学肯尼迪学院信息监管科研项目负责人,哈佛国家电子商务研究中网络监管项目负责人;曾任新加坡国立大学李光耀学院信息与创新策略研究中心主任。并担任耶鲁大学、芝加哥大学、弗吉尼亚大学、圣地亚哥大学、维也纳大学的客座教授。 他的学术成果斐然,有一百多篇论文公开发表在《科学》《自然》等著名学术期刊上,他同时也是哈佛大学出版社、麻省理工出版社、通信政策期刊、美国社会学期刊等多家出版机构的特约评论员。
『叁』 大数据是个什么鬼啦
什么是大数据?
关于大数据的概念,至今似乎也没有一个公认的说法。同样,对于大数据的理解和认识,也同样产生了各种各样的判断。
“大数据”(Big
Data)是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。从数据的类别上看,“大数据”指的是无法使用传统流程或工具处理或分析的信息。它定义了那些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集。
一提到大数据,人们通常用3个V来定义它,即Volume(数量)、Variety(种类)和速度(Velocity)。随着业界对大数据理解的深入,第四个V也浮出水面,Veracity(真实性)正在成为大数据的基本特征之一。在前不久IBM召开的2013年大数据发布会上,重点解析了IBM与牛津大学共同的大数据研究成果——《分析:大数据在现实世界中的应用》白皮书中也提出了,重新定义和完善大数据“4V”理论的方向。
研究表明,包含结构化和非结构化的大数据正在以每年60%
的增长率持续增长,到了2020年全球数据总量将增长44倍,达到35.2ZB。国内知名大数据学者,电子科技大学计算机互联网中心主任周涛博士表示:‘大数据’一词已经无处不在,其被用于承载所有类型的概念,包括海量数据、实时数据、社交媒体分析、下一代数据管理能力等。对于企业来说,对大数据的理解不应仅仅局限于技术领域,而应成为一项业务上需要优先考虑的任务,因为它能够带来全球整合经济时代商业模式的巨大变革。业界已经从对大数据重要性的认识阶段,发展到实践大数据的必要性的战略实施阶段。(来源:中国客户关系网)
『肆』 周涛:大数据是给决策提供支持的 不论决策者是不是人
从数据时代走向智能时代。所有的大数据是给决策提供支撑的,但是决策者还是人,到了智能时代决策者就不是人,决策闭环中没有人的存在。比如说未来的律师,未来的医生,未来的检察官,很有可能都不是人,或者中间很大部分都不是人,这就是为什么刚才阎老师会说30%-40%的工作岗位会消失,而有些是肯定不会消失的,第一就是做科学和艺术创作,第二就是通过情感关怀让人们远离痛苦恐惧获得安逸。
『伍』 目前成都最好的大数据机构有哪些
去外企面试,你首先要了解通常外企HR经理会问到一些什么问题,这是我在英联国际英语学习中,老师模拟的一些外企面试英语的一些常用英语问题。Pleaseintroceyourself.(请介绍你自己。)Whyareyouinterestedinthisjob?(你为什么会对这份工作感兴趣?)Doyouthinkyoureanextro-vertoranintro-vert?(你认为你是个性外向的人还是个性内向的人?)Whatisyourgreatestweakness?(你最大的缺点是什么?)?(你有实际的工作经验吗?)Howwereyourgradesatschool?(你在学校成绩如何?)?(可以谈谈你对本公司的认识吗?)?(你有没有应征其他公司吗?)?(如果你被迫要加班,你会怎么?)Whatsalarywouldyouexpecttoget?(你希望拿多少薪水?)是不是觉得有些问题挺棘手的?
『陆』 大数据公司该如何从大数据中获取价值
大数据公司该如何从大数据中获取价值?
大数据是近些年来一直被热炒的话题,而它也的确对未来发展有着颠覆革新的力量。然而,如何从大数据上获取价值,却是一个很让人头疼的问题。对于这个问题,我们还需深入思考。
在人们意料之中,大数据产业在今天上升到了很高的地位!
8月6日,工信部的消息显示,大数据产业十三五规划编制工作已正式启动,日前已在工信部信息化和软件服务业司组织下,召开了规划编制第一次工作会议,成立了规划编制小组,讨论了规划编制工作方案、规划草案、任务分工、近期工作安排等。
大数据产业的未来,越来越值得人们期待。但如何从大数据上获取价值,却是一个很让人头疼的问题。
就在前几天,笔者读到一段很“不合潮流”的话。在一次演讲中,华为轮值CEO徐直军表示:“华为不是一个数据公司,不经营数据,永远不从数据上获取价值。而是与更多和合作伙伴一起来保护我们客户的数据,使客户数据更安全,解决客户面向未来的问题,使客户真正实现信息化!”
对于他的说法,我是持怀疑态度的,甚至感到他说的很不严谨。如果从文字上细细琢磨的话,对客户数据的保护其实也是一种对大数据的利用,保护大数据带来的价值,也是大数据的变现。大数据时代的安全防护,难道不也是一种产业分支吗?在别人利用客户大数据发广告的时候,你保护了这些大数据,除非你是免费的,否则怎么会没有价值产生?即便是360的免费杀毒,也在别的地方产生价值了。华为的大数据,又怎么能独善其身?
很显然,没有人可以游离于大数据的价值之外。不再搞一些文字方面的纠缠了,其实我举徐直军这段话的目的,无非是想说明这一点:“大数据,不经意间就会产生价值。”于是,再回到一开始那个问题:“大数据公司该如何从大数据上获取价值?”
对于这个问题,一直以来我个人的观点是这样的:“第一,大数据必须要利用,否则就是浪费,同时弃之不用也对我们的发展不利。第二,大数据的利用要遵循三个原则,一是不能以影响用户体验为代价,二是不要采取非法手段去牟利,三是应该确保大数据的利用是在绝对安全的前提之下,或者最大限度的安全之下。第三,大数据要有公众监督,不能暗箱操作,要有透明性。”
我之所以持有这样的观点,是因为这几个问题是目前外界对大数据比较关注但也很容易被忽视的问题。目前,人们纠结于利用或不利用大数据,却忽略了怎么用,怎么好好的用,怎么用好。虽然目前大数据还没有做到真正的商业化,但之前一些关于大数据的“警报”却必须引起我们的重视,比如社保信息泄露,比如某些电商的信息泄露等等。
对于我的问题,以及这几个观点,笔者向大数据解决方案提供商成都数之联科技CEO周涛请教。周涛是这样回答我的。
关于大数据本身,他认为,“大数据”是“数据化”趋势下的必然产物。数据化最核心的理念是:“一切都被记录,一切都被数字化”。
对于这个观点,我是赞同的,因为这就是大数据的本质。“天空没有留下翅膀的痕迹,但我已经飞过”,这只是诗歌,不是现实。
对于如何从大数据上获取价值,周涛认为:“对此,我们要做得是1,解决‘信息过载’的问题,即通过自动化、规模化的方式为每一个用户找到他感兴趣或者需要的信息;2、从非结构化的数据中挖掘出价值,甚至在尽可能少损失有价值信息的前提下将其结构化; 3、在数据隐私和安全得以保障的前提下,从关联的数据中挖掘出‘一加一远大于二’的价值。”
周涛的观点,应该是从企业角度来说的。按我理解,应该是这样三个应用步骤:“一,如何提取大数据;二,如何优化大数据;三,如何合理利用大数据。”说的虽然简单,但很清晰。尤其是“一加一远大于二”的说法,很有启发性。
不过,对此我还有几点疑问:“第一,提取大数据的方法有了,但大数据的主人是否愿意让企业提取呢?比如,我购买商品,留下了我的信息、地址甚至电话,这些我是不愿意让别人提取的。第二,大数据优化的过程中,有价值的信息留下了,但那些在商家眼里无价值的信息怎么处理?一旦所谓无价值的信息被遗弃,最终落入别有用心的人手里,那会怎么样呢?”同时,我还有一个宽泛一点的问题,大数据的安全该如何保证呢?
真正的物联网时代还没有到来,但已经近在咫尺,大数据公司该如何从大数据上获取价值,这是个必须要思考的问题。对于我的问题和忧虑,我很希望周涛或者是其他的行业人士能给我一个解答。
『柒』 成都有哪些做大数据物联网比较好的公司
大数据物联网对于工业发展很重要,整理的成都大数据物联网公司,希望对你有所帮助:
卫士通
卫士通信息产业股份有限公司,国内知名密码产品、网络安全产品、互联网安全运营、行业安全解决方案综合提供商,首批商密产品研发、生产、销售资质单位,首批涉密信息系统集成甲级资质单位,国内专业从事网络信息安全的上市公司,专注网络信息安全,致力打造从芯片到系统的全生命周期安全解决方案,为党政军用户、企业级用户和消费者提供专业自主的网络信息安全解决方案、产品和服务。
排名不分先后!
『捌』 周涛:大数据是给决策提供支持的,不论决策者是不是人
这句话有一定的合理性。因为大数据分析确实能使人们对信息的了解回更充分,甚至可以按照答单独个体进行信息建议及推送。建立在充分了解各方面信息的基础上作出的决策能更准确更到位,减轻决策风险。而且正是因为大数据采集和分析需要用电脑来进行,所以通过设置相关参数,系统软件也可以做出决策。而且这种决策更加智能化。但是,大数据虽然有诸多好处,起最终决策作用的还是,因为盲目依靠大数据分析,会陷入过于理性的误区。
『玖』 企业想要成功布局大数据的七大关键步骤
企业想要成功布局大数据的七大关键步骤
在这个大数据已经成为市场一个美味的“大蛋糕”的今日,大多数企业都很想要分得一块。大多数企业正做好了布局大数据的准备,那么,该怎么做才能成功去布局?
最近,电子科技大学教授,云基地大数据实验室合伙人周涛在接受采访时提出,对于普通企业要通过修炼成为大数据企业,关键要做好7个步骤:
1.要实现数据化。企业要为此做好计划,到底需要保存什么样的数据,以人为中心的数据还是以产品为中心,还是更关注企业运营,需要做好这样的计划,然后再将企业生产经营中的数据保存下来,即便是现在看来没什么用的数据,未来也可能产生巨大的价值。比如说像售楼处、体验店客户的来访数据,就有必要完整的记录下来。包括怎么过来的,一个人来还是几个人,有老人和小孩吗,穿什么样的衣服等等,还有客户的情绪,看了什么,问了什么问题,最后买了什么东西,都是非常重要的数据。
另外,企业内部人力资源的各个方面也都可以记录下来,这些可以进行挖掘和分析的数据。他举例说,长虹公司在自己的生产线设置了很多传感器,监测温度、湿度、震动、噪音、颗粒等等因素,希望了解到生产过程中哪些因素会对员工产生明显影响。他们此前都认为温度和颗粒可能对于员工操作和产品质量影响最大,但是事实上最终数据分析的结果,温度是没有什么影响的,恒温的控制对于生产效率和合格率的贡献并不像想象中那么大,反而是噪音对于员工情绪以及生产的影响非常重要。要成为大数据企业,第一步企必须要实现数据化。
2.企业要自己培养一些大数据理念,或者是小数据挖掘的团队。做大数据,企业的规模不一样,要求也不一样。如果企业规模足够大,比如说是电信运营商或者电力、银行这样的行业,可能会形成一个大数据的团队。如果不是,比如说就是简单的服务企业,那么形成理念就可以了。现在我们认为比较好的数据科学家,也不是说就是特别擅长或适应网络,这样的人不重要了,重要的是要有武器,什么样的问题来了知道怎么解决。
关键我们认识是要培养四种理念:
(1)除了结构化数据以外还有文本、音频、图像、遥感、网络、行为轨迹、时间数据,这些数据怎么处理,它存在的大挑战是什么。
(2)一定要懂预测,因为绝大部分的大数据应用回到预测中,预测里面很多方法都是基准学习的,而基准学习目前最火的方向是集群学习。
(3)要走分布式存储计算,这绝对不是说我知道给Hadoop 、Maprece、Hbase就够了,关键问题是首先要知道怎么样去搭一个混合式的,你的数据来了,我到底是应该牺牲我的一致性还是牺牲操作性,大概的成本多少,哪些数据挖掘的重要算法我要把他Hadoop、Maprece实现,哪些算法要通过SPTA,可变逻辑治理是在硬件里面,从而替代CPU、GPU。
(4)需要整个数据向外的发展,知道哪些数据可能在外部产生什么样的重要价值,或者外部的数据能够在你的企业产生什么样的重要价值。企业应该培养出这四个能力,建立起企业数据挖掘的人才团队。
3.企业一定要做好自己的外部数据储备。我们都说“书到用时方恨少”,很多的企业,比如说像服装销售这样的传统行业,我要进的货在淘宝、天猫上卖的怎么样?在淘宝、天猫哪一个店铺怎么样?它的竞争品牌是什么样售价,怎么样销售的?对于这样一些数据,如果到需要的时候才去找,往往都来不及了。同样的道理。比如银行给中小企业发放贷款的时候,希望了解到它的用水、用电、生产、交通数据,例如通过摄像头就能知道这个企业到底有多少车运行,这些数据可能对于中小企业发放贷款决策都很重要。但是当你要发贷款的时候,再去问已经没有机会了,或者说成本太高了。我们建议,企业应该学会通过公共渠道或者数据交换的方法,根据自己的业务需求来量身定做自己的外部数据和战略数据。
4.企业要建设自己的大数据管理与应用平台。对于很多企业,做大数据并不是意味着要自己去建设数据中心。随着云计算和云数据中心出现,使用外部数据中心的成本已经非常低了,数据存储的费用也是在成倍的下降。但是,企业要做大数据,必须要在IT基础设施方面具有比较好的数据处架构,要用大一些工具比如数据分布式存储、Hadoop等等。很关键的企业不仅要具备一个数据中心的硬件,还要考虑和企业业务方向结合,不仅就是包括了数据的采集、数据库架构,向上的分析模块,再往上的API数据出口,以及横向的一些业务模块和出口这些东西。要做成企业的大数据管理应用平台,我们强调一定要从企业的业务出发,量体裁衣,企业首先必须要搞清楚自己的业务形态是什么。
5.大企业一定要有数据侦测的能力,需要有创新思维的人随时思考这些问题,比如企业占有的数据到底在外部能够产生什么样大的作用。就像我们经常拿雅昌艺术中心的例子,它存了很多艺术品的数据,所以最后它可以发布艺术指数。同样国家电网也发布两个指数,一个叫重工业用电指数,一个叫轻工业用电指数。淘宝网有它的CPI指数,还有很多企业的一些数据,实际上都可以发挥想象不到的价值。
6.一个大数据企业包括未来现代化企业,一定要有开放共享的态度。一方面需要企业把自己的很多问题社会化,另一方面企业要尽量去通过一些平等办法,通过数据交换的方式互相共享形成数据化。
7.企业还要做好数据方面的战略投资。我认为有三种比较先进的模式。
一种模式叫做产业链布局,比如说海尔、长虹可以投物联网,对物联网企业创新进行投入。比如说中信集团可以关注医疗,在这个方面寻找相关的数据应用。
第二个方面就是技术,你要知道哪些是硬技术创新,特别是在基础术设施层面的,比如加速存储,云计算的一些技术,比如数据挖掘,垂直应用分析,这个方面集中了很多创新也可以形成很大的规模。
第三种模式是数据集方面的投资,我们知道阿里巴巴投资高德是为了数据,它投资新浪微博不仅是要投钱还要花钱买数据,所有这一切本质还是想把数据流动起来做更大的事情。这种投资就是集成数据,强调数据流动性。这些投资里面有几点是需要注意的,一是要去关注企业的数据价值,其次要关注早期的投资,去长期指引而不是短期追逐回报率,最后还要多关注传统行业。
周涛教授提出,大数据的本质不在于数据量有多少,也不在于是否是异构的数据,而是在于数据是关联的,整体的数据可以流动起来。他认为,跨领域关联,通过一加一产生远大于二的价值才是大数据的精髓。
当然,数据本身并不产生价值,只有通过大数据的分析去解决难题才是价值,而大数据对于企业营销的作用是可大可小的,不过在这个把大数据作为概念的时代,企业还是要做好布局大数据的准备,向大数据企业修炼。
『拾』 求助:哪些公司可以提供大数据处理分析解决方案
上海献峰网络指出:你要的大数据分析解决方案大全都在这
从所周知,大数据已经不简简单单是数据大的事实了,而最重要的现实是对大数据进行分析,只有通过分析才能获取很多智能的,深入的,有价值的信息。那么越来越多的应用涉及到大数据,而这些大数据的属性,包括数量,速度,多样性等等都是呈现了大数据不断增长的复杂性,所以大数据的分析方法在大数据领域就显得尤为重要,可以说是决定最终信息是否有价值的决定性因素。基于如此的认识,大数据分析普遍存在的方法理论有哪些呢?
一、大数据分析的五个基本方面
1. Analytic Visualizations(可视化分析)
不管是对数据分析专家还是普通用户,数据可视化是数据分析工具最基本的要求。可视化可以直观的展示数据,让数据自己说话,让观众听到结果。
2. Data Mining Algorithms(数据挖掘算法)
可视化是给人看的,数据挖掘就是给机器看的。集群、分割、孤立点分析还有其他的算法让我们深入数据内部,挖掘价值。这些算法不仅要处理大数据的量,也要处理大数据的速度。
3. Predictive Analytic Capabilities(预测性分析能力)
数据挖掘可以让分析员更好的理解数据,而预测性分析可以让分析员根据可视化分析和数据挖掘的结果做出一些预测性的判断。
4. Semantic Engines(语义引擎)
我们知道由于非结构化数据的多样性带来了数据分析的新的挑战,我们需要一系列的工具去解析,提取,分析数据。语义引擎需要被设计成能够从“文档”中智能提取信息。
5. Data Quality and Master Data Management(数据质量和数据管理)
数据质量和数据管理是一些管理方面的最佳实践。通过标准化的流程和工具对数据进行处理可以保证一个预先定义好的高质量的分析结果。
假如大数据真的是下一个重要的技术革新的话,我们最好把精力关注在大数据能给我们带来的好处,而不仅仅是挑战。
二、大数据处理
周涛博士说:大数据处理数据时代理念的三大转变:要全体不要抽样,要效率不要绝对精确,要相关不要因果。
具体的大数据处理方法其实有很多,但是根据长时间的实践,笔者总结了一个基本的大数据处理流程,并且这个流程应该能够对大家理顺大数据的处理有所帮助。整个处理流程可以概括为四步,分别是采集、导入和预处理、统计和分析,以及挖掘。
采集
大数据的采集是指利用多个数据库来接收发自客户端(Web、App或者传感器形式等)的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。比如,电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据,除此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。
在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。
导入/预处理
虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算,来满足部分业务的实时计算需求。
导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。
统计/分析
统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到EMC 的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。
统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。
挖掘
与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测(Predict)的效果,从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的K-Means、用于统计学习的SVM和用于分类的Naive Bayes,主要使用的工具有Hadoop的Mahout等。
该过程的特点和挑战主要是用于挖掘的算法很复杂,并且计算涉及的数据量和计算量都很大,还有,常用数据挖掘算法都以单线程为主。