『壹』 核能核電股票有哪些
核電公司股票值得大家在熊市中買進並長期持有:牛來時候是你的收獲時!
一、鋯材料:
1、升華拜克(600226):子公司「升華鋯谷」,中國最大的鋯系列產品製造與銷售企業,在日本鋯產品市場上擁有了90%的客戶,在美國鋯產品的市場上也擁有了50%的客戶。
2、東方鋯業(002167):是全球品種最齊全鋯製品專業製造商之一。
二、鋯合金:
1、嘉寶集團(600622):參股上海高泰稀貴金屬,生產核燃料鋯合金管、鈦、鈮及其他稀貴金屬及合金等系列產品,公司旗下的高泰公司是一家主要研製、生產核燃料鋯合金管、鈦、鈮及其他稀貴金屬及合金等系列產品,公司年產核電用鋯管65萬米,而每100萬千瓦發電能力一年要消耗掉20到25萬噸金屬鋯,這就使鋯合金產品的市場前景十分廣闊
三、核級鈉:
1、蘭太實業(600328):應用高科技鈉凈化技術所生產的核極鈉,公司擁有儲量1.14億噸吉蘭泰鹽湖,金屬鈉的生產能力位居全球第三和亞洲第一。公司與中國原子能科學研究院合作建設核極金屬鈉生產項目,應用高科技鈉凈化技術生產核極鈉,已經向我國第一座快中子實驗核反應堆提供了350噸的核極鈉,此舉不僅使公司取得了核極鈉的生產技術及其配套設備,而且使公司成功的切入了高尖端科技的核能源領域。
四、核發電:
1、申能股份(600642):參股秦山核電,擁有秦山聯營公司12%和秦山第三核電公司10%股權。
五、核電設備:
周濤介紹說,目前,國內的核島設備市場上,上海電氣與西門子聯合體佔有率達45%(每年訂單近30億元),哈電與GE聯合體佔有率僅有5%,剩餘的50%為東方電氣所佔;在常規島設備市場上,上海電氣與西門子聯合體、哈電與GE聯合體和東方電氣基本上是三分天下。
「在核島部分的競爭格局方面,目前來看東方電氣略勝一籌。」周濤表示,但長期來看,格局還可能發生變化。
一位分析人士表示,核電行業景氣對不同的核電設備商影響不一,對核電細分領域有競爭優勢或核電設備比重高的企業利好更大,例如生產核承壓設備的海陸重工(002255)、生產變壓器的天威保變(600550)、生產核電空調設備的哈空調(600202)等。相反,對業務結構比較多元的東方電氣來說,利好因素沒有想像的那麼大。
目前A股市場主要有上海機電600835、東方鍋爐600786、東方電機600875等電力設備類上市公司。
1、東方電氣(600875):主要生產核發電設備,常規島部分技術基本成熟,
2 、上海機電(600835):上海機電主要生產核電成套起重設備, 獨立中標秦山核電三期70萬千瓦的核電項目
3 、東方鍋爐(600875):東方鍋爐主要生產核反應設備。已成功嶺澳一期2*100萬千瓦核電站8台核島主設備的分包製作
4、哈空調(600202):電站(核)空氣處理機組專業生產廠家,公司兩大核心業務中,大型電站空冷設備和石化空冷設備都保持較快增長。
5、自儀股份(600848):核電儀控系統
6、沃爾核材(002130):是核輻射改性新材料的高新技術企業,主要業務是核輻射化工材料生產。核電廠使用的熱縮材料和輻射電線的市場潛力十分巨大,目前公司產品已經銷售到70多個國家和地區。
7、奧特迅 (002227):自動化電源設備及其智能單元研發、製造、銷售和服務
8、上電股份(600627):輸配電龍頭
9、中成股份(000151):低溫供熱堆技術
10、海陸重工(002255):具有製造核反應堆"心臟"設備堆內構件吊籃筒體能力
11、中核科技(000777):核電閥門,大股東為中國核工業集團公司,閥門行業的龍頭企業,公司獲得國家核安全局頒發的壓水堆核電閥門設計、製造許可證,具有國家核安全級局批準的國內唯一生產核安全1級、2級鑄件資質,其研製的核電站關鍵閥門技術指標達到國際同類產品水平,具備設計製造百萬千瓦級核電閥門的能力。
600835上海機電;;600202哈空調;000151中成;;000733振華科技。 000543皖能電力, 000601韶能股份
『貳』 《大數據時代》誰在引爆大數據
赫獗臼橛腥鎏氐悖菏紫齲嗣欠治齪脫芯磕掣魷窒笫保褂萌康氖藎皇欠淺檠氖蕁>褪竊詿笫菔貝頤遣恍枰〉悖恍枰鬩恍┏檠喬康魅莞拍睢5詼,在大數據時代不能一味的追求數據的精確性,而要適應它的多樣性、豐富性。甚至要接受錯誤的數據,這也是非常有價值的。第三,強調數據之間的相關性,不強調其因果性,強調是什麼,不強調為什麼。 【書籍信息】 作者:(英)邁爾-舍恩伯格,(英)庫克耶 著,盛楊燕,周濤 譯 出版社:浙江人民出版社 出版時間:2013-1-1 【內容介紹】 《大數據時代》是國外大數據系統研究的先河之作,本書作者維克托02邁爾02舍恩伯格被譽為「大數據商業應用第一人」,擁有在哈佛大學、牛津大學、耶魯大學和新加坡國立大學等多個互聯網研究重鎮任教的經歷,早在2010年就在《經濟學人》上發布了長達14頁對大數據應用的前瞻性研究。 維克托·爾耶·舍恩伯格在本書中前瞻性地指出,大數據帶來的信息風暴正在變革我們的生活、工作和思維,大數據開啟了一次重大的時代轉型,並用三個部分講述了大數據時代的思維變革、商業變革和管理變革。 維克托最具洞見之處在於,他明確指出,大數據時代最大的轉變就是,放棄對因果關系的渴求,而取而代之關注相關關系。也就是說只要知道「是什麼」,而不需要知道「為什麼」。這顛覆了千百年來人類的思維慣例,對人類的認知和與世界交流的方式提出了全新的挑戰。 本書認為大數據的核心就是預測。大數據將為人類的生活創造前所未有的可量化的維度。大數據已經成為了新發明和新服務的源泉,而更多的改變正蓄勢待發。書中展示了谷歌、微軟、亞馬遜、IBM、蘋果、facebook、twitter、VISA等大數據先鋒們最具價值的應用案例。 【作者簡介】 維克托·邁爾-舍恩伯格(Viktor Mayer-Sch·nberger) 「大數據時代的預言家」,他是十餘年潛心研究數據科學的技術權威,他是最早洞見大數據時代發展趨勢的數據科學家之一,也是最受人尊敬的權威發言人之一。他曾先後任教於世界最著名的幾大互聯網研究學府。現任牛津大學網路學院互聯網治理與監管專業教授,曾任哈佛大學肯尼迪學院信息監管科研項目負責人,哈佛國家電子商務研究中網路監管項目負責人;曾任新加坡國立大學李光耀學院信息與創新策略研究中心主任。並擔任耶魯大學、芝加哥大學、弗吉尼亞大學、聖地亞哥大學、維也納大學的客座教授。 他的學術成果斐然,有一百多篇論文公開發表在《科學》《自然》等著名學術期刊上,他同時也是哈佛大學出版社、麻省理工出版社、通信政策期刊、美國社會學期刊等多家出版機構的特約評論員。
『叄』 大數據是個什麼鬼啦
什麼是大數據?
關於大數據的概念,至今似乎也沒有一個公認的說法。同樣,對於大數據的理解和認識,也同樣產生了各種各樣的判斷。
「大數據」(Big
Data)是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。從數據的類別上看,「大數據」指的是無法使用傳統流程或工具處理或分析的信息。它定義了那些超出正常處理范圍和大小、迫使用戶採用非傳統處理方法的數據集。
一提到大數據,人們通常用3個V來定義它,即Volume(數量)、Variety(種類)和速度(Velocity)。隨著業界對大數據理解的深入,第四個V也浮出水面,Veracity(真實性)正在成為大數據的基本特徵之一。在前不久IBM召開的2013年大數據發布會上,重點解析了IBM與牛津大學共同的大數據研究成果——《分析:大數據在現實世界中的應用》白皮書中也提出了,重新定義和完善大數據「4V」理論的方向。
研究表明,包含結構化和非結構化的大數據正在以每年60%
的增長率持續增長,到了2020年全球數據總量將增長44倍,達到35.2ZB。國內知名大數據學者,電子科技大學計算機互聯網中心主任周濤博士表示:『大數據』一詞已經無處不在,其被用於承載所有類型的概念,包括海量數據、實時數據、社交媒體分析、下一代數據管理能力等。對於企業來說,對大數據的理解不應僅僅局限於技術領域,而應成為一項業務上需要優先考慮的任務,因為它能夠帶來全球整合經濟時代商業模式的巨大變革。業界已經從對大數據重要性的認識階段,發展到實踐大數據的必要性的戰略實施階段。(來源:中國客戶關系網)
『肆』 周濤:大數據是給決策提供支持的 不論決策者是不是人
從數據時代走向智能時代。所有的大數據是給決策提供支撐的,但是決策者還是人,到了智能時代決策者就不是人,決策閉環中沒有人的存在。比如說未來的律師,未來的醫生,未來的檢察官,很有可能都不是人,或者中間很大部分都不是人,這就是為什麼剛才閻老師會說30%-40%的工作崗位會消失,而有些是肯定不會消失的,第一就是做科學和藝術創作,第二就是通過情感關懷讓人們遠離痛苦恐懼獲得安逸。
『伍』 目前成都最好的大數據機構有哪些
去外企面試,你首先要了解通常外企HR經理會問到一些什麼問題,這是我在英聯國際英語學習中,老師模擬的一些外企面試英語的一些常用英語問題。Pleaseintroceyourself.(請介紹你自己。)Whyareyouinterestedinthisjob?(你為什麼會對這份工作感興趣?)Doyouthinkyoureanextro-vertoranintro-vert?(你認為你是個性外向的人還是個性內向的人?)Whatisyourgreatestweakness?(你最大的缺點是什麼?)?(你有實際的工作經驗嗎?)Howwereyourgradesatschool?(你在學校成績如何?)?(可以談談你對本公司的認識嗎?)?(你有沒有應征其他公司嗎?)?(如果你被迫要加班,你會怎麼?)Whatsalarywouldyouexpecttoget?(你希望拿多少薪水?)是不是覺得有些問題挺棘手的?
『陸』 大數據公司該如何從大數據中獲取價值
大數據公司該如何從大數據中獲取價值?
大數據是近些年來一直被熱炒的話題,而它也的確對未來發展有著顛覆革新的力量。然而,如何從大數據上獲取價值,卻是一個很讓人頭疼的問題。對於這個問題,我們還需深入思考。
在人們意料之中,大數據產業在今天上升到了很高的地位!
8月6日,工信部的消息顯示,大數據產業十三五規劃編制工作已正式啟動,日前已在工信部信息化和軟體服務業司組織下,召開了規劃編制第一次工作會議,成立了規劃編制小組,討論了規劃編制工作方案、規劃草案、任務分工、近期工作安排等。
大數據產業的未來,越來越值得人們期待。但如何從大數據上獲取價值,卻是一個很讓人頭疼的問題。
就在前幾天,筆者讀到一段很「不合潮流」的話。在一次演講中,華為輪值CEO徐直軍表示:「華為不是一個數據公司,不經營數據,永遠不從數據上獲取價值。而是與更多和合作夥伴一起來保護我們客戶的數據,使客戶數據更安全,解決客戶面向未來的問題,使客戶真正實現信息化!」
對於他的說法,我是持懷疑態度的,甚至感到他說的很不嚴謹。如果從文字上細細琢磨的話,對客戶數據的保護其實也是一種對大數據的利用,保護大數據帶來的價值,也是大數據的變現。大數據時代的安全防護,難道不也是一種產業分支嗎?在別人利用客戶大數據發廣告的時候,你保護了這些大數據,除非你是免費的,否則怎麼會沒有價值產生?即便是360的免費殺毒,也在別的地方產生價值了。華為的大數據,又怎麼能獨善其身?
很顯然,沒有人可以游離於大數據的價值之外。不再搞一些文字方面的糾纏了,其實我舉徐直軍這段話的目的,無非是想說明這一點:「大數據,不經意間就會產生價值。」於是,再回到一開始那個問題:「大數據公司該如何從大數據上獲取價值?」
對於這個問題,一直以來我個人的觀點是這樣的:「第一,大數據必須要利用,否則就是浪費,同時棄之不用也對我們的發展不利。第二,大數據的利用要遵循三個原則,一是不能以影響用戶體驗為代價,二是不要採取非法手段去牟利,三是應該確保大數據的利用是在絕對安全的前提之下,或者最大限度的安全之下。第三,大數據要有公眾監督,不能暗箱操作,要有透明性。」
我之所以持有這樣的觀點,是因為這幾個問題是目前外界對大數據比較關注但也很容易被忽視的問題。目前,人們糾結於利用或不利用大數據,卻忽略了怎麼用,怎麼好好的用,怎麼用好。雖然目前大數據還沒有做到真正的商業化,但之前一些關於大數據的「警報」卻必須引起我們的重視,比如社保信息泄露,比如某些電商的信息泄露等等。
對於我的問題,以及這幾個觀點,筆者向大數據解決方案提供商成都數之聯科技CEO周濤請教。周濤是這樣回答我的。
關於大數據本身,他認為,「大數據」是「數據化」趨勢下的必然產物。數據化最核心的理念是:「一切都被記錄,一切都被數字化」。
對於這個觀點,我是贊同的,因為這就是大數據的本質。「天空沒有留下翅膀的痕跡,但我已經飛過」,這只是詩歌,不是現實。
對於如何從大數據上獲取價值,周濤認為:「對此,我們要做得是1,解決『信息過載』的問題,即通過自動化、規模化的方式為每一個用戶找到他感興趣或者需要的信息;2、從非結構化的數據中挖掘出價值,甚至在盡可能少損失有價值信息的前提下將其結構化; 3、在數據隱私和安全得以保障的前提下,從關聯的數據中挖掘出『一加一遠大於二』的價值。」
周濤的觀點,應該是從企業角度來說的。按我理解,應該是這樣三個應用步驟:「一,如何提取大數據;二,如何優化大數據;三,如何合理利用大數據。」說的雖然簡單,但很清晰。尤其是「一加一遠大於二」的說法,很有啟發性。
不過,對此我還有幾點疑問:「第一,提取大數據的方法有了,但大數據的主人是否願意讓企業提取呢?比如,我購買商品,留下了我的信息、地址甚至電話,這些我是不願意讓別人提取的。第二,大數據優化的過程中,有價值的信息留下了,但那些在商家眼裡無價值的信息怎麼處理?一旦所謂無價值的信息被遺棄,最終落入別有用心的人手裡,那會怎麼樣呢?」同時,我還有一個寬泛一點的問題,大數據的安全該如何保證呢?
真正的物聯網時代還沒有到來,但已經近在咫尺,大數據公司該如何從大數據上獲取價值,這是個必須要思考的問題。對於我的問題和憂慮,我很希望周濤或者是其他的行業人士能給我一個解答。
『柒』 成都有哪些做大數據物聯網比較好的公司
大數據物聯網對於工業發展很重要,整理的成都大數據物聯網公司,希望對你有所幫助:
衛士通
衛士通信息產業股份有限公司,國內知名密碼產品、網路安全產品、互聯網安全運營、行業安全解決方案綜合提供商,首批商密產品研發、生產、銷售資質單位,首批涉密信息系統集成甲級資質單位,國內專業從事網路信息安全的上市公司,專注網路信息安全,致力打造從晶元到系統的全生命周期安全解決方案,為黨政軍用戶、企業級用戶和消費者提供專業自主的網路信息安全解決方案、產品和服務。
排名不分先後!
『捌』 周濤:大數據是給決策提供支持的,不論決策者是不是人
這句話有一定的合理性。因為大數據分析確實能使人們對信息的了解回更充分,甚至可以按照答單獨個體進行信息建議及推送。建立在充分了解各方面信息的基礎上作出的決策能更准確更到位,減輕決策風險。而且正是因為大數據採集和分析需要用電腦來進行,所以通過設置相關參數,系統軟體也可以做出決策。而且這種決策更加智能化。但是,大數據雖然有諸多好處,起最終決策作用的還是,因為盲目依靠大數據分析,會陷入過於理性的誤區。
『玖』 企業想要成功布局大數據的七大關鍵步驟
企業想要成功布局大數據的七大關鍵步驟
在這個大數據已經成為市場一個美味的「大蛋糕」的今日,大多數企業都很想要分得一塊。大多數企業正做好了布局大數據的准備,那麼,該怎麼做才能成功去布局?
最近,電子科技大學教授,雲基地大數據實驗室合夥人周濤在接受采訪時提出,對於普通企業要通過修煉成為大數據企業,關鍵要做好7個步驟:
1.要實現數據化。企業要為此做好計劃,到底需要保存什麼樣的數據,以人為中心的數據還是以產品為中心,還是更關注企業運營,需要做好這樣的計劃,然後再將企業生產經營中的數據保存下來,即便是現在看來沒什麼用的數據,未來也可能產生巨大的價值。比如說像售樓處、體驗店客戶的來訪數據,就有必要完整的記錄下來。包括怎麼過來的,一個人來還是幾個人,有老人和小孩嗎,穿什麼樣的衣服等等,還有客戶的情緒,看了什麼,問了什麼問題,最後買了什麼東西,都是非常重要的數據。
另外,企業內部人力資源的各個方面也都可以記錄下來,這些可以進行挖掘和分析的數據。他舉例說,長虹公司在自己的生產線設置了很多感測器,監測溫度、濕度、震動、噪音、顆粒等等因素,希望了解到生產過程中哪些因素會對員工產生明顯影響。他們此前都認為溫度和顆粒可能對於員工操作和產品質量影響最大,但是事實上最終數據分析的結果,溫度是沒有什麼影響的,恆溫的控制對於生產效率和合格率的貢獻並不像想像中那麼大,反而是噪音對於員工情緒以及生產的影響非常重要。要成為大數據企業,第一步企必須要實現數據化。
2.企業要自己培養一些大數據理念,或者是小數據挖掘的團隊。做大數據,企業的規模不一樣,要求也不一樣。如果企業規模足夠大,比如說是電信運營商或者電力、銀行這樣的行業,可能會形成一個大數據的團隊。如果不是,比如說就是簡單的服務企業,那麼形成理念就可以了。現在我們認為比較好的數據科學家,也不是說就是特別擅長或適應網路,這樣的人不重要了,重要的是要有武器,什麼樣的問題來了知道怎麼解決。
關鍵我們認識是要培養四種理念:
(1)除了結構化數據以外還有文本、音頻、圖像、遙感、網路、行為軌跡、時間數據,這些數據怎麼處理,它存在的大挑戰是什麼。
(2)一定要懂預測,因為絕大部分的大數據應用回到預測中,預測裡面很多方法都是基準學習的,而基準學習目前最火的方向是集群學習。
(3)要走分布式存儲計算,這絕對不是說我知道給Hadoop 、Maprece、Hbase就夠了,關鍵問題是首先要知道怎麼樣去搭一個混合式的,你的數據來了,我到底是應該犧牲我的一致性還是犧牲操作性,大概的成本多少,哪些數據挖掘的重要演算法我要把他Hadoop、Maprece實現,哪些演算法要通過SPTA,可變邏輯治理是在硬體裡面,從而替代CPU、GPU。
(4)需要整個數據向外的發展,知道哪些數據可能在外部產生什麼樣的重要價值,或者外部的數據能夠在你的企業產生什麼樣的重要價值。企業應該培養出這四個能力,建立起企業數據挖掘的人才團隊。
3.企業一定要做好自己的外部數據儲備。我們都說「書到用時方恨少」,很多的企業,比如說像服裝銷售這樣的傳統行業,我要進的貨在淘寶、天貓上賣的怎麼樣?在淘寶、天貓哪一個店鋪怎麼樣?它的競爭品牌是什麼樣售價,怎麼樣銷售的?對於這樣一些數據,如果到需要的時候才去找,往往都來不及了。同樣的道理。比如銀行給中小企業發放貸款的時候,希望了解到它的用水、用電、生產、交通數據,例如通過攝像頭就能知道這個企業到底有多少車運行,這些數據可能對於中小企業發放貸款決策都很重要。但是當你要發貸款的時候,再去問已經沒有機會了,或者說成本太高了。我們建議,企業應該學會通過公共渠道或者數據交換的方法,根據自己的業務需求來量身定做自己的外部數據和戰略數據。
4.企業要建設自己的大數據管理與應用平台。對於很多企業,做大數據並不是意味著要自己去建設數據中心。隨著雲計算和雲數據中心出現,使用外部數據中心的成本已經非常低了,數據存儲的費用也是在成倍的下降。但是,企業要做大數據,必須要在IT基礎設施方面具有比較好的數據處架構,要用大一些工具比如數據分布式存儲、Hadoop等等。很關鍵的企業不僅要具備一個數據中心的硬體,還要考慮和企業業務方向結合,不僅就是包括了數據的採集、資料庫架構,向上的分析模塊,再往上的API數據出口,以及橫向的一些業務模塊和出口這些東西。要做成企業的大數據管理應用平台,我們強調一定要從企業的業務出發,量體裁衣,企業首先必須要搞清楚自己的業務形態是什麼。
5.大企業一定要有數據偵測的能力,需要有創新思維的人隨時思考這些問題,比如企業佔有的數據到底在外部能夠產生什麼樣大的作用。就像我們經常拿雅昌藝術中心的例子,它存了很多藝術品的數據,所以最後它可以發布藝術指數。同樣國家電網也發布兩個指數,一個叫重工業用電指數,一個叫輕工業用電指數。淘寶網有它的CPI指數,還有很多企業的一些數據,實際上都可以發揮想像不到的價值。
6.一個大數據企業包括未來現代化企業,一定要有開放共享的態度。一方面需要企業把自己的很多問題社會化,另一方面企業要盡量去通過一些平等辦法,通過數據交換的方式互相共享形成數據化。
7.企業還要做好數據方面的戰略投資。我認為有三種比較先進的模式。
一種模式叫做產業鏈布局,比如說海爾、長虹可以投物聯網,對物聯網企業創新進行投入。比如說中信集團可以關注醫療,在這個方面尋找相關的數據應用。
第二個方面就是技術,你要知道哪些是硬技術創新,特別是在基礎術設施層面的,比如加速存儲,雲計算的一些技術,比如數據挖掘,垂直應用分析,這個方面集中了很多創新也可以形成很大的規模。
第三種模式是數據集方面的投資,我們知道阿里巴巴投資高德是為了數據,它投資新浪微博不僅是要投錢還要花錢買數據,所有這一切本質還是想把數據流動起來做更大的事情。這種投資就是集成數據,強調數據流動性。這些投資裡面有幾點是需要注意的,一是要去關注企業的數據價值,其次要關注早期的投資,去長期指引而不是短期追逐回報率,最後還要多關注傳統行業。
周濤教授提出,大數據的本質不在於數據量有多少,也不在於是否是異構的數據,而是在於數據是關聯的,整體的數據可以流動起來。他認為,跨領域關聯,通過一加一產生遠大於二的價值才是大數據的精髓。
當然,數據本身並不產生價值,只有通過大數據的分析去解決難題才是價值,而大數據對於企業營銷的作用是可大可小的,不過在這個把大數據作為概念的時代,企業還是要做好布局大數據的准備,向大數據企業修煉。
『拾』 求助:哪些公司可以提供大數據處理分析解決方案
上海獻峰網路指出:你要的大數據分析解決方案大全都在這
從所周知,大數據已經不簡簡單單是數據大的事實了,而最重要的現實是對大數據進行分析,只有通過分析才能獲取很多智能的,深入的,有價值的信息。那麼越來越多的應用涉及到大數據,而這些大數據的屬性,包括數量,速度,多樣性等等都是呈現了大數據不斷增長的復雜性,所以大數據的分析方法在大數據領域就顯得尤為重要,可以說是決定最終信息是否有價值的決定性因素。基於如此的認識,大數據分析普遍存在的方法理論有哪些呢?
一、大數據分析的五個基本方面
1. Analytic Visualizations(可視化分析)
不管是對數據分析專家還是普通用戶,數據可視化是數據分析工具最基本的要求。可視化可以直觀的展示數據,讓數據自己說話,讓觀眾聽到結果。
2. Data Mining Algorithms(數據挖掘演算法)
可視化是給人看的,數據挖掘就是給機器看的。集群、分割、孤立點分析還有其他的演算法讓我們深入數據內部,挖掘價值。這些演算法不僅要處理大數據的量,也要處理大數據的速度。
3. Predictive Analytic Capabilities(預測性分析能力)
數據挖掘可以讓分析員更好的理解數據,而預測性分析可以讓分析員根據可視化分析和數據挖掘的結果做出一些預測性的判斷。
4. Semantic Engines(語義引擎)
我們知道由於非結構化數據的多樣性帶來了數據分析的新的挑戰,我們需要一系列的工具去解析,提取,分析數據。語義引擎需要被設計成能夠從「文檔」中智能提取信息。
5. Data Quality and Master Data Management(數據質量和數據管理)
數據質量和數據管理是一些管理方面的最佳實踐。通過標准化的流程和工具對數據進行處理可以保證一個預先定義好的高質量的分析結果。
假如大數據真的是下一個重要的技術革新的話,我們最好把精力關注在大數據能給我們帶來的好處,而不僅僅是挑戰。
二、大數據處理
周濤博士說:大數據處理數據時代理念的三大轉變:要全體不要抽樣,要效率不要絕對精確,要相關不要因果。
具體的大數據處理方法其實有很多,但是根據長時間的實踐,筆者總結了一個基本的大數據處理流程,並且這個流程應該能夠對大家理順大數據的處理有所幫助。整個處理流程可以概括為四步,分別是採集、導入和預處理、統計和分析,以及挖掘。
採集
大數據的採集是指利用多個資料庫來接收發自客戶端(Web、App或者感測器形式等)的數據,並且用戶可以通過這些資料庫來進行簡單的查詢和處理工作。比如,電商會使用傳統的關系型資料庫MySQL和Oracle等來存儲每一筆事務數據,除此之外,Redis和MongoDB這樣的NoSQL資料庫也常用於數據的採集。
在大數據的採集過程中,其主要特點和挑戰是並發數高,因為同時有可能會有成千上萬的用戶來進行訪問和操作,比如火車票售票網站和淘寶,它們並發的訪問量在峰值時達到上百萬,所以需要在採集端部署大量資料庫才能支撐。並且如何在這些資料庫之間進行負載均衡和分片的確是需要深入的思考和設計。
導入/預處理
雖然採集端本身會有很多資料庫,但是如果要對這些海量數據進行有效的分析,還是應該將這些來自前端的數據導入到一個集中的大型分布式資料庫,或者分布式存儲集群,並且可以在導入基礎上做一些簡單的清洗和預處理工作。也有一些用戶會在導入時使用來自Twitter的Storm來對數據進行流式計算,來滿足部分業務的實時計算需求。
導入與預處理過程的特點和挑戰主要是導入的數據量大,每秒鍾的導入量經常會達到百兆,甚至千兆級別。
統計/分析
統計與分析主要利用分布式資料庫,或者分布式計算集群來對存儲於其內的海量數據進行普通的分析和分類匯總等,以滿足大多數常見的分析需求,在這方面,一些實時性需求會用到EMC 的GreenPlum、Oracle的Exadata,以及基於MySQL的列式存儲Infobright等,而一些批處理,或者基於半結構化數據的需求可以使用Hadoop。
統計與分析這部分的主要特點和挑戰是分析涉及的數據量大,其對系統資源,特別是I/O會有極大的佔用。
挖掘
與前面統計和分析過程不同的是,數據挖掘一般沒有什麼預先設定好的主題,主要是在現有數據上面進行基於各種演算法的計算,從而起到預測(Predict)的效果,從而實現一些高級別數據分析的需求。比較典型演算法有用於聚類的K-Means、用於統計學習的SVM和用於分類的Naive Bayes,主要使用的工具有Hadoop的Mahout等。
該過程的特點和挑戰主要是用於挖掘的演算法很復雜,並且計算涉及的數據量和計算量都很大,還有,常用數據挖掘演算法都以單線程為主。