當前位置:律師網大全 - 專利申請 - Hadoop在國內外的應用現狀

Hadoop在國內外的應用現狀

文|翟周偉

本文摘自《Hadoop核心技術》壹書。

Hadoop是壹個開源、高效的雲計算基礎平臺,不僅廣泛應用於雲計算領域,還支持搜索引擎服務。Hadoop作為搜索引擎的底層基礎架構系統,在海量數據處理、數據挖掘、機器學習、科學計算等領域越來越受到青睞。本文將談談hadoop在國內外的應用現狀。

Hadoop在國外的應用現狀

1.美國Yahoo公司(提供互聯網的信息檢索服務)

雅虎是Hadoop的最大支持者。截至2012,雅虎Hadoop節點總數超過42?000,運行Hadoop的核心CPU超過65438+萬個。最大的單主節點集群有4500個節點(每個節點為雙通道4核CPUboxesw,4×1TB磁盤,16GBRAM)。集群總存儲容量超過350PB,每月提交的作業數量超過654.38+00萬。Pig中超過60%的Hadoop作業是由Pig編寫和提交的。

雅虎的Hadoop應用主要包括以下幾個方面:

支持廣告系統

用戶行為分析

支持網絡搜索

光學內容讀取

成員反濫用

敏捷內容

個性化推薦

同時,Pig研究和測試支持超大規模節點集群的Hadoop系統。

2.臉譜網

臉書使用Hadoop來存儲內部日誌和多維數據,作為報告、分析和機器學習的數據源。目前Hadoop集群有1400多個機器節點,* * * 11?200個核心CPU,超過了原來15PB的存儲容量。每個商用機節點配備8核CPU和12TB數據存儲,主要使用StreamingAPI和JavaAPI編程接口。同時,臉書基於Hadoop建立了壹個名為Hive的高級數據倉庫框架,Hive正式成為基於Hadoop的Apache的壹級項目。此外,還開發了HDFS上的引信實現。

3.A9.com

A9.com使用Hadoop為亞馬遜構建了商品搜索索引,主要使用StreamingAPI、C++、Perl和Python工具,同時使用Java和StreamingAPI分析和處理每天數百萬的對話。A9.com為亞馬遜提供的索引服務運行在Hadoop集群上,大約有100個節點。

4.磚坯黏土

Adobe主要使用Hadoop和HBase,和支持社交服務計算、結構化數據存儲和處理是壹樣的。大約30個節點的Hadoop-HBase生產集群。Adobe將數據直接連續存儲在HBase中,以HBase為數據源運行MapReduce作業處理,然後將運行結果直接保存到HBase或外部系統。自2008年6月5日至10月5日,Adobe已將Hadoop和HBase應用於生產集群。

5.CbIR

從2008年4月開始,日本CBIR(content-based information retrieval,基於內容的信息檢索)公司在AmazonEC2上使用Hadoop構建圖像產品推薦系統的圖像處理環境。使用Hadoop環境生成源數據庫,方便Web應用快速訪問,使用Hadoop分析用戶行為的相似性。

6.數據圖表

Datagraph主要利用Hadoop批量處理大量RDF數據集,尤其是利用Hadoop索引RDF數據。Datagraph還使用Hadoop為客戶執行長時間運行的離線SPARQL查詢。Datagraph使用AmazonS3和Cassandra存儲RDF數據的輸入輸出文件,並開發了壹個基於MapReduce-RDF Grid的處理RDF數據的Ruby框架。

Datagraph主要使用Ruby、RDF.rb和自己開發的RDFgrid框架處理RDF數據,主要使用HadoopStreaming接口。

7.易趣

單集群是532節點以上的集群,單節點8核CPU,容量超過5.3PB存儲。MapReduce的Java接口、Pig和Hive被廣泛用於處理大規模數據,HBase也被用於搜索優化和研究。

8.國際商用機器公司

IBM藍雲公司也使用Hadoop來構建雲基礎設施。IBM藍雲使用的技術包括:通過Xen和PowerVM虛擬化的Linux操作系統映像和Hadoop並行工作負載調度,並發布了自己的Hadoop分發和大數據解決方案。

9.Last.Fm

最後。Fm主要用於圖表計算、專利申請、日誌分析、A/B測試、數據集合並等。Hadoop還用於超過壹百萬首曲目的大規模音頻特征分析。

節點有100多臺機器,集群節點配置雙四核至強l 5520 @ 2.27 GHz l 5630 @ 2.13 GHz,24GB內存,8TB(4×2TB)存儲。

10.商務化人際關系網

LinkedIn有各種硬件配置的Hadoop集群。主要的集群配置如下:

800節點集群,HP SL170X和基於Westmere的2×4的核心,24GB內存,6× 2TBSATA。

1900節點集群,基於Westmere的超微HX8DTT,以及2×6核,24GB內存,6× 2TBSATA。

1400節點集群,基於SandyBridge超微,2×6核,32GB內存,6× 2TBSATA。

使用的軟件如下:

操作系統使用RHEL6.3。

JDK使用SUNJDK1.6.0_32。

ApacheHadoop Hadoop0.20.2和ApacheHadoop補丁1.0.4。

阿茲卡班和阿茲卡班用於作業調度。

Hive,Avro,Kafka等。

11.移動分析電視

Hadoop主要用於並行化算法領域,涉及的MapReduce應用算法如下。

信息檢索和分析。

機器生成的內容-文檔、文本、音頻、視頻。

自然語言處理。

項目組合包括:

移動社交網絡。

網絡爬蟲。

文本到語音轉換。

音頻和視頻的自動生成。

12.Openstat

Hadoop主要用於定制網絡日誌分析和生成報告。在其生產環境中,有超過50個節點集群(雙四核至強處理器,16GB RAM,4 ~ 6個硬盤),兩個相對較小的集群用於個性化分析,每天處理約500萬個事件,每月654.38+050億美元的交易數據。集群每天生成大約25GB的報告。

使用的技術主要有CDH、級聯和Janino。

13.量子廣播

3000個CPU核,3500TB存儲,每天處理超過1PB的數據,使用完全自定義數據路徑和排序器的Hadoop調度器,為KFS文件系統做出了卓越的貢獻。

14.拉普利夫

80個以上節點的集群(每個節點2個雙核CPU,2TB×8存儲,16 GB ram);Hadoop和Hive主要用於處理Web上的個人數據,並引入級聯來簡化各個處理階段的數據流。

15.世界行話

硬件上超過44臺服務器(每臺服務器2個雙核CPU,2TB存儲,8GB內存),每臺服務器運行Xen。啟動壹個虛擬機實例運行Hadoop/HBase,再啟動壹個虛擬機實例運行Web或應用服務器,即有88個可用虛擬機。運行兩個獨立的Hadoop/HBase集群,每個集群有22個節點。Hadoop主要用於運行HBase和MapReduce作業,掃描HBase數據表,執行特定任務。作為壹個可擴展的快速存儲後端,HBase用於存儲數百萬個文檔。目前存儲12萬個文檔,近期目標是存儲4.5億個文檔。

16.格拉斯哥大學的TerrierTeam

壹個30多個節點的實驗集群(每個節點配備XeonQuadCore2.4GHz,4GB內存,1TB存儲)。使用Hadoop推進信息檢索研究和實驗,特別是針對TREC和TerrierIR平臺。Terrier的開源發行版包含了壹個基於HadoopMapReduce的大規模分布式索引。

17.內布拉斯加大學荷蘭計算中心

運行壹個中等規模的Hadoop集群(* * * 1.6PB存儲),存儲並提供物理數據,支持緊湊型μ子螺旋磁譜儀(CMS)實驗的計算。這需要文件系統的支持,能夠以幾個Gbps的速度下載數據,並以更高的速度處理數據。

18.可視措施

Hadoop作為可擴展數據管道的組件,最終用於VisibleSuite等產品。使用Hadoop來總結、存儲和分析與在線視頻觀眾的觀看行為相關的數據流。目前,網格包括超過128個CPU核心和超過100TB的存儲,並計劃大幅擴展。

Hadoop在中國的應用現狀

Hadoop在國內的應用主要是互聯網公司。下面主要介紹使用Hadoop或者大規模研究Hadoop的公司。

1 .百度

百度從2006年開始關註Hadoop,並開始調研和使用。2012年,其集群總規模達到近十個,單個集群有2800多個機器節點,Hadoop機器有上萬臺。總存儲容量超過100PB,已使用超過74PB。每天提交的作業數以千計,每天輸入的數據量超過7500TB。

百度的Hadoop集群為整個公司的數據團隊、大型搜索團隊、社區產品團隊、廣告團隊、LBS群組提供統壹的計算和存儲服務。主要應用包括:

數據挖掘和分析。

日誌分析平臺。

數據倉庫系統。

推薦引擎系統。

用戶行為分析系統。

同時,百度還基於Hadoop開發了自己的日誌分析平臺、數據倉庫系統和統壹的C++編程接口,並對Hadoop進行深度改造,開發出HadoopC++擴展HCE系統。

2.阿裏巴巴

截至2012,阿裏巴巴的Hadoop集群約有3200臺服務器,約30?000物理CPU核,總內存100TB,總存儲容量超過60PB,每天作業數超過150?000,hivequery查詢日均6000次以上,日均掃描數據量約7.5PB,日均掃描文件數約4億,存儲利用率約80%,CPU利用率平均65%,峰值可達80%。阿裏巴巴的Hadoop集群擁有150個用戶群,4500個集群用戶,為淘寶、天貓、陶藝、聚劃算、CBU、支付寶提供基礎計算和存儲服務。其主要應用包括:

數據平臺系統。

搜索支持。

廣告系統。

數據立方體。

量子統計學。

淘數據

推薦引擎系統。

搜索排行榜。

為了方便開發,還開發了WebIDE繼承開發環境,使用的相關系統有Hive、Pig、Mahout、Hbase等。

3.騰訊

騰訊也是國內最早使用Hadoop的互聯網公司之壹。截至2012年底,騰訊擁有超過5000臺Hadoop集群機,最大單個集群約2000個節點。它還使用Hadoop-Hive構建了自己的數據倉庫系統TDW,並開發了自己的TDW IDE基本開發環境。騰訊的Hadoop為騰訊各產品線提供基礎的雲計算和雲存儲服務,它支持以下產品:

騰訊社交廣告平臺。

SOSO。

拍拍網。

騰訊微博。

騰訊指南針。

QQ會員。

騰訊遊戲支持。

QQ空間。

朋友。com

騰訊開放平臺。

財付通。

手機QQ。

QQ音樂。

4.奇虎360

奇虎360主要使用Hadoop-HBase作為其搜索引擎so.com的底層網頁存儲架構系統,360搜索的網頁可達數千億條記錄,數據量達到PB級別。截至2012年底,其HBase集群擁有超過300個節點,區域數量超過65438+萬。使用的平臺版本如下。

HBase版本:facebook0.89-fb。

HDFS版本:facebookHadoop-20。

奇虎360在Hadoop-HBase中的工作主要是針對HBase集群的起止時間進行優化和縮減,RS異常退出後的恢復時間進行優化和縮減。

5.華為

華為也是Hadoop的主要貢獻者之壹,排名在谷歌和思科之前。華為對Hadoop的HA方案和HBase領域進行了深入研究,並向業界推出了自己基於Hadoop的大數據解決方案。

6.中國移動

中國移動於2010年5月正式推出BigCloud1.0,集群節點達到1024。中國移動的大雲基於Hadoop的MapReduce實現了分布式計算,利用HDFS實現了分布式存儲,開發了基於Hadoop的數據倉庫系統HugeTable、並行數據挖掘工具集BC-PDM、並行數據抽取與轉換BC-ETL、對象存儲系統BC-ONestd等系統,並開放了自己版本的BC-Hadoop。

中國移動主要在電信領域應用Hadoop,計劃的應用領域包括:

KPI集中運營。

子系統ETL/DM。

結算系統。

信號系統。

雲計算資源池系統。

物聯網應用系統。

電子郵件.

IDC服務等。

7 .盤古搜索

盤古搜索(現與即時搜索合並為中國搜索)主要使用Hadoop集群作為搜索引擎的基礎架構支撐系統。到2013年初,集群內機器總數超過380臺,總存儲3.66PB,主要包括以下應用。

網頁存儲。

網頁分析。

索引。

Pagerank計算。

日誌統計分析。

推薦引擎等。

立即搜索(人員搜索)

即時搜索(已與盤古搜索合並為中國搜索)也使用Hadoop作為其搜索引擎的支撐系統。截至2013,其Hadoop集群總規模超過500個節點,配置為雙通道6核CPU,48G內存,11×2T存儲,集群總容量超過65438+300TB,利用率78%。

即時搜索存儲在搜索引擎中的sstable格式的網頁,並將sstable文件直接存儲在HDFS上,主要使用HadoopPipes編程接口進行後續處理,也使用Streaming接口處理數據。主要應用包括:

網頁存儲。

分析壹下。

索引。

推薦引擎。

結束

  • 上一篇:古代機械史的發展
  • 下一篇:湖南科技學院的歷史與現狀
  • copyright 2024律師網大全