本文摘自《Hadoop核心技術》壹書。
Hadoop是壹個開源、高效的雲計算基礎平臺,不僅廣泛應用於雲計算領域,還支持搜索引擎服務。Hadoop作為搜索引擎的底層基礎架構系統,在海量數據處理、數據挖掘、機器學習、科學計算等領域越來越受到青睞。本文將談談hadoop在國內外的應用現狀。
Hadoop在國外的應用現狀
1.美國Yahoo公司(提供互聯網的信息檢索服務)
雅虎是Hadoop的最大支持者。截至2012,雅虎Hadoop節點總數超過42?000,運行Hadoop的核心CPU超過65438+萬個。最大的單主節點集群有4500個節點(每個節點為雙通道4核CPUboxesw,4×1TB磁盤,16GBRAM)。集群總存儲容量超過350PB,每月提交的作業數量超過654.38+00萬。Pig中超過60%的Hadoop作業是由Pig編寫和提交的。
雅虎的Hadoop應用主要包括以下幾個方面:
支持廣告系統
用戶行為分析
支持網絡搜索
光學內容讀取
成員反濫用
敏捷內容
個性化推薦
同時,Pig研究和測試支持超大規模節點集群的Hadoop系統。
2.臉譜網
臉書使用Hadoop來存儲內部日誌和多維數據,作為報告、分析和機器學習的數據源。目前Hadoop集群有1400多個機器節點,* * * 11?200個核心CPU,超過了原來15PB的存儲容量。每個商用機節點配備8核CPU和12TB數據存儲,主要使用StreamingAPI和JavaAPI編程接口。同時,臉書基於Hadoop建立了壹個名為Hive的高級數據倉庫框架,Hive正式成為基於Hadoop的Apache的壹級項目。此外,還開發了HDFS上的引信實現。
3.A9.com
A9.com使用Hadoop為亞馬遜構建了商品搜索索引,主要使用StreamingAPI、C++、Perl和Python工具,同時使用Java和StreamingAPI分析和處理每天數百萬的對話。A9.com為亞馬遜提供的索引服務運行在Hadoop集群上,大約有100個節點。
4.磚坯黏土
Adobe主要使用Hadoop和HBase,和支持社交服務計算、結構化數據存儲和處理是壹樣的。大約30個節點的Hadoop-HBase生產集群。Adobe將數據直接連續存儲在HBase中,以HBase為數據源運行MapReduce作業處理,然後將運行結果直接保存到HBase或外部系統。自2008年6月5日至10月5日,Adobe已將Hadoop和HBase應用於生產集群。
5.CbIR
從2008年4月開始,日本CBIR(content-based information retrieval,基於內容的信息檢索)公司在AmazonEC2上使用Hadoop構建圖像產品推薦系統的圖像處理環境。使用Hadoop環境生成源數據庫,方便Web應用快速訪問,使用Hadoop分析用戶行為的相似性。
6.數據圖表
Datagraph主要利用Hadoop批量處理大量RDF數據集,尤其是利用Hadoop索引RDF數據。Datagraph還使用Hadoop為客戶執行長時間運行的離線SPARQL查詢。Datagraph使用AmazonS3和Cassandra存儲RDF數據的輸入輸出文件,並開發了壹個基於MapReduce-RDF Grid的處理RDF數據的Ruby框架。
Datagraph主要使用Ruby、RDF.rb和自己開發的RDFgrid框架處理RDF數據,主要使用HadoopStreaming接口。
7.易趣
單集群是532節點以上的集群,單節點8核CPU,容量超過5.3PB存儲。MapReduce的Java接口、Pig和Hive被廣泛用於處理大規模數據,HBase也被用於搜索優化和研究。
8.國際商用機器公司
IBM藍雲公司也使用Hadoop來構建雲基礎設施。IBM藍雲使用的技術包括:通過Xen和PowerVM虛擬化的Linux操作系統映像和Hadoop並行工作負載調度,並發布了自己的Hadoop分發和大數據解決方案。
9.Last.Fm
最後。Fm主要用於圖表計算、專利申請、日誌分析、A/B測試、數據集合並等。Hadoop還用於超過壹百萬首曲目的大規模音頻特征分析。
節點有100多臺機器,集群節點配置雙四核至強l 5520 @ 2.27 GHz l 5630 @ 2.13 GHz,24GB內存,8TB(4×2TB)存儲。
10.商務化人際關系網
LinkedIn有各種硬件配置的Hadoop集群。主要的集群配置如下:
800節點集群,HP SL170X和基於Westmere的2×4的核心,24GB內存,6× 2TBSATA。
1900節點集群,基於Westmere的超微HX8DTT,以及2×6核,24GB內存,6× 2TBSATA。
1400節點集群,基於SandyBridge超微,2×6核,32GB內存,6× 2TBSATA。
使用的軟件如下:
操作系統使用RHEL6.3。
JDK使用SUNJDK1.6.0_32。
ApacheHadoop Hadoop0.20.2和ApacheHadoop補丁1.0.4。
阿茲卡班和阿茲卡班用於作業調度。
Hive,Avro,Kafka等。
11.移動分析電視
Hadoop主要用於並行化算法領域,涉及的MapReduce應用算法如下。
信息檢索和分析。
機器生成的內容-文檔、文本、音頻、視頻。
自然語言處理。
項目組合包括:
移動社交網絡。
網絡爬蟲。
文本到語音轉換。
音頻和視頻的自動生成。
12.Openstat
Hadoop主要用於定制網絡日誌分析和生成報告。在其生產環境中,有超過50個節點集群(雙四核至強處理器,16GB RAM,4 ~ 6個硬盤),兩個相對較小的集群用於個性化分析,每天處理約500萬個事件,每月654.38+050億美元的交易數據。集群每天生成大約25GB的報告。
使用的技術主要有CDH、級聯和Janino。
13.量子廣播
3000個CPU核,3500TB存儲,每天處理超過1PB的數據,使用完全自定義數據路徑和排序器的Hadoop調度器,為KFS文件系統做出了卓越的貢獻。
14.拉普利夫
80個以上節點的集群(每個節點2個雙核CPU,2TB×8存儲,16 GB ram);Hadoop和Hive主要用於處理Web上的個人數據,並引入級聯來簡化各個處理階段的數據流。
15.世界行話
硬件上超過44臺服務器(每臺服務器2個雙核CPU,2TB存儲,8GB內存),每臺服務器運行Xen。啟動壹個虛擬機實例運行Hadoop/HBase,再啟動壹個虛擬機實例運行Web或應用服務器,即有88個可用虛擬機。運行兩個獨立的Hadoop/HBase集群,每個集群有22個節點。Hadoop主要用於運行HBase和MapReduce作業,掃描HBase數據表,執行特定任務。作為壹個可擴展的快速存儲後端,HBase用於存儲數百萬個文檔。目前存儲12萬個文檔,近期目標是存儲4.5億個文檔。
16.格拉斯哥大學的TerrierTeam
壹個30多個節點的實驗集群(每個節點配備XeonQuadCore2.4GHz,4GB內存,1TB存儲)。使用Hadoop推進信息檢索研究和實驗,特別是針對TREC和TerrierIR平臺。Terrier的開源發行版包含了壹個基於HadoopMapReduce的大規模分布式索引。
17.內布拉斯加大學荷蘭計算中心
運行壹個中等規模的Hadoop集群(* * * 1.6PB存儲),存儲並提供物理數據,支持緊湊型μ子螺旋磁譜儀(CMS)實驗的計算。這需要文件系統的支持,能夠以幾個Gbps的速度下載數據,並以更高的速度處理數據。
18.可視措施
Hadoop作為可擴展數據管道的組件,最終用於VisibleSuite等產品。使用Hadoop來總結、存儲和分析與在線視頻觀眾的觀看行為相關的數據流。目前,網格包括超過128個CPU核心和超過100TB的存儲,並計劃大幅擴展。
Hadoop在中國的應用現狀
Hadoop在國內的應用主要是互聯網公司。下面主要介紹使用Hadoop或者大規模研究Hadoop的公司。
1 .百度
百度從2006年開始關註Hadoop,並開始調研和使用。2012年,其集群總規模達到近十個,單個集群有2800多個機器節點,Hadoop機器有上萬臺。總存儲容量超過100PB,已使用超過74PB。每天提交的作業數以千計,每天輸入的數據量超過7500TB。
百度的Hadoop集群為整個公司的數據團隊、大型搜索團隊、社區產品團隊、廣告團隊、LBS群組提供統壹的計算和存儲服務。主要應用包括:
數據挖掘和分析。
日誌分析平臺。
數據倉庫系統。
推薦引擎系統。
用戶行為分析系統。
同時,百度還基於Hadoop開發了自己的日誌分析平臺、數據倉庫系統和統壹的C++編程接口,並對Hadoop進行深度改造,開發出HadoopC++擴展HCE系統。
2.阿裏巴巴
截至2012,阿裏巴巴的Hadoop集群約有3200臺服務器,約30?000物理CPU核,總內存100TB,總存儲容量超過60PB,每天作業數超過150?000,hivequery查詢日均6000次以上,日均掃描數據量約7.5PB,日均掃描文件數約4億,存儲利用率約80%,CPU利用率平均65%,峰值可達80%。阿裏巴巴的Hadoop集群擁有150個用戶群,4500個集群用戶,為淘寶、天貓、陶藝、聚劃算、CBU、支付寶提供基礎計算和存儲服務。其主要應用包括:
數據平臺系統。
搜索支持。
廣告系統。
數據立方體。
量子統計學。
淘數據
推薦引擎系統。
搜索排行榜。
為了方便開發,還開發了WebIDE繼承開發環境,使用的相關系統有Hive、Pig、Mahout、Hbase等。
3.騰訊
騰訊也是國內最早使用Hadoop的互聯網公司之壹。截至2012年底,騰訊擁有超過5000臺Hadoop集群機,最大單個集群約2000個節點。它還使用Hadoop-Hive構建了自己的數據倉庫系統TDW,並開發了自己的TDW IDE基本開發環境。騰訊的Hadoop為騰訊各產品線提供基礎的雲計算和雲存儲服務,它支持以下產品:
騰訊社交廣告平臺。
SOSO。
拍拍網。
騰訊微博。
騰訊指南針。
QQ會員。
騰訊遊戲支持。
QQ空間。
朋友。com
騰訊開放平臺。
財付通。
手機QQ。
QQ音樂。
4.奇虎360
奇虎360主要使用Hadoop-HBase作為其搜索引擎so.com的底層網頁存儲架構系統,360搜索的網頁可達數千億條記錄,數據量達到PB級別。截至2012年底,其HBase集群擁有超過300個節點,區域數量超過65438+萬。使用的平臺版本如下。
HBase版本:facebook0.89-fb。
HDFS版本:facebookHadoop-20。
奇虎360在Hadoop-HBase中的工作主要是針對HBase集群的起止時間進行優化和縮減,RS異常退出後的恢復時間進行優化和縮減。
5.華為
華為也是Hadoop的主要貢獻者之壹,排名在谷歌和思科之前。華為對Hadoop的HA方案和HBase領域進行了深入研究,並向業界推出了自己基於Hadoop的大數據解決方案。
6.中國移動
中國移動於2010年5月正式推出BigCloud1.0,集群節點達到1024。中國移動的大雲基於Hadoop的MapReduce實現了分布式計算,利用HDFS實現了分布式存儲,開發了基於Hadoop的數據倉庫系統HugeTable、並行數據挖掘工具集BC-PDM、並行數據抽取與轉換BC-ETL、對象存儲系統BC-ONestd等系統,並開放了自己版本的BC-Hadoop。
中國移動主要在電信領域應用Hadoop,計劃的應用領域包括:
KPI集中運營。
子系統ETL/DM。
結算系統。
信號系統。
雲計算資源池系統。
物聯網應用系統。
電子郵件.
IDC服務等。
7 .盤古搜索
盤古搜索(現與即時搜索合並為中國搜索)主要使用Hadoop集群作為搜索引擎的基礎架構支撐系統。到2013年初,集群內機器總數超過380臺,總存儲3.66PB,主要包括以下應用。
網頁存儲。
網頁分析。
索引。
Pagerank計算。
日誌統計分析。
推薦引擎等。
立即搜索(人員搜索)
即時搜索(已與盤古搜索合並為中國搜索)也使用Hadoop作為其搜索引擎的支撐系統。截至2013,其Hadoop集群總規模超過500個節點,配置為雙通道6核CPU,48G內存,11×2T存儲,集群總容量超過65438+300TB,利用率78%。
即時搜索存儲在搜索引擎中的sstable格式的網頁,並將sstable文件直接存儲在HDFS上,主要使用HadoopPipes編程接口進行後續處理,也使用Streaming接口處理數據。主要應用包括:
網頁存儲。
分析壹下。
索引。
推薦引擎。
結束