人人IT網

人人IT網

當前位置: 主頁 > 編程語言 > C >

大數據相關技術

時間:2016-12-03 01:00來源:Internet 作者:Internet 點擊:
說大數據的技術還是要先提Google,Google 新三輛馬車,Spanner, F1, Dremel Spanner:高可擴展、多版本、全球分布式外加同步复制特性的穀歌內部數據庫,支持外部一致性的分

說大數據的技術還是要先提Google,Google 新三輛馬車,Spanner, F1, Dremel

Spanner:高可擴展、多版本、全球分布式外加同步复制特性的穀歌內部數據庫,支持外部一致性的分布式事務;設計目標是橫跨全球上百個數據中心,覆蓋百萬台服務器,包含萬億條行記錄!(Google就是這麼霸氣^-^)

F1: 構建於Spanner之上,在利用Spanner的豐富特性基礎之上,還提供分布式SQL、事務一致性的二級索引等功能,在AdWords廣告業務上成功代替了之前老舊的手工MySQL Shard方案。

 

Dremel: 一種用來分析信息的方法,它可以在數以千計的服務器上運行,類似使用SQL語言,能以極快的速度處理網络規模的海量數據(PB數量級),只需幾秒钟時間就能完成。

 

Cassandra

 

大數據架構中,Cassandra的主要作用就是存儲結構化數據。DataStax的Cassandra是一種面向列的數據庫,它通過分布式架構提供高可用性及耐用性的服務。它實現了超大規模的集群,並提供一種稱作“最終一致性”的一致性類型,這意味着在任何時刻,在不同服務器中的相同數據庫條目可以有不同的值。

SQL on Hadoop

開源社區業出現了很多 SQL-on-Hadoop的項目,着眼跟一些商業的數據倉庫系統競爭。包括Apache Hive, Spark SQL, Cloudera Impala, Hortonworks Stinger, Facebook Presto, Apache Tajo,Apache Drill。有些是基於Google Dremel設計。

Impala

Cloudera公司主導開發的新型查詢系統,它提供SQL語義,能夠查詢存儲在Hadoop的HDFS和HBase中的PB級大數據,號稱比Hive快5-10倍,但最近被Spark的風頭给罩住了,大家還是更傾向於後者。

Drill

Apache社區類似於Dremel的開源版本—Drill。一個專为互動分析大型數據集的分布式系統。

Druid在大數據集之上做實時統計分析而設計的開源數據存儲。這個系統集合了一個面向列存儲的層,一個分布式、shared-nothing的架構,和一個高級的索引結構,來達成在秒級以內對十億行級別的表進行任意的探索分析。

Berkeley Data Analytics Stack



 

 

上面說道Spark,在Berkeley AMP lab 中有個更宏偉的藍圖,就是BDAS,裏面有很多明星項目,除了Spark,還包括:

Mesos:一個分布式環境的資源管理平台,它使得Hadoop、MPI、Spark作業在統一資源管理環境下執行。它對Hadoop2.0支持很好。Twitter,Coursera都在使用。

Tachyon:是一個高容錯的分布式文件系統,允許文件以內存的速度在集群框架中進行可靠的共享,就像Spark和MapReduce那样。項目發起人李浩源說目前發展非常快,甚至比Spark當時還要驚人,已經成立創業公司Tachyon Nexus.

BlinkDB:也很有意思,在海量數據上運行交互式 SQL 查詢的大規模並行查詢引擎。它允許用戶通過權衡數據精度來提升查詢響應時間,其數據的精度被控制在允許的誤差範圍內。

Cloudera

\" width=https://www.zhihu.com/question/33692103#answer-26807270


From:ITEYE
頂一下
(0)
0%
踩一下
(0)
0%
------分隔線----------------------------
發表評論
請自覺遵守互聯網相關的政策法規,嚴禁發布色情、暴力、反動的言論。
評價:
表情:
驗證碼:點擊我更換圖片
欄目列表
推薦內容