歡迎您光臨本站 註冊首頁

分散式緩存能否作為NoSQL資料庫?

←手機掃碼閱讀     火星人 @ 2014-03-12 , reply:0
  

 對於文檔、對象圖、鍵值對這樣的非關係型數據類型,NoSQL資料庫為它們提供了另一種可選的數據存儲方式。分散式緩存能被用作NoSQL資料庫嗎?Ehcache的Greg Luck撰文描述了分散式緩存與NoSQL資料庫的相似性。InfoQ就此採訪了他,討論了該方案的利弊之處。

InfoQ:你能否就分散式緩存解決方案與NoSQL資料庫做個對比?

Greg Luck:分散式緩存通常會把數據放在內存里,用於降低延時。NoSQL資料庫是沒有R的DBMS(即沒有關係的資料庫管理系統),一般也缺乏對事務和其他高級特性的支持。對於不支持關係的系統,表關係的關聯是SQL里最麻煩的部分,這也正是NoSQL這個名字的起源。

其中一種NoSQL資料庫是鍵值存儲。典型的例子包括Dynamo、Oracle NoSQL Database和Redis。緩存也是鍵值存儲,因此說這兩者是相關的。很多緩存實現能被配置為可持久化的,之所以很多時候不那麼做,是因為緩存是要提升性能而不是做持久化。而NoSQL資料庫則與此相反,它是用來做持久化的。

持久化緩存也可當作鍵值NoSQL資料庫來使用。NoSQL也提到了Big Data,通常是指比能放進一個單獨的RDBMS節點的量要大的數據,一般從幾TB到幾PB。

分散式緩存通常用於降低事務性數據的延時,這些數據開始時並不大,但慢慢就會往Big Data這個方向發展。由於緩存將數據保存在內存里,這提高了存儲的成本,而且需要限制數據的大小。如果依賴於堆存儲,每個伺服器節點可能只有可憐的2GB。如果依賴於分散式緩存,Ehcache還提供了堆外存儲,每台伺服器可以存儲幾百GB數據,可以用作TB級別的緩存。

持久化、分散式的緩存可以適用於一些NoSQL的場景。NoSQL資料庫也可以應對一些緩存的場景,只是延時稍高而已。

InfoQ:從架構角度來看,分散式緩存和NoSQL資料庫有什麼相似之處嗎?

Greg:它們都想提供優於RDBMS的TPS和可擴展性。為此,它們都在功能上做了簡化,拋開了那些麻煩的問題,比如表關聯、存儲過程和ACID事務。

雖然Java緩存領域裡有JSR 107,它為Spring和Java EE程序員提供了一套標準的緩存API,但是比起標準化介面,它們都更傾向於使用私有介面。

它們都採用對客戶端透明的方式對數據進行分區,做向外擴展。非Java產品向上擴展做得也很好。擁有Terracotta BigMemory,我們在Java平台上的向上擴展方面也做得很特別。最後,兩者都可以部署在常見的硬體和操作系統上,這讓它們都能理想地運行於雲端。

InfoQ:架構上這兩項技術又有何不同呢?

Greg:NoSQL和RDBMS通常使用的是磁碟。磁碟是機械設備,延時很厲害,因為尋道時間是磁頭移動到正確的磁軌的時間,讀寫時間依賴於磁碟的RPM。NoSQL嘗試優化磁碟的使用,例如,僅僅在磁頭當前位置追加日誌,偶爾才刷新到磁碟上。相反,緩存主要都把數據放內存里。

NoSQL和RDBMS的客戶端很薄(想想Thrift或JDBC),只是在網路中傳輸數據,而像Ehcache這樣的緩存使用進程內存儲和遠程存儲,因此常用請求在本地就能被成功處理。在分散式緩存上下文中,每個應用程序伺服器的進程內存儲中都會緩存熱點數據,增加伺服器數量並不會增加網路或後端的負載。

RDBMS專註於成為通用的SOR(System of Record)。NoSQ希望成為某類特定數據類型的SOR,比如鍵值對、文檔、稀疏表(寬表)或圖。緩存著眼於性能,一般會與RDBMS或NoSQL資料庫結合使用,數據類型就是SOR。往往緩存中會存儲Web服務調用的結果,業務對象的計算結果,這個結果可能需要成百SOR調用才能得到。

像Ehcache這樣的緩存部分運行在應用程序的操作系統進程里,部分運行在網路那頭自己機器的進程里。但也不是全部分散式緩存都這樣:memcache就是一個例子,所有的數據都跨網路存儲。

InfoQ:哪類應用程序最適合這種方式?

Greg:這還得從先前的問題說起,要將分散式緩存用於你現有的應用程序,通常只需要很小的工作量,而NoSQL則需要做很多事,還有大的架構變更。

因此適用分散式緩存的第一類應用程序是現有系統,特別是有以下需要的:

  • 由於使用量或負載激增而需要向外擴展
  • 為達到SLA而需要有更低的延時
  • 為了將大型機這樣的昂貴基礎設施的使用減到最低
  • 減少Web服務調用而帶來的費用
  • 應對極端負載高峰(比如黑色星期五一樣的促銷)

InfoQ:這種方式有什麼局限么?

Greg:緩存,置於內存之中,在大小上有制約,它們的技術局限受限於有多少內存給它們使用(下面還會具體展開說明)。

緩存,就算它提供持久化功能,也未必算的上作為SOR的上選。緩存故意迴避了備份到磁碟和從中還原的複雜功能,儘管也有簡單的。RDMBS在過去30年裡開發了豐富的備份、還原、遷移、報表和ETL特性。而NoSQL則介於兩者之間。

緩存提供了改變數據與訪問數據的編程API。NoSQL和RDBMS則提供了工具,可以執行腳本化語言(比如SQL、UnSQL和Thrift)。

但關鍵一點是要記住緩存並不想成為你的SOR。它能輕鬆地與你的RDBMS和睦相處,為此它並不需要RDBMS所有用的複雜功能。

InfoQ:以後分散式緩存解決方案、NoSQL資料庫和傳統RDBMS互相協同工作,你有何看法?

Greg:速度大幅快於RDBMS,依賴於部署拓撲的NoSQL,還有數據訪問模式,分散式緩存可以位於這三者之間的任意位置。那些需要更低延時的人可以將緩存作為NoSQL的一個補充,就像現在對待RDBMS那樣。

稍有不同的是,在你想將RDBMS擴展到多個節點時,經常會難於擴展,或者影響編程契約,或者受制於CAP做出權衡;而使用NoSQL,就算只使用一個節點,你也可以簡單地將其視為多節點安裝。如果是向上擴展就沒有這些問題。在RDBMS中,添加緩存是為了避免向外擴展會遇到的麻煩。通常緩存能解決系統的容量問題,你不用費太多力氣。因此當需要向外擴展時,加入緩存吧。

對於NoSQL而言,內建了向外擴展的能力,在需要低延時的時候使用緩存吧。

查看英文原文:Distributed Cache as a NoSQL Data Store?

譯者 丁雪豐 是InfoQ中文站編輯,滿江紅翻譯組核心成員,出版過《Spring攻略》、《JRuby實戰》等多部譯著。主要關注領域:企業級應用、海量數據計算、動態語言應用等。



[火星人 ] 分散式緩存能否作為NoSQL資料庫?已經有495次圍觀

http://coctec.com/docs/linux/show-post-74043.html