1. 一般互聯網公司 如何進行高並發的架構
一、什麼是高並發
高並發(High Concurrency)是互聯網分布式系統架構設計中必須考慮的因素之一,它通常是指,通過設計保證系統能夠同時並行處理很多請求。
高並發相關常用的一些指標有響應時間(Response Time),吞吐量(Throughput),每秒查詢率QPS(Query Per Second),並發用戶數等。
響應時間:系統對請求做出響應的時間。例如系統處理一個HTTP請求需要200ms,這個200ms就是系統的響應時間。
吞吐量:單位時間內處理的請求數量。
QPS:每秒響應請求數。在互聯網領域,這個指標和吞吐量區分的沒有這么明顯。
並發用戶數:同時承載正常使用系統功能的用戶數量。例如一個即時通訊系統,同時在線量一定程度上代表了系統的並發用戶數。
二、如何提升系統的並發能力
互聯網分布式架構設計,提高系統並發能力的方式,方法論上主要有兩種:垂直擴展(Scale Up)與水平擴展(Scale Out)。
垂直擴展:提升單機處理能力。垂直擴展的方式又有兩種:
(1)增強單機硬體性能,例如:增加CPU核數如32核,升級更好的網卡如萬兆,升級更好的硬碟如SSD,擴充硬碟容量如2T,擴充系統內存如128G;
(2)提升單機架構性能,例如:使用Cache來減少IO次數,使用非同步來增加單服務吞吐量,使用無鎖數據結構來減少響應時間;
在互聯網業務發展非常迅猛的早期,如果預算不是問題,強烈建議使用「增強單機硬體性能」的方式提升系統並發能力,因為這個階段,公司的戰略往往是發展業務搶時間,而「增強單機硬體性能」往往是最快的方法。
不管是提升單機硬體性能,還是提升單機架構性能,都有一個致命的不足:單機性能總是有極限的。所以互聯網分布式架構設計高並發終極解決方案還是水平擴展。
水平擴展:只要增加伺服器數量,就能線性擴充系統性能。水平擴展對系統架構設計是有要求的,如何在架構各層進行可水平擴展的設計,以及互聯網公司架構各層常見的水平擴展實踐,是本文重點討論的內容。
三、常見的互聯網分層架構
常見互聯網分布式架構如上,分為:
(1)客戶端層:典型調用方是瀏覽器browser或者手機應用APP
(2)反向代理層:系統入口,反向代理
(3)站點應用層:實現核心應用邏輯,返回html或者json
(4)服務層:如果實現了服務化,就有這一層
(5)數據-緩存層:緩存加速訪問存儲
(6)數據-資料庫層:資料庫固化數據存儲
整個系統各層次的水平擴展,又分別是如何實施的呢?
四、分層水平擴展架構實踐
反向代理層的水平擴展
反向代理層的水平擴展,是通過「DNS輪詢」實現的:dns-server對於一個域名配置了多個解析ip,每次DNS解析請求來訪問dns-server,會輪詢返回這些ip。
當nginx成為瓶頸的時候,只要增加伺服器數量,新增nginx服務的部署,增加一個外網ip,就能擴展反向代理層的性能,做到理論上的無限高並發。
站點層的水平擴展
站點層的水平擴展,是通過「nginx」實現的。通過修改nginx.conf,可以設置多個web後端。
當web後端成為瓶頸的時候,只要增加伺服器數量,新增web服務的部署,在nginx配置中配置上新的web後端,就能擴展站點層的性能,做到理論上的無限高並發。
服務層的水平擴展
服務層的水平擴展,是通過「服務連接池」實現的。
站點層通過RPC-client調用下游的服務層RPC-server時,RPC-client中的連接池會建立與下游服務多個連接,當服務成為瓶頸的時候,只要增加伺服器數量,新增服務部署,在RPC-client處建立新的下游服務連接,就能擴展服務層性能,做到理論上的無限高並發。如果需要優雅的進行服務層自動擴容,這里可能需要配置中心裡服務自動發現功能的支持。
數據層的水平擴展
在數據量很大的情況下,數據層(緩存,資料庫)涉及數據的水平擴展,將原本存儲在一台伺服器上的數據(緩存,資料庫)水平拆分到不同伺服器上去,以達到擴充系統性能的目的。
互聯網數據層常見的水平拆分方式有這么幾種,以資料庫為例:
按照范圍水平拆分
每一個數據服務,存儲一定范圍的數據,上圖為例:
這個方案的好處是:
(1)規則簡單,service只需判斷一下uid范圍就能路由到對應的存儲服務;
(2)數據均衡性較好;
(3)比較容易擴展,可以隨時加一個uid[2kw,3kw]的數據服務;
不足是:
(1)請求的負載不一定均衡,一般來說,新注冊的用戶會比老用戶更活躍,大range的服務請求壓力會更大;
按照哈希水平拆分
每一個資料庫,存儲某個key值hash後的部分數據,上圖為例:
這個方案的好處是:
(1)規則簡單,service只需對uid進行hash能路由到對應的存儲服務;
(2)數據均衡性較好;
(3)請求均勻性較好;
不足是:
(1)不容易擴展,擴展一個數據服務,hash方法改變時候,可能需要進行數據遷移;
這里需要注意的是,通過水平拆分來擴充系統性能,與主從同步讀寫分離來擴充資料庫性能的方式有本質的不同。
通過水平拆分擴展資料庫性能:
(1)每個伺服器上存儲的數據量是總量的1/n,所以單機的性能也會有提升;
(2)n個伺服器上的數據沒有交集,那個伺服器上數據的並集是數據的全集;
(3)數據水平拆分到了n個伺服器上,理論上讀性能擴充了n倍,寫性能也擴充了n倍(其實遠不止n倍,因為單機的數據量變為了原來的1/n);
通過主從同步讀寫分離擴展資料庫性能:
(1)每個伺服器上存儲的數據量是和總量相同;
(2)n個伺服器上的數據都一樣,都是全集;
(3)理論上讀性能擴充了n倍,寫仍然是單點,寫性能不變;
緩存層的水平拆分和資料庫層的水平拆分類似,也是以范圍拆分和哈希拆分的方式居多,就不再展開。
五、總結
高並發(High Concurrency)是互聯網分布式系統架構設計中必須考慮的因素之一,它通常是指,通過設計保證系統能夠同時並行處理很多請求。
提高系統並發能力的方式,方法論上主要有兩種:垂直擴展(Scale Up)與水平擴展(Scale Out)。前者垂直擴展可以通過提升單機硬體性能,或者提升單機架構性能,來提高並發性,但單機性能總是有極限的,互聯網分布式架構設計高並發終極解決方案還是後者:水平擴展。
互聯網分層架構中,各層次水平擴展的實踐又有所不同:
(1)反向代理層可以通過「DNS輪詢」的方式來進行水平擴展;
(2)站點層可以通過nginx來進行水平擴展;
(3)服務層可以通過服務連接池來進行水平擴展;
(4)資料庫可以按照數據范圍,或者數據哈希的方式來進行水平擴展;
各層實施水平擴展後,能夠通過增加伺服器數量的方式來提升系統的性能,做到理論上的性能無限。
2. 如何利用MySQL來處理大數據高並發請求網站
大數據並發處理解決方案:
1、HTML靜態化
效率最高、消耗最小的就是純靜態化的html頁面,所以盡可能使網站上的頁面採用靜態頁面來實現,這個最簡單的方法其實也是最有效的方法。但是對於大量內容並且頻繁更新的網站,無法全部手動去挨個實現,於是出現了常見的信息發布系統CMS,像常訪問的各個門戶站點的新聞頻道,甚至他們的其他頻道,都是通過信息發布系統來管理和實現的,信息發布系統可以實現最簡單的信息錄入自動生成靜態頁面,還能具備頻道管理、許可權管理、自動抓取等功能,對於一個大型網站來說,擁有一套高效、可管理的CMS是必不可少的。
2、圖片伺服器分離
對於Web伺服器來說,不管是Apache、IIS還是其他容器,圖片是最消耗資源的,於是有必要將圖片與頁面進行分離,這是基本上大型網站都會採用的策略,他們都有獨立的圖片伺服器,甚至很多台圖片伺服器。這樣的架構可以降低提供頁面訪問請求的伺服器系統壓力,並且可以保證系統不會因為圖片問題而崩潰,在應用伺服器和圖片伺服器上,可以進行不同的配置優化,比如apache在配置ContentType的時候可以盡量少支持,盡可能少的LoadMole,保證更高的系統消耗和執行效率。 這一實現起來是比較容易的一現,如果伺服器集群操作起來更方便,如果是獨立的伺服器,新手可能出現上傳圖片只能在伺服器本地的情況下,可以在令一台伺服器設置的IIS採用網路路徑來實現圖片伺服器,即不用改變程序,又能提高性能,但對於伺服器本身的IO處理性能是沒有任何的改變。
3、資料庫集群和庫表散列
大型網站都有復雜的應用,這些應用必須使用資料庫,那麼在面對大量訪問的時候,資料庫的瓶頸很快就能顯現出來,這時一台資料庫將很快無法滿足應用,於是需要使用資料庫集群或者庫表散列。
4、緩存
緩存一詞搞技術的都接觸過,很多地方用到緩存。網站架構和網站開發中的緩存也是非常重要。架構方面的緩存,對Apache比較熟悉的人都能知道Apache提供了自己的緩存模塊,也可以使用外加的Squid模塊進行緩存,這兩種方式均可以有效的提高Apache的訪問響應能力。
網站程序開發方面的緩存,Linux上提供的Memory Cache是常用的緩存介面,可以在web開發中使用,比如用Java開發的時候就可以調用MemoryCache對一些數據進行緩存和通訊共享,一些大型社區使用了這樣的架構。另外,在使用web語言開發的時候,各種語言基本都有自己的緩存模塊和方法,PHP有Pear的Cache模塊,Java就更多了,.net不是很熟悉,相信也肯定有。
5、鏡像
鏡像是大型網站常採用的提高性能和數據安全性的方式,鏡像的技術可以解決不同網路接入商和地域帶來的用戶訪問速度差異,比如ChinaNet和ENet之間的差異就促使了很多網站在教育網內搭建鏡像站點,數據進行定時更新或者實時更新。在鏡像的細節技術方面,這里不闡述太深,有很多專業的現成的解決架構和產品可選。也有廉價的通過軟體實現的思路,比如Linux上的rsync等工具。
6、負載均衡
負載均衡將是大型網站解決高負荷訪問和大量並發請求採用的終極解決辦法。 負載均衡技術發展了多年,有很多專業的服務提供商和產品可以選擇。
硬體四層交換
第四層交換使用第三層和第四層信息包的報頭信息,根據應用區間識別業務流,將整個區間段的業務流分配到合適的應用伺服器進行處理。第四層交換功能就象是虛IP,指向物理伺服器。它傳輸的業務服從的協議多種多樣,有HTTP、FTP、NFS、Telnet或其他協議。這些業務在物理伺服器基礎上,需要復雜的載量平衡演算法。在IP世界,業務類型由終端TCP或UDP埠地址來決定,在第四層交換中的應用區間則由源端和終端IP地址、TCP和UDP埠共同決定。
在硬體四層交換產品領域,有一些知名的產品可以選擇,比如Alteon、F5等,這些產品很昂貴,但是物有所值,能夠提供非常優秀的性能和很靈活的管理能力。Yahoo中國當初接近2000台伺服器使用了三四台Alteon就搞定了。
3. 如何解決高並發問題
使用高性能的伺服器、高性能的資料庫、高效率的編程語言、還有高性能的Web容器,(對架構分層+負載均衡+集群)這幾個解決思路在一定程度上意味著更大的投入。
1、高並發:在同一個時間點,有大量的客戶來訪問我們的網站,如果訪問量過大,就可能造成網站癱瘓。
2、高流量:當網站大後,有大量的圖片,視頻,這樣就會對流量要求高,需要更多更大的帶寬。
3、大存儲:可能對數據保存和查詢出現問題。
解決方案:
1、提高硬體能力、增加系統伺服器。(當伺服器增加到某個程度的時候系統所能提供的並發訪問量幾乎不變,所以不能根本解決問題)
2、本地緩存:本地可以使用JDK自帶的Map、Guava Cache.分布式緩存:Redis、Memcache.本地緩存不適用於提高系統並發量,一般是用處用在程序中。
Spiring把已經初始過的變數放在一個Map中,下次再要使用這個變數的時候,先判斷Map中有沒有,這也就是系統中常見的單例模式的實現。
4. java 項目開發中中如何解決高並發問題
對於我們開發的網站,如果網站的訪問量非常大的話,那麼我們就需要考慮相關的並發訪問問題了。而並發問題是絕大部分的程序員頭疼的問題,
但話又說回來了,既然逃避不掉,那我們就坦然面對吧~今天就讓我們一起來研究一下常見的並發和同步吧。
為了更好的理解並發和同步,我們需要先明白兩個重要的概念:同步和非同步
1、同步和非同步的區別和聯系
所謂同步,可以理解為在執行完一個函數或方法之後,一直等待系統返回值或消息,這時程序是出於阻塞的,只有接收到
返回的值或消息後才往下執行其它的命令。
非同步,執行完函數或方法後,不必阻塞性地等待返回值或消息,只需要向系統委託一個非同步過程,那麼當系統接收到返回
值或消息時,系統會自動觸發委託的非同步過程,從而完成一個完整的流程。
同步在一定程度上可以看做是單線程,這個線程請求一個方法後就待這個方法給他回復,否則他不往下執行(死心眼)。
非同步在一定程度上可以看做是多線程的(廢話,一個線程怎麼叫非同步),請求一個方法後,就不管了,繼續執行其他的方法。
同步就是一件事,一件事情一件事的做。
非同步就是,做一件事情,不引響做其他事情。
例如:吃飯和說話,只能一件事一件事的來,因為只有一張嘴。
但吃飯和聽音樂是非同步的,因為,聽音樂並不引響我們吃飯。
對於Java程序員而言,我們會經常聽到同步關鍵字synchronized,假如這個同步的監視對象是類的話,那麼
5. 互聯網創業公司如何應對高並發和 DDoS 攻擊
高並發和攻擊幾乎是每個互聯網創業公司都遇到的事情,尤其是電商行業在大促時期,這種狀況十分棘手。有朋友曾經在小紅書工作,之前大家一塊討論這個問題。小紅書對流量高並發和惡意攻擊也做過多種嘗試,後來借鑒國外很多互聯網公司經驗,嘗試將網站部署到騰訊雲計算平台上,利用負載均衡的CLB並發連接和擴容功能處理流量大批湧入 ,緩解伺服器壓力,效果還不錯的。
一般網站遭遇攻擊,攻擊者都是控制一個足夠大的分布式集群來發起攻擊,導致寬頻被打滿、IP會封,這種情況下雲計算T級DDoS防護能力就會起到有效抵禦功能,避免IP被封、帶寬被打滿。像谷歌這種比較大的公司都有自己自建強大穩定的基礎設施,投入大、維護成本高,技術含量還要過硬,但一般互聯網創業公司原有伺服器資源有限,卻又難以應付隨時遭遇高並發和攻擊現狀,為了節約成本精工主要業務,很多公司把網站部署到雲計算,省去很多麻煩,這也算是一種經驗借鑒吧。
6. 用PHP 編寫支持高並發的網站,需要做什麼處理
一般來說,解決WEB高並發的有效手段都是採用可線性擴展的多層分布式架構,
我生產項目的架構是這樣的,就在這里拋磚引玉一下。
Webserver (Nginx) :這一層是可以輕松分布式部署的,結合智能DNS解析可以簡易地防止單點故障、實現區域訪問加速,結合LVS很容易實現負載均衡。這一層主要是負責處理靜態請求和轉發PHP請求至第二層的PHP處理節點,至於靜態資源地址(http://misc.xxxx.com)可以單獨拿出來部署,或者直接使用商用的雲存儲服務(國內七牛不錯,國外有Amazon S3)
PHP處理節點:一個節點其實就是一個監聽特定埠的系統進程,webserver的請求通過負載均衡器(我用的AWS的loadbalancer)進行分發,很好實現分布式和負載均衡。我現在用的還是php自帶的php-fpm,其實facebook出的hhvm性能非常強悍,但是還不能100%通過我項目的單元測試,等hhvm成熟過後可以平滑替換
高速緩存:用的memcached,這一層的作用主要是減輕資料庫IO和加快熱數據訪問,緩存策略與程序耦合度較高,不贅述,但簡單地說有兩種方式,一種是在程序的全局層面加一個緩存處理,這種方法代碼耦合度低,但是有效命中率不高,有些項目不一定適應,另一種是在具體的數據存取處加緩存處理,這種辦法程序耦合度較高,但是緩存命中率非常高,幾乎沒有無效緩存存在,我用的是這種。
資料庫 :我現在的項目數據規模不大,暫時只用了單台資料庫,但是程序邏輯上已做好了資料庫線性擴展的准備。其實資料庫層的擴展是老生常談了,常用手段是分庫分表,這一塊需要在前期的代碼就打下基礎,另外更平滑地手段是使用中間件,比如360的Atlas,阿里巴巴的cobar,淘寶的TDDL,中間件可以在不大范圍變更代碼的情況下擴展,但是具體的使用場景還是有限的,具體項目還需單獨考察。
其他:根據不同的項目,架構還可以選擇性地使用隊列,我現在用的beantalkd,Redis也是一個很好的選擇。隊列常用的使用環境是郵件發送和站內消息推送上面,但是在某些場景下也可以作為核心資料庫的緩沖,對應對大並發或者突發性流量也是不錯的選擇
7. 如何解決應用高並發的問題
決應用高並發的問題方法:
第一,確認伺服器硬體是否足夠支持當前的流量。 普通的P4伺服器一般最多能支持每天10萬獨立IP,如果訪問量比這個還要大,那麼必須首先配置一台更高性能的專用伺服器才能解決問題,否則怎麼優化都不可能徹底解決性能問題。
第二,優化資料庫訪問。 伺服器的負載過大,一個重要的原因是CPU負荷過大,降低伺服器CPU的負荷,才能夠有效打破瓶頸。而使用靜態頁面可以使得CPU的負荷最小化。前台實現完全的靜態化 當然最好,可以完全不用訪問資料庫,不過對於頻繁更新的網站,靜態化往往不能滿足某些功能。 緩存技術 就是另一個解決方案,就是將動態數據存儲到緩存文件中,動態網頁直接調用這些文件,而不必再訪問資料庫,WordPress和Z-Blog都大量使用這種緩存技術 。我自己也寫過一個Z-Blog的計數器插件,也是基於這樣的原理。 如果確實無法避免對資料庫的訪問,那麼可以嘗試優化資料庫的查詢SQL.避免使用Select *from這樣的語句,每次查詢只返回自己需要的結果,避免短時間內的大量SQL查詢。
8. 如何優化網站高並發訪問
解決高並發訪問,或者說改善,提高一點思路:
1.使用Squid或者Varnish做緩存代理,將經常訪問的圖片等靜態內容緩存起來,提高訪問速度;
2.使用CDN內容分發網路,減少主伺服器的壓力(附CDN相關內容:CDN通過在網路各處放置節點伺服器所構成的在現有的互聯網基礎之上的一層智能虛擬網路,CDN系統能夠實時地根據網路流量和各節點的連接、負載狀況以及到用戶的距離和響應時間等綜合信息將用戶的請求重新導向離用戶最近);
3.使用LVS伺服器負載均衡,LVS伺服器結合Keepalived做高可用;
4.LVS下面還可跟Nginx做負載均衡,再次分擔壓力,比如淘寶使用的再Nginx基礎上改進的Tnginx。
5.DNS伺服器上也可下功夫,比如做高級視圖等等,這樣可以解決不同網段訪問Web伺服器的速度問題;
6.最大的瓶頸還是在IO上,比如存儲IO,比如資料庫的IO。存儲一方面需要保證數據不丟失,另一方面需要保證性能,比如做RAID、LVM;存儲還需要考慮使用一套存儲之間的數據同步(GFS、OCFS可以實現),數據的備份等等;資料庫的話可以考慮使用查詢緩存等等,這塊我也正在學習中,展開有很多東西;
7.程序的話也可以優化,比如如果是Java Web程序,並且使用了Hibernate框架,就可以考慮使用查詢緩存了;
8.硬體層:比如提高帶寬,購買高轉數性能好的硬碟等等;
9.緩存機制,緩存機制的種類很多,有頁面緩存(Squid),數據緩存(memcache),查詢緩存,編譯緩存(PHP是腳本語言在編譯時有編譯緩存).
10.資料庫IO是最大問題,所以現在又了NOSQL的解決方案,首先將數據寫入內存中,然後定時寫入硬碟
11.程序優化,增加執行效率,用更好的演算法等等。(採用分層,因為每個程序擅長處不一樣,比如JAVA適合做中間層,C++做底層,現在又流行一種node.js做中間層,可以加強執行效率,多線程,以及一些安全問題)
12.隊列系統,有些數據不要一來就馬上處理,做個隊列(先進先出),延遲處理。
9. PHP如何解決網站的大數據大流量與高並發
使用緩存,比如memcache,redis,因為它們是在內存中運行,所以處理數據,返回數據非常快,所以可以應對高並發。
2.增加帶寬和機器性能,1M的帶寬同時處理的流量肯定有限,所以在資源允許的情況下,大帶寬,多核cpu,高內存是一個解決方案。
3.分布式,讓多個訪問分到不同的機器上去處理,每個機器處理的請求就相對減少了。
簡單說些常用技術,負載均衡,限流,加速器等