1. 計算機網路-Http/Https基礎
一、前言
主要包括:1、http基礎:TCP/IP,TCP協議,IP協議,DNS協議,URI與URL;
2、http協議:http報文,http方法,http狀態碼,常見問題
名詞解釋:
(1)HTTP(HyperText Transfer Protocol)超文本傳輸協議
(2)URL(Uniform Resource Locator)統一資源定位符
(3)URI(Uniform Resource Identifer)統一資源標識符
(4)TCP(Transmission Control Protocol)傳輸控制協議
(5)IP(Internet Protocol)網際協議
(6)UDP(User Data Protocol)用戶數據報協議
(7)MAC地址(Media Access Control)媒體訪問控制地址/物理地址/硬體地址
(8)ARP協議(Address Resolution Protocol)地址解析協議
二、HTTP基礎
2.1TCP/IP
TCP/IP是互聯網相關的各類協議族的總稱,而http是TCP/IP協議族中的一個子集。
TCP/IP協議族可以分為四層:
(1)應用層:決定向用戶提供 應用服務時通信的活動 ,TCP/IP協議族內預存了各類通用的應用服務,如:http,ftp,dns等。
(2)傳輸層:提供處於網路連接中的兩台計算機之間的 數據傳輸 ,包含兩個協議:tcp,udp。
(3)網路層:用來處理 網路上流動的數據包 ,在眾多的選項中選擇一條傳輸線路,將數據包傳送到對方計算機。包含的協議:IP協議。
(4)數據鏈路層:用來 處理連接網路的硬體 部分。
2.2 IP協議
IP協議屬於網路層,負責處理網路上流動的數據包。為了保證傳送成功,需要滿足各類條件,其中兩個重要的條件時IP地址和MAC地址。
(1)IP地址,指明了節點被分配到的地址;
(2)MAC地址,指網卡所屬的固定地址;
(3)IP地址可以和MAC地址進行配對,IP地址可以變換,但是MAC地址基本上不會更改;
(4)使用ARP地址解析協議可以根據通信方的IP地址反查出對應的MAC地址
2.3 TCP協議
TCP協議位於傳輸層,提供 可靠的位元組流服務 (也就是說,將大數據分隔成以報文段為單位的數據包進行管理)。
為了確保數據准確無誤的到達目標處,TCP協議通常採用三次握手策略。
如果在握手的過程中某一個階段莫名的 中斷 了, TCP協議會再次以相同的順序發送相同的數據包 。
2.4DNS協議
DNS協議位於應用層,提供域名到IP地址之間的解析服務。
2.5 URI和URL
URI是某一個協議方案表示的 資源的定位標識符 ,協議方案是指訪問資源所使用的協議類型,如:http,ftp,file等。
URL用字元串標識某一個互聯網資源 ,而 URL表示資源的地點,URL是URI的子集。
2.6 HTTP協議
HTTP協議用於客戶端和伺服器端之間的通信。請求必定由客戶端發出,而伺服器端回復響應。
HTTP協議不保存狀態,為 無狀態協議 。這是為了更快的處理大量事務,確保協議的可伸縮性而特意設計的。
但是隨著Web的不斷發展,這一特性也引發了一些問題,如:如何保持登錄狀態、如何記錄用戶信息等,為了解決這一問題,引入了Cookie技術。
2.6.1常見狀態碼
2XX 成功
200 OK,表示從客戶端發來的請求在伺服器端被正確處理
204 No content,表示請求成功,但響應報文不含實體的主體部分
205 Reset Content,表示請求成功,但響應報文不含實體的主體部分,但是與 204 響應不同在於要求請求方重置內容
206 Partial Content,進行范圍請求
3XX 重定向
301 moved permanently,永久性重定向,表示資源已被分配了新的 URL
302 found,臨時性重定向,表示資源臨時被分配了新的 URL
303 see other,表示資源存在著另一個 URL,應使用 GET 方法獲取資源
304 not modified,表示伺服器允許訪問資源,但因發生請求未滿足條件的情況
307 temporary redirect,臨時重定向,和302含義類似,但是期望客戶端保持請求方法不變向新的地址發出請求
4XX 客戶端錯誤
400 bad request,請求報文存在語法錯誤
401 unauthorized,表示發送的請求需要有通過 HTTP 認證的認證信息
403 forbidden,表示對請求資源的訪問被伺服器拒絕
404 not found,表示在伺服器上沒有找到請求的資源
5XX 伺服器錯誤
500 internal sever error,表示伺服器端在執行請求時發生了錯誤
501 Not Implemented,表示伺服器不支持當前請求所需要的某個功能
503 service unavailable,表明伺服器暫時處於超負載或正在停機維護,無法處理請求
2.6.2HTTP報文頭部(HTTP首部)
| 通用欄位 | ** 作用** |
| Cache-Control | 控制緩存的行為 |
| Connection | 瀏覽器想要優先使用的連接類型,比如:keep-alive |
| Date | 創建報文時間 |
| Pragma | 報文指令 |
| Via | 代理伺服器相關信息 |
| Transfer-Encoding | 傳輸編碼方式 |
| Upgrade | 要求客戶端升級協議 |
| Warning | 在內容中可能存在錯誤 |
| ** 請求欄位** | ** 作用** |
| Accept | 能正確接收的媒體類型 |
| Accept-Charset | 能正確接收的字元集 |
| Accept-Encoding | 能正確接收的編碼格式列表 |
| Accept-Language | 能正確接收的語言列表 |
| Expect | 期待服務端的指定行為 |
| From | 請求方郵箱地址 |
| Host | 伺服器的域名 |
| If-Match | 兩端資源標記比較 |
| If-Modified-Since | 本地資源未修改返回 304(比較時間) |
| If-None-Match | 本地資源未修改返回 304(比較標記) |
| User-Agent | 客戶端信息 |
| Max-Forwards | 限制可被代理及網關轉發的次數 |
| Proxy-Authorization | 向代理伺服器發送驗證信息 |
| Range | 請求某個內容的一部分 |
| Referer | 示瀏覽器所訪問的前一個頁面 |
| TE | 傳輸編碼方式 |
| 響應欄位 | 作用 |
| Accept-Ranges | 是否支持某些種類的范圍 |
| Age | 資源在代理緩存中存在的時間 |
| ETag | 資源標識 |
| Location | 客戶端重定向到某個 URL |
| Proxy-Authenticate | 向代理伺服器發送驗證信息 |
| Server | 伺服器名字 |
| WWW-Authenticate | 獲取資源需要的驗證信息 |
| 實體欄位 | 作用 |
| Allow | 資源的正確請求方式 |
| Content-Encoding | 內容的編碼格式 |
| Content-Language | 內容使用的語言 |
| Content-Length | request body 長度 |
| Content-Location | 返回數據的備用地址 |
| Content-MD5 | Base64加密格式的內容 MD5檢驗值 |
| Content-Range | 內容的位置范圍 |
| Content-Type | 內容的媒體類型 |
| Expires | 內容的過期時間 |
| Last_modified | 內容的最後修改時間 |
2.6.3 HTTP方法
三****、HTTPS基礎
HTTPS 還是通過了 HTTP 來傳輸信息,但是信息通過 TLS 協議進行了加密。
3.1 TLS
TLS 協議位於傳輸層之上,應用層之下。首次進行 TLS 協議傳輸需要兩個 RTT ,接下來可以通過 Session Resumption 減少到一個 RTT。(RTT表示發送端發送數據到接收到對端數據所需的往返時間)
在 TLS 中使用了兩種加密技術,分別為:對稱加密和非對稱加密。
對稱加密:
對稱加密就是兩邊擁有相同的秘鑰,兩邊都知道如何將密文加密解密。
非對稱加密:
有公鑰私鑰之分,公鑰所有人都可以知道,可以將數據用公鑰加密,但是將數據解密必須使用私鑰解密,私鑰只有分發公鑰的一方才知道。
3.2 TLS 握手過程如下圖:
(1)客戶端發送一個隨機值,需要的協議和加密方式
(2)服務端收到客戶端的隨機值,自己也產生一個隨機值,並根據客戶端需求的協議和加密方式來使用對應的方式,發送自己的證書(如果需要驗證客戶端證書需要說明)
(3)客戶端收到服務端的證書並驗證是否有效,驗證通過會再生成一個隨機值,通過服務端證書的公鑰去加密這個隨機值並發送給服務端,如果服務端需要驗證客戶端證書的話會附帶證書
(4)服務端收到加密過的隨機值並使用私鑰解密獲得第三個隨機值,這時候兩端都擁有了三個隨機值,可以通過這三個隨機值按照之前約定的加密方式生成密鑰,接下來的通信就可以通過該密鑰來加密解密
通過以上步驟可知,在 TLS 握手階段,兩端使用非對稱加密的方式來通信,但是因為非對稱加密損耗的性能比對稱加密大,所以在 正式傳輸數據 時,兩端使用 對稱加密 的方式通信。
PS:以上說明的都是 TLS 1.2 協議的握手情況 ,在 1.3 協議中,首次建立連接只需要一個 RTT,後面恢復連接不需要 RTT 了。
四、GET和POST的區別
從技術上說:
1、get請求能緩存,post不能;
2、post相對於get來說,安全一點點,因為get請求都會包含在URL里,會被瀏覽器保存歷史記錄,post不會,但是在抓包的情況是一樣的。
3、post可以request body來傳遞比get更多的數據,get米有這個技術。
4、url長度有限制,會影響get請求,長度限制是瀏覽器限制規定的,不是rfc(互聯網通信協議)規定的。
5、post支持更多的 編碼類型 且不對 數據類型 限制
2. 在計算機網路中怎樣抓包
計算機網路里抓包就是將網路傳輸發送與接收的數據包進行截獲、重發、編輯、轉存等操作,也用來檢查網路安全等等。
以Sniffer軟體為例說明:數據在網路上是以很小的稱為幀(Frame)的單位傳輸的,幀由幾部分組成,不同的部分執行不同的功能。幀通過特定的稱為網路驅動程序的軟體進行成型,然後通過網卡發送到網線上,通過網線到達它們的目的機器,在目的機器的一端執行相反的過程。接收端機器的乙太網卡捕獲到這些幀,並告訴操作系統幀已到達,然後對其進行存儲。就是在這個傳輸和接收的過程中,嗅探器會帶來安全方面的問題。每一個在區域網(LAN)上的工作站都有其硬體地址,這些地址惟一地表示了網路上的機器(這一點與Internet地址系統比較相似)。當用戶發送一個數據包時,如果為廣播包,則可達到區域網中的所有機器,如果為單播包,則只能到達處於同一碰撞域中的機器。在一般情況下,網路上所有的機器都可以「聽」到通過的流量,但對不屬於自己的數據包則不予響應(換句話說,工作站A不會捕獲屬於工作站B的數據,而是簡單地忽略這些數據)。如果某個工作站的網路介面處於混雜模式(關於混雜模式的概念會在後面解釋),那麼它就可以捕獲網路上所有的數據包和幀。
3. wireshark鎬庝箞鎶撳寘
wireshark鎶撳寘鏂規硶濡備笅錛
鎿嶄綔璁懼囷細鑱旀兂絎旇版湰鐢佃剳銆
璁懼囩郴緇燂細Win10緋葷粺銆
鎿嶄綔杞浠訛細wireshark 2.6.5銆
1銆佸湪鐢佃剳涓錛屾墦寮wireshark杞浠躲
4. 計算機網路——應用層-Web&HTTP
計算機網路系列博文——目錄
20世紀90年代初
網際網路應用
Web應用的組成
由對象組成。對象是一個文件,如HTML文件,JPEG圖像,Java程序,視頻片段等。
對象可通過一個URL地址定址。
Web頁面常由一個HTML基本文件和多個引用對象構成。
URL(Uniform Resoure Locator):統一資源定位器 RFC1738
用以定址Web對象
由一個存放對象的伺服器主機名和對象路徑名構成。
HTTP 由客戶端程序和服務端程序實現,二者通過交換HTTP報文會話。
HTTP規范定義了HTTP客戶端和服務端之間的通信協議。
Web瀏覽器實現HTTP客戶端,請求、接收、展示Web對象
Web伺服器實現HTTP服務端,響應客戶的請求,發送對象
HTTP使用TCP作為支撐運輸層協議。
埠:80
無狀態協議 伺服器不保存關於客戶的任何信息
伺服器向客戶發送被請求的文件,而不存儲任何關於客戶的狀態信息。
往返時間(Round-Trip Time,RTT)
一個短分組從客戶到伺服器然後再返回客戶所花費的時間。
某客戶和伺服器的一次會話中,每個請求/響應對通過一個單獨的TCP連接傳輸
HTTP 1.0版本使用非持續性連接
對多個待獲得的web對象,客戶端一次只請求一個對象,待前一個對象接收完畢後再發送對下一個對象的請求。
時間分析
瀏覽器通常支持並行的TCP連接。並行TCP連接數通常為5~10個。
對多個待獲得的web對象,客戶端一次可同時建立多個TCP連接,以同時請求多個web對象。
時間分析
某客戶和伺服器的一次會話中,所有請求/響應對經同一TCP連接傳輸
HTTP 1.1版本在默認方式下採用持續連接,但也可由客戶端/伺服器配置為非持續連接。
客戶端只有收到前一個響應後才發送新的請求
可理解為同個TCP內的串列
時間分析
客戶端只要遇到一個引用對象就盡快發出請求
可理解為同個TCP內的並行
HTTP 1.1的默認選項
時間分析
TCP 三次握手
1.客戶向伺服器發送一個小TCP報文段;
2.伺服器用一個小TCP報文段做出確認和響應;
3.客戶向伺服器返回確認和一個HTTP請求報文;
4.伺服器返回相應HTML文件;
HTTP規范
RFC 1945 , RFC 2616
用ASCII文本書寫
HTTP協議有兩類消息,請求消息(request)和響應消息(response)
請求行 HTTP請求報文的第一行
方法
首部行 請求行後繼的其它行,包含一些會話信息
空行 回車換行,分隔首部行和實體體
實體體(entity body)
GET方法下實體體為空
POST方法下實體體包含表單信息
狀態行
常見狀態碼
首部行
空行
實體體
包含了所請求的對象
HTTP是無狀態協議,但cookie技術允許伺服器識別用戶
cookie在無狀態的HTTP之上建立一個用戶會話層
參見 [RFC 6265]
cookie組件
cookie技術的爭議在於它可能泄露用戶的隱私
代表原Web伺服器來響應HTTP請求的網路實體
Web緩沖器通常由ISP購買並安裝
允許緩存器證實其緩存的副本是新的。
如果緩存器有web對象最新的版本,則初始伺服器不需要向緩存器發送該web對象
在HTTP請求消息中聲明所持有版本的日期
If-modified-since: <date>
如果緩存的版本是最新的,則響應消息中不包含對象
HTTP/1.0 304 Not Modified
內容分發網路(Content Distribution Network,CDN)
基於緩存器技術,CDN公司在網際網路上安裝許多地理上分散的緩存器,使得大流量本地化。
有共享CDN(Akamai,Limelight),專用CDN(谷歌,微軟)
5. 如何用python爬取網站數據
這里簡單介紹一下吧,以抓取網站靜態、動態2種數據為慧返拍例,實驗環境win10+python3.6+pycharm5.0,主要內容如下:
抓取網站靜態數據(數據在網頁源碼中):以糗事網路網站數據為例
1.這里假設我們抓取的數據如下,主要包括用戶昵稱、內容、好笑數和評論數這4個欄位,如下:
對應的網頁源碼如下,包含我們所需要的數據:
2.對應網頁結構,主要代碼如下,很簡單,主要用到requests+BeautifulSoup,其中requests用於請求頁面,BeautifulSoup用於解析頁面:
程序運行截圖如下,已經成功爬取到數據:
抓取網站動態數據(數據不在網頁源碼中,json等文件中):以人人貸網站數據為例
1.這里假設我們爬取的是債券數據,主要包括年利率世型、借款標題、期限、金額和進度這5個欄位信息,截圖如下:
打開網頁源碼中,可以發現數據不在網頁源碼中,按F12抓包分析時,才發現在一個json文件中,如下:
2.獲取到json文件的url後,我們就可以爬取對應數據了,這里使用的包與上面類似,因為是json文件,所以還用了json這個包(解析json),主要內容如下:
程序運行截圖如下,前羨已經成功抓取到數據:
至此,這里就介紹完了這2種數據的抓取,包括靜態數據和動態數據。總的來說,這2個示例不難,都是入門級別的爬蟲,網頁結構也比較簡單,最重要的還是要會進行抓包分析,對頁面進行分析提取,後期熟悉後,可以藉助scrapy這個框架進行數據的爬取,可以更方便一些,效率更高,當然,如果爬取的頁面比較復雜,像驗證碼、加密等,這時候就需要認真分析了,網上也有一些教程可供參考,感興趣的可以搜一下,希望以上分享的內容能對你有所幫助吧。