① 如何用python分析網站日誌
#coding:utf-8
#file: FileSplit.py
import os,os.path,time
def FileSplit(sourceFile, targetFolder):
sFile = open(sourceFile, 'r')
number = 100000 #每個小文件中保存100000條數據
dataLine = sFile.readline()
tempData = [] #緩存列表
fileNum = 1
if not os.path.isdir(targetFolder): #如果目標目錄不存在,則創建
os.mkdir(targetFolder)
while dataLine: #有數據
for row in range(number):
tempData.append(dataLine) #將一行數據添加到列表中
dataLine = sFile.readline()
if not dataLine :
break
tFilename = os.path.join(targetFolder,os.path.split(sourceFile)[1] + str(fileNum) + ".txt")
tFile = open(tFilename, 'a+') #創建小文件
tFile.writelines(tempData) #將列表保存到文件中
tFile.close()
tempData = [] #清空緩存列表
print(tFilename + " 創建於: " + str(time.ctime()))
fileNum += 1 #文件編號
sFile.close()
if __name__ == "__main__" :
FileSplit("access.log","access")
#coding:utf-8
#file: Map.py
import os,os.path,re
def Map(sourceFile, targetFolder):
sFile = open(sourceFile, 'r')
dataLine = sFile.readline()
tempData = {} #緩存列表
if not os.path.isdir(targetFolder): #如果目標目錄不存在,則創建
os.mkdir(targetFolder)
while dataLine: #有數據
p_re = re.compile(r'(GET|POST)\s(.*?)\sHTTP/1.[01]',re.IGNORECASE) #用正則表達式解析數據
match = p_re.findall(dataLine)
if match:
visitUrl = match[0][1]
if visitUrl in tempData:
tempData[visitUrl] += 1
else:
tempData[visitUrl] = 1
dataLine = sFile.readline() #讀入下一行數據
sFile.close()
tList = []
for key,value in sorted(tempData.items(),key = lambda k:k[1],reverse = True):
tList.append(key + " " + str(value) + '\n')
tFilename = os.path.join(targetFolder,os.path.split(sourceFile)[1] + "_map.txt")
tFile = open(tFilename, 'a+') #創建小文件
tFile.writelines(tList) #將列表保存到文件中
tFile.close()
if __name__ == "__main__" :
Map("access\\access.log1.txt","access")
Map("access\\access.log2.txt","access")
Map("access\\access.log3.txt","access")
#coding:utf-8
#file: Rece.py
import os,os.path,re
def Rece(sourceFolder, targetFile):
tempData = {} #緩存列表
p_re = re.compile(r'(.*?)(\d{1,}$)',re.IGNORECASE) #用正則表達式解析數據
for root,dirs,files in os.walk(sourceFolder):
for fil in files:
if fil.endswith('_map.txt'): #是rece文件
sFile = open(os.path.abspath(os.path.join(root,fil)), 'r')
dataLine = sFile.readline()
while dataLine: #有數據
subdata = p_re.findall(dataLine) #用空格分割數據
#print(subdata[0][0]," ",subdata[0][1])
if subdata[0][0] in tempData:
tempData[subdata[0][0]] += int(subdata[0][1])
else:
tempData[subdata[0][0]] = int(subdata[0][1])
dataLine = sFile.readline() #讀入下一行數據
sFile.close()
tList = []
for key,value in sorted(tempData.items(),key = lambda k:k[1],reverse = True):
tList.append(key + " " + str(value) + '\n')
tFilename = os.path.join(sourceFolder,targetFile + "_rece.txt")
tFile = open(tFilename, 'a+') #創建小文件
tFile.writelines(tList) #將列表保存到文件中
tFile.close()
if __name__ == "__main__" :
Rece("access","access")
② 如何用python實現世紀佳緣的模擬登陸
1)打開【世紀佳緣】app,點擊右上角的【...】。 2)點擊【注銷登錄】,然後點擊【退出】就可以啦。
③ 如何用python解析一個網頁並提取其內容
用程序模擬訪問網頁獲得網頁內容的話就用urllib和urllib2來模擬請求
若是要截取網頁中的部分內容,那就先獲得全部html內容,然後直接用re根據html標簽來匹配分段,然後獲取
④ 如何用python爬取視頻網站的數據
1.模擬客戶端數據採集,分析http返回結果,清洗需要的數據,入庫。
2.根據已有數據進行計算,實現增長率之類的數據計算。
3.實時性很難做,你當然可以不停的采數據回來,做個偽實時系統,但需要考慮這些網站是否做了客戶端訪問次數的限制,你需要考慮在採集器達到訪問次數上限之前所採集的數據能否滿足你的要求,否則就要被封IP了。
⑤ 如何用python解析網頁並獲得網頁真實的源碼
Python 2.7版本的話 代碼如下:
#!/usr/bin/env python
# -*- coding:utf8 -*-
import urllib
import urllib2
import string
import re
addr1 = 某個網址的地址(string format)
response1 = urllib.urlopen(addr1)
text1 = response1.read()
response1.close()
text1就是網頁的源代碼,可以print出來看。UTF8的代碼是為了確保能正確抓取中文。
⑥ 如何用Python做情感分析
可以使用snownlp包,也可以用nltk 和 scikit-learn 結合,或者自己寫演算法實現。
簡單話就是情感詞典的匹配,想提高效果的需要考慮特徵之間的搭配,語法順序等,可以查詢搜索相關的入門例子和演算法詳細了解。
⑦ 如何用 Python 爬取社交網路
從資料庫中拿出用戶id列表,批量爬取一批用戶id的微博數據,然後保存相應的內容到資料庫中。可以動態爬取,每天開個定時啟動任務,自動會爬取數據有無更新,有更新則更新資料庫。
如需要爬取單個用戶,注釋掉那部分代碼即可。
我沒有用Scrapy框架,手寫的,解析並不復雜,用的BS4,注意要手動登錄,獲取cookie。
微博反爬策略還是比較強的,用API的方式限制真的太多了,完全做不到想要什麼就爬什麼。
PC端的數據比較難分析,它把數據放到script標簽塊中,用瀏覽器去渲染出來的,直接抓是拿不到的,要分析script標簽塊。
最好爬的一種就是移動端網頁,http://weibo.cn,數據格式簡單,限制也少。
⑧ 如何用Python編網站
隨著人工智慧時代呼聲漸起,Python憑借其入門簡單、應用廣泛的優勢成為很多想要入行互聯網行業的人們的首選編程語言。如果你想學一門語言,可以從語言的適用性、學習的難易程度、企業主的要求幾個方面考慮。從這幾個角度看,學習Python都沒有什麼可挑剔的。
如果你想要專業的學習Python開發,更多需要的是付出時間和精力,一般在2w左右,時間在4-6個月左右。可以根據自己的實際需求去實地看一下,先好好試聽之後,再選擇適合自己的。只要努力學到真東西,前途自然不會差。
⑨ 如何學習python用於做網站數據抓取以及大數據分析
數據抓取和數據分析是Python的應用領域,學習Python都可以做這些工作的,同時還可以從事人工智慧、科學運算、游戲開發等領域。
學習Python可以自學也可以報名培訓班學習,自學的話周期比較長,容易半途而廢,報名培訓班學習的話,學習周期一般在六個月之中,從入門到精通,更加貼合企業的需求,您可以根據自己的情況來決定。
同時在學習Python過程中需要自己付出努力和時間,沒事干多敲敲代碼、多練習、多交流。