在用python做CSDN的網(wǎng)頁(yè)爬蟲(chóng),在爬取網(wǎng)頁(yè)title時(shí),我一直用的正規(guī)表示式(?<=\<title\>). ?(?=\< )
在CSDN中用不了了,去CSDN源碼一看,title換行顯示了
所以導(dǎo)致原來(lái)的正規(guī)表示式無(wú)法使用,那麼,問(wèn)題來(lái)了,像這樣網(wǎng)頁(yè)title中包含換行,如何用正規(guī)表示式提取出來(lái)呢?
PS:
不想用xpath或beautifulsoup的方法,只需要正規(guī)哦
#CSDN本身有反爬蟲(chóng)機(jī)制,我並不是因?yàn)檫@隻反爬蟲(chóng)而爬不到title的哦
謝謝大家
參考@caimaoy 的方法,我將正規(guī)表示式改為(?<=\<title\>)(?:.|\n) ?(?=\<)
後,title完美提取。
再次感謝大家。
re.M 多行模式
自己寫(xiě)多行配對(duì) http://python3-cookbook.readt...
表達(dá)式那邊加個(gè)flag
吧
tite = '......'
print(re.findall('(?<=\<title\>).+?(?=\<)', title, re.S))