同樣的程式碼在 Notepad 環(huán)境(測(cè)試過(guò)記事本)過(guò)不了,在 Pycharm 可以過(guò)( Python3.5 )
程式碼:
import urllib
import urllib.request
url = "http://www.baidu.com"
data = urllib.request.urlopen(url).read()
data = data.decode('UTF-8')
這句話,兩個(gè)環(huán)境都可以過(guò)
data.decode('gbk', 'ignore').encode('UTF-8')
print(data)
在 Pycharm 顯示爬出的網(wǎng)頁(yè),在 cmd 視窗顯示
UnicodeEncodeError: 'gbk' codec can't encode character 'xbb' in position 26830:
illegal multibyte sequence
#必須移除無(wú)效字元。
import urllib
import urllib.request
url = "http://www.baidu.com"
data = urllib.request.urlopen(url).read()
data.decode('gbk', 'ignore').encode('UTF-8')
print(data)
這樣可以過(guò),求解釋
你遇到的可能跟我一樣是python編碼問(wèn)題,或是使用的terminal的編碼支援問(wèn)題??纯聪旅娴膯?wèn)題。
【python編碼問(wèn)題? 】分享自@SegmentFault,傳送門:/q/10...