我已經(jīng)努力了一段時(shí)間,試圖為以下任務(wù)取得正確的正規(guī)表示式:
我想使用 python 從 html 檔案中的表格標(biāo)籤中刪除資料。為此,我的方法是遞歸執(zhí)行以下操作(將標(biāo)籤之間的 HTML 行儲(chǔ)存為字串):
s = "
s = re.sub('<{1}(不是 '<' 也不是 '>').*>{1}', '', s)
我的問(wèn)題是如何實(shí)現(xiàn)括號(hào)中粗體部分。謝謝。 您的文字
我試過(guò)了
import re test_str = '<td style="color:blue">Hello</td>' test_str = re.sub('<{1}^[<>].*>{1}','',test_str) print(test_str)
你可以看到我的測(cè)試字串保持不變。我做錯(cuò)了什麼?
上面的程式碼我期望給我 test_str =“Hello”,我會(huì)將其回饋給此方法,然後提取“”,給我“Hello”。
要否定字元類,應(yīng)將 ^
放在 [
之後。此外,您不需要為出現(xiàn)一次的字元指定 {1}
。
test_str = re.sub('<[^<>]*>', '', test_str)
但是,請(qǐng)注意,使用像 BeautifulSoup 這樣的專用 HTML 解析器而不是正規(guī)表示式來(lái)從 HTML 取得資料更為合適。