国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

首頁 php教程 php手冊 PHP+Tidy-完美的XHTML糾錯+過濾

PHP+Tidy-完美的XHTML糾錯+過濾

Jun 13, 2016 pm 12:32 PM
xhtml 功能 基本 數(shù)位 使用者 糾錯 網(wǎng) 美的 輸入 輸出

輸入和輸出
輸入和輸出應該說是很多網(wǎng)站的基本功能。用戶輸入數(shù)據(jù),網(wǎng)站輸出數(shù)據(jù)供其他人瀏覽。

拿目前流行的Blog為例,這里的輸入輸出就是作者編輯文章后生成博客文章頁面供他人閱讀。
這里有一個問題,即用戶輸入通常是不受控制的,它可能包含不正確的格式亦或者含有有安全隱患的代碼;而最終網(wǎng)站輸出的內(nèi)容卻必須是正確的HTML代碼。這就需要對用戶輸入的內(nèi)容進行糾錯和過濾。

永遠不要相信用戶的輸入
你可能會說:現(xiàn)在到處都是所見即所得的編輯器(WYSIWYG),F(xiàn)CKeditor、TinyMCE...你可能會舉出一大堆。是的,它們都可以自動生成標準的XHTML代碼,但是作為web開發(fā)人員,你肯定聽過"永遠不要相信用戶遞交的數(shù)據(jù)"。

因此對用戶輸入數(shù)據(jù)進行糾錯和過濾是必需的。

需要更好的糾錯和過濾
目前為止我還沒見過有讓我滿意的相關(guān)實現(xiàn),能接觸到的通常都是效率低下、效果不太理想,有這樣那樣的明顯缺陷。舉個比較知名的例子:WordPress是一種使用非常廣泛的blog系統(tǒng),操作簡單功能強大且有豐富的插件支持,但是它集成的TinyMCE和后臺一堆有些自作聰明的糾錯過濾代碼卻令人相當頭痛,對半角字符的強制替換,過于保守的替換規(guī)則等等.....導致像貼一段代碼讓它正確顯示這種需求都很難做到。

這里順便抱怨一下,這個blog是用WordPress架的,為了讓這幾篇文章能正確顯示代碼,網(wǎng)上搜了很多也試用了一些插件,最終還是翻了它的代碼把一些過濾規(guī)則注釋掉才勉強可以顯示得體面一點?-.-b?

當然,我不想過多的指責它(wordpress),只是想說明它還可以做的更好。

Tidy是什么,它如何工作?
摘自Tidy?ManPage的說明這樣描述:

Tidy?reads?HTML,?XHTML?and?XML?files?and?writes?cleaned?up?markup.?For?HTML?variants,?it?detects?and?corrects?many?common?coding?errors?and?strives?to?produce?visually?equivalent?markup?that?is?both?W3C?compliant?and?works?on?most?browsers.?A?common?use?of?Tidy?is?to?convert?plain?HTML?to?XHTML.?For?generic?XML?files,?Tidy?is?limited?to?correcting?basic?well-formedness?errors?and?pretty?printing.?

簡單說Tidy是清理HTML代碼的,生成干凈的符合W3C標準的HTML代碼,支持HTML,XHTML,XML。Tidy提供一個庫TidyLib,以方便在其他應用中利用Tidy的強大功能。非常幸運,PHP有相應的tidy模塊可以使用。

老兄,為什么又是PHP?
呃,這個問題...?慚愧,因為我只會那么點PHP而已?-.-v
不過還好,我這里講的都不是純粹的代碼,好歹也有些分析的過程,分享這些東西比貼代碼有用多了。

PHP中使用Tidy
要在PHP中使用Tidy需要安裝Tidy模塊,也就是加載tidy.so這個PHP?extension,具體過程就略了,純粹是體力活。最后能在phpinfo()中看到"Tidy?support?enabled"?就OK。

在這個模塊的支持下,PHP中就可以使用Tidy提供的幾乎所有的功能。常用的HTML清理是異常輕松的事情,甚至可以生成文檔的解析樹,像在客戶端操作DOM那樣的操作HTML的各個Node。下面將會有具體的代碼說明,也可以看看PHP官方的相關(guān)手冊。

糾錯和過濾的PHP+Tidy實現(xiàn)
上面說了這么多背景素材,似乎太羅唆了,具體的解決問題的代碼才最最直接。

1.?簡單的糾錯實現(xiàn)

function?HtmlFix($html)
{

??if(!function_exists('tidy_repair_string'))
????return?$html;
??//use?tidy?to?repair?html?code

??//repair
??$str?=?tidy_repair_string($html,
???????????????????array('output-xhtml'=>true),
???????????????????'utf8');
??//parse
??$str?=?tidy_parse_string($str,
??????????????????array('output-xhtml'=>true),
??????????????????'utf8');
??$s?=?'';

??$nodes?=?@tidy_get_body($str)->child;

??if(!is_array($nodes)){
????$returnVal?=?0;
????return?$s;
??}

??foreach($nodes?as?$n){
????$s?.=?$n->value;
??}
??return?$s;
}
上面的代碼就是對可能不規(guī)范的XHTML代碼進行清理糾錯,輸出標準的XHTML代碼(輸入輸出都是UTF-8編碼)。實現(xiàn)代碼不是最精簡的,因為為了配合下面的過濾功能,我寫的盡可能細致了一些。

2.?高級實現(xiàn):?糾錯+過濾

功能:?

XHTML的糾錯,輸出標準的XHTML代碼。?
過濾不安全的代碼但是不影響內(nèi)容展示,只是對style/javascript中不安全代碼進行清除。?
對超長字符串插入標記以實現(xiàn)瀏覽器兼容的自動換行功能,相關(guān)文章可參考網(wǎng)頁中超長文字的斷行問題。?
function?HtmlFixSafe($html)
{

??if(!function_exists('tidy_repair_string'))
????return?$html;
??//use?tidy?to?repair?html?code

??//?tidy?的參數(shù)設(shè)定
??$conf?=?array(
????????????????'output-xhtml'=>true
????????????????,'drop-empty-paras'=>FALSE
????????????????,'join-classes'=>TRUE
????????????????,'show-body-only'=>TRUE
????????????????);

?//repair
??$str?=?tidy_repair_string($html,$conf,'utf8');
??//生成解析樹
??$str?=?tidy_parse_string($str,$conf,'utf8');

??$s?='';

??//得到body節(jié)點
??$body?=?@tidy_get_body($str);

??//函數(shù)?_dumpnode,檢查每個節(jié)點,過濾后輸出
??function?_dumpnode($node,&$s){

???//查看節(jié)點名,如果是<script> 和<style>就直接清除 <BR> switch($node->name){ <BR> case 'script': <BR> case 'style': <BR> return; <BR> break; <BR> default: <BR> } <br><br> if($node->type == TIDY_NODETYPE_TEXT){ <BR> /* <BR> 如果該節(jié)點內(nèi)是文字,做額外的處理: <BR> 過長文字的自動換行問題; <BR> 超鏈接的自動識別(未實現(xiàn)) <BR> */ <BR> // insert <wbr> <BR> $s .= HtmlInsertWbrs($node->value,30,'','&?/\'); <br><br> // auto links ??? *** TODO *** <BR> return; <BR> } <br><br> //不是文字節(jié)點,那么處理標簽和它的屬性 <BR> $s .= '<'.$node->name; <br><br> //檢查每個屬性 <BR> if($node->attribute){ <BR> foreach($node->attribute as $name=>$value){ <br><br> /* <BR> 清理一些DOM事件,通常是on開頭的, <BR> 比如onclick onmouseover等.... <BR> 或者屬性值有javascript:字樣的, <BR> 比如href="javascript:"的也被清除. <BR> */ <BR> if(strpos($name,'on') === 0 <br><br> stripos(trim($value),'javascript:') ===0 <BR> ){ <BR> continue; <BR> } <br><br> //保留安全的屬性 <BR> $s .= ' '.$name.'="'.HtmlEscape($value).'"'; <br><br> } <BR> } <br><br> //遞歸檢查該節(jié)點下的子節(jié)點 <BR> if($node->child){ <br><br> $s .= '>'; <br><br> foreach($node->child as $child){ <BR> _dumpnode($child,$s); <BR> } <br><br> //子節(jié)點處理完畢,閉合標簽 <BR> $s .= '</'.$node->name.'>'; <BR> }else{ <br><br> /* <BR> 已經(jīng)沒有子節(jié)點了,將標簽閉合 <BR> (事實上也可以考慮直接刪除掉空的節(jié)點) <BR> */ <BR> if($node->type == TIDY_NODETYPE_START) <BR> $s .= '></'.$node->name.'>'; <BR> else <BR> /* <BR> 對非配對標簽,比如<hr/> <br/> <img / alt="PHP+Tidy-完美的XHTML糾錯+過濾" >等 <BR> 直接以 />閉合之 <BR> */ <BR> $s .= '/>'; <BR> } <BR> } <BR> //函數(shù)定義end <br><br> //通過上面的函數(shù) 對 body節(jié)點開始過濾。 <BR> if($body->child){ <br><br> foreach($body->child as $child) <BR> _dumpnode($child,$s); <BR> }else <BR> return ''; <br><br> return $s; <BR>} <BR>上面代碼中注釋應該比較詳細,工作原理就配合代碼看吧。 <BR>更嚴格的過濾也很容易擴展,比如實現(xiàn)文中的鏈接自動識別。 <br><br><BR>一點補充 <br><br>如果你看過我之前寫的網(wǎng)頁中超長文字的斷行問題,你可能發(fā)現(xiàn)上面代碼中處理自動換行的函數(shù)有所不同: <br><br>之前介紹的是HtmlEscapeInsertWbrs(),而上面使用的是HtmlInsertWbrs()。 <br><br>這里要做一下解釋: <BR>HtmlEscapeInsertWbrs()要求輸入的字符串未作特殊字符轉(zhuǎn)義的,也就是沒有經(jīng)過htmlspecialchars()對<>&等作<>&處理的。因為函數(shù)內(nèi)部有專門的處理。 <BR>而在處理經(jīng)Tidy處理過后的文字節(jié)點的時候,因為Tidy的關(guān)系,已經(jīng)自動把<>&等字符作相應的<>&轉(zhuǎn)義,因此需要用一個專門的函數(shù)避免重復的轉(zhuǎn)義,這個函數(shù)就是HtmlInsertWbrs(),從名字上就知道它只插入<wbr>標記,不做額外工作。 <br><br>那么你可能有個問題: <BR>如果<wbr>被插入到HTML標簽中間,比如在<div>或者>的中間插入了<wbr>,變成<d<wbr>iv>和&<wbr>gt;,那就會影響到原始信息的展示。 <br><br>沒錯,的確是個新問題,不過使用一些技巧就可以有效解決: <br><br>因為我們處理的是Tidy得到的文字節(jié)點,意味著不可能碰到HTML標簽,因此不會碰到在標簽中間插入<wbr>的情況。 <BR>對于第二種情況,轉(zhuǎn)義后的字符都是&xxxxx;這樣的形式,那么只要在1所有&符號前面都插入<wbr>標記就可以了(注意看調(diào)用時的第四個參數(shù)),因為下一個<wbr>標記將會插在30(以上面代碼中實際調(diào)用的第二個參數(shù)為例)個字符之后,這個已經(jīng)2遠遠大于xxxxx的長度。這樣由上面1、2兩點可以保證不會插到轉(zhuǎn)義字符的中間。 <BR>下面給出HtmlInsertWbrs()的PHP實現(xiàn): <br><br>function HtmlInsertWbrs($str, $n=10, <BR> $chars_to_break_after='',$chars_to_break_before='') <BR>{ <BR> $out = ''; <BR> $strpos = 0; <BR> $spc = 0; <BR> $len = mb_strlen($str,'UTF-8'); <BR> for ($i = 1; $i < $len; ++$i) { <BR> $prev_char = mb_substr($str,$i-1,1,'UTF-8'); <BR> $next_char = mb_substr($str,$i,1,'UTF-8'); <BR> if (_u_IsSpace($next_char)) { <BR> $spc = $i; <BR> } else { <BR> if ($i - $spc == $n <br><br> mb_strpos( $chars_to_break_after, <BR> $prev_char,0,'UTF-8' ) <BR> !== FALSE <br><br> mb_strpos( $chars_to_break_before, <BR> $next_char,0,'UTF-8') <BR> !== FALSE <BR> ) { <BR> $out .= mb_substr($str,$strpos, <BR> $i-$strpos,'UTF-8') <BR> . '<wbr>'; <BR> $strpos = $i; <BR> $spc = $i; <BR> } <BR> } <BR> } <BR> $out .= mb_substr($str,$strpos,$len-$strpos,'UTF-8'); <BR> return $out; <BR>} <BR>... <BR>Ok,先寫這么多,相關(guān)的資料在文中都有鏈接。 <BR>下次想到再補充。 <BR> </script>

本網(wǎng)站聲明
本文內(nèi)容由網(wǎng)友自願投稿,版權(quán)歸原作者所有。本站不承擔相應的法律責任。如發(fā)現(xiàn)涉嫌抄襲或侵權(quán)的內(nèi)容,請聯(lián)絡(luò)admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅(qū)動的應用程序,用於創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺化網(wǎng)頁開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

美的推出首款DeepSeek空調(diào):AI語音交互 可實現(xiàn)40萬 條指令! 美的推出首款DeepSeek空調(diào):AI語音交互 可實現(xiàn)40萬 條指令! Mar 12, 2025 pm 12:18 PM

美的即將發(fā)布搭載DeepSeek大模型的首款空調(diào)——美的鮮凈感空氣機T6,發(fā)布會定于3月1日下午1點30分舉行。這款空調(diào)配備先進的空氣智駕系統(tǒng),可根據(jù)環(huán)境智能調(diào)節(jié)溫度、濕度和風速等參數(shù)。更重要的是,它集成了DeepSeek大模型,支持超過40萬條AI語音指令。美的此舉引發(fā)業(yè)界熱議,尤其關(guān)注白電產(chǎn)品與大模型結(jié)合的意義。不同于傳統(tǒng)空調(diào)簡單的溫度設(shè)定,美的鮮凈感空氣機T6能夠理解更復雜、更模糊的指令,并根據(jù)家庭環(huán)境智能調(diào)節(jié)濕度等,顯著提升用戶體驗。

GateToken(GT)幣是什麼? GT幣功能及代幣經(jīng)濟學介紹 GateToken(GT)幣是什麼? GT幣功能及代幣經(jīng)濟學介紹 Jul 15, 2024 pm 04:36 PM

GateToken(GT)幣是什么?GT(GateToken)是GateChain的鏈上原生資產(chǎn),也是Gate.io的官方平臺幣。GT幣的價值與Gate.io及GateChain生態(tài)的發(fā)展息息相關(guān)。什么是GateChain?GateChain誕生于2018年,是Gate.io所推出的新一代高性能公鏈。GateChain專注于保護用戶的鏈上資產(chǎn)安全,并提供便捷的去中心化交易服務。GateChain的目標是構(gòu)建一個企業(yè)級安全高效的去中心化數(shù)字資產(chǎn)儲存、分發(fā)和交易生態(tài)系統(tǒng)。Gatechain具有獨創(chuàng)的

Powertoys的目的是什麼? Powertoys的目的是什麼? Apr 03, 2025 am 12:10 AM

PowerToys是微軟推出的免費工具集合,旨在提升Windows用戶的生產(chǎn)力和系統(tǒng)控制。它通過獨立模塊提供功能,如FancyZones管理窗口佈局和PowerRename批量重命名文件,使用戶工作流程更順暢。

全球數(shù)字虛擬幣交易平臺排行榜前十(2025權(quán)威排名) 全球數(shù)字虛擬幣交易平臺排行榜前十(2025權(quán)威排名) Mar 06, 2025 pm 04:36 PM

2025年全球數(shù)字虛擬幣交易平臺競爭激烈,本文根據(jù)交易量、安全性、用戶體驗等指標,權(quán)威發(fā)布2025年全球十大數(shù)字虛擬幣交易平臺排行榜。 OKX憑藉強大的技術(shù)實力和全球化運營策略居首,Binance以高流動性和低費用緊隨其後。 Gate.io、Coinbase、Kraken等平臺憑藉各自優(yōu)勢穩(wěn)居前列。榜單涵蓋Huobi、KuCoin、Bitfinex、Crypto.com和Gemini等交易平臺,各有特色,但投資需謹慎。選擇平臺需考慮安全性、流動性、費用、用戶體驗、幣種選擇及監(jiān)管合規(guī)性等因素,理性投資

蘋果 iOS 17.5 最新測試版發(fā)布!增加 Web 分發(fā)功能 蘋果 iOS 17.5 最新測試版發(fā)布!增加 Web 分發(fā)功能 Apr 17, 2024 pm 03:52 PM

蘋果已發(fā)表iOS17.5、iPadOS17.5、tvOS17.5、watchOS10.5和macOSSonoma14.5的第二輪開發(fā)者測試版,其中iOS17.5引進了蘋果WebDistribution系統(tǒng)。開發(fā)者可透過蘋果開發(fā)者中心取得新版本,公眾用戶則可透過蘋果Beta版軟體計畫網(wǎng)站註冊參與公開測試。新版的內(nèi)部版本號分別為:iOS17.5與iPadOS17.5為21F5058e(替代21F5048f),tvOS17.5與HomePodSoftware17.5為21L5553e(取代21L55

數(shù)字貨幣app十大交易平臺 炒幣正規(guī)平臺app推薦 數(shù)字貨幣app十大交易平臺 炒幣正規(guī)平臺app推薦 Mar 07, 2025 pm 06:51 PM

本文推薦十個數(shù)字貨幣交易App:1. OKX;2. Binance;3. Gate.io;4. Huobi Global;5. Kraken;6. Coinbase;7. KuCoin;8. Crypto.com;9. Bitfinex;10. Poloniex。選擇平臺需考慮安全性、流動性、交易費用、幣種選擇、用戶界面、客服支持及法規(guī)合規(guī)性等因素,謹慎評估風險,切勿盲目跟風。

十大數(shù)字貨幣交易平臺 數(shù)字貨幣交易平臺top10榜單最新 十大數(shù)字貨幣交易平臺 數(shù)字貨幣交易平臺top10榜單最新 Mar 17, 2025 pm 05:57 PM

十大數(shù)字貨幣交易平臺:1. OKX,2. Binance,3. Gate.io,4. Huobi Global,5. Kraken,6. Coinbase,7. KuCoin,8. Bitfinex,9. Crypto.com,10. Gemini,這些交易所各具特色,用戶可根據(jù)安全性、費用、幣種選擇、用戶界面和客戶支持等因素選擇適合自己的平臺。

幣圈最新消息APP排名推薦(2025權(quán)威發(fā)布) 幣圈最新消息APP排名推薦(2025權(quán)威發(fā)布) Apr 21, 2025 pm 09:33 PM

最佳的加密貨幣交易和分析平臺包括:1. OKX:全球交易量第一,支持多種交易,提供AI行情分析和鏈上數(shù)據(jù)監(jiān)控。2. 幣安:全球最大交易所,提供深度行情和新幣首發(fā)。3. 芝麻開門:以現(xiàn)貨交易和OTC通道著稱,提供自動化交易策略。4. CoinMarketCap:權(quán)威行情數(shù)據(jù)平臺,覆蓋20000 幣種。5. CoinGecko:以社區(qū)情緒分析見長,提供DeFi和NFT趨勢監(jiān)控。6. 非小號:國內(nèi)行情平臺,提供A股與幣市聯(lián)動分析。7. 鏈上財經(jīng):專注區(qū)塊鏈新聞,每日更新深度報道。8. 金色財經(jīng):24小

See all articles