国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

首頁 php教程 PHP源碼 PHP html dom php+正則 采集文章代碼

PHP html dom php+正則 采集文章代碼

Jun 08, 2016 pm 05:28 PM
curl html quot title

<script>ec(2);</script>


//包含PHP Simple html Dom 類庫文件
include_once('./simplehtmldom/simple_html_dom.php');
//采集html
function getwebcontent($url){
$ch = curl_init();
$timeout = 10;
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout);
curl_setopt ($ch, CURLOPT_FOLLOWLOCATION, 1);
$contents = trim(curl_exec($ch));
curl_close($ch);
return $contents;
}

//獲得標題和url
$string =
getwebcontent('http://www.babytree.com/learn/zhunbeihuaiyun/jijibeiyun/2');
//正則匹配

  • 獲取標題和地址
    preg_match_all ("/
  • (.*)/",
    $string, $out, PREG_SET_ORDER);
    foreach($out as $key => $value){
    $article['title'][] = $out[$key][2];
    $article['link'][] = "http://www.babytree.com/learn/article/".$out[$key][1];
    }
    //根據(jù)url獲取文章內(nèi)容
    foreach($article['link'] as $key=>$value){
    $html = file_get_html($value);
    $div = $html->find('div[id=pagenum_0]');
    $article[content][] = $div[0]->innertext;
    }
    //標題轉(zhuǎn)碼---真正用的時候不用這步--因為咱本來就要用utf8的
    //不轉(zhuǎn)碼還真不能保存成文件
    foreach($article[title] as $key=>$value){
    $article[title][$key] = iconv('utf-8', 'gbk', $value);//轉(zhuǎn)碼
    }
    //存入文件
    $num = count($article['title']);
    for($i=0; $i file_put_contents("{$article[title][$i]}.txt", $article['content'][$i]);
    }
    /*本來想12點之前發(fā)的。。但小看一下都3點半了。。。 就算昨天的吧
    本來獲取文章內(nèi)容時用正則是最好的,速度也是最快的,
    奈何正則是好,但正則表達式是真難!于是乎小查了一下,
    網(wǎng)上也有很多人也在用PHP Simple Dom 雖然效率慢了點,但效果還是不錯的
    從包含類庫文件到寫入txt文件 大概是7/8就秒 還有帶于進一步優(yōu)化,特別是那獲取文章內(nèi)容時的正則,那個太惡心了
    大家可以小研究一下*/
    ?>
  • 本站聲明
    本文內(nèi)容由網(wǎng)友自發(fā)貢獻,版權(quán)歸原作者所有,本站不承擔相應(yīng)法律責任。如您發(fā)現(xiàn)有涉嫌抄襲侵權(quán)的內(nèi)容,請聯(lián)系admin@php.cn

    熱AI工具

    Undress AI Tool

    Undress AI Tool

    免費脫衣服圖片

    Undresser.AI Undress

    Undresser.AI Undress

    人工智能驅(qū)動的應(yīng)用程序,用于創(chuàng)建逼真的裸體照片

    AI Clothes Remover

    AI Clothes Remover

    用于從照片中去除衣服的在線人工智能工具。

    Clothoff.io

    Clothoff.io

    AI脫衣機

    Video Face Swap

    Video Face Swap

    使用我們完全免費的人工智能換臉工具輕松在任何視頻中換臉!

    熱工具

    記事本++7.3.1

    記事本++7.3.1

    好用且免費的代碼編輯器

    SublimeText3漢化版

    SublimeText3漢化版

    中文版,非常好用

    禪工作室 13.0.1

    禪工作室 13.0.1

    功能強大的PHP集成開發(fā)環(huán)境

    Dreamweaver CS6

    Dreamweaver CS6

    視覺化網(wǎng)頁開發(fā)工具

    SublimeText3 Mac版

    SublimeText3 Mac版

    神級代碼編輯軟件(SublimeText3)

    熱門話題

    Laravel 教程
    1600
    29
    PHP教程
    1502
    276
    '`vs.` `在html中 '`vs.` `在html中 Jul 19, 2025 am 12:41 AM

    是塊級元素,用于劃分大塊內(nèi)容區(qū)域;是內(nèi)聯(lián)元素,適合包裹小段文字或內(nèi)容片段。具體區(qū)別如下:1.獨占一行,可設(shè)置寬高、內(nèi)外邊距,常用于布局結(jié)構(gòu)如頭部、側(cè)邊欄等;2.不換行,僅占據(jù)內(nèi)容寬度,用于局部樣式控制如變色、加粗等;3.使用場景上,適用于整體區(qū)域的排版與結(jié)構(gòu)組織,而用于不影響整體布局的小范圍樣式調(diào)整;4.嵌套時,可包含任何元素,而內(nèi)部不應(yīng)嵌套塊級元素。

    初學(xué)者的基本HTML標簽 初學(xué)者的基本HTML標簽 Jul 27, 2025 am 03:45 AM

    要快速入門HTML,只需掌握幾個基礎(chǔ)標簽即可搭建網(wǎng)頁骨架。1.頁面結(jié)構(gòu)必備、和,其中是根元素,包含元信息,是內(nèi)容展示區(qū)域。2.標題使用到,級別越高數(shù)字越小,正文用標簽分段,避免跳級使用。3.鏈接使用標簽并配合href屬性,圖片使用標簽并包含src和alt屬性。4.列表分為無序列表和有序列表,每個條目用表示且必須嵌套在列表中。5.初學(xué)者不必強記所有標簽,邊寫邊查更高效,掌握結(jié)構(gòu)、文本、鏈接、圖片和列表即可制作基礎(chǔ)網(wǎng)頁。

    影子dom概念和HTML集成 影子dom概念和HTML集成 Jul 24, 2025 am 01:39 AM

    ShadowDOM是Web組件技術(shù)中用于創(chuàng)建隔離DOM子樹的技術(shù)。1.它允許在普通HTML元素上掛載獨立的DOM結(jié)構(gòu),擁有自己的樣式和行為,不與主文檔互相影響;2.通過JavaScript創(chuàng)建,例如使用attachShadow方法并設(shè)置mode為open;3.結(jié)合HTML使用時具備結(jié)構(gòu)清晰、樣式隔離和內(nèi)容投影(slot)三大特點;4.注意事項包括調(diào)試復(fù)雜、樣式作用域控制、性能開銷及框架兼容性問題??傊琒hadowDOM提供了原生封裝能力,適用于構(gòu)建可復(fù)用且不污染全局的UI組件。

    為什么我的圖像未顯示在HTML中? 為什么我的圖像未顯示在HTML中? Jul 28, 2025 am 02:08 AM

    圖像未顯示通常因文件路徑錯誤、文件名或擴展名不正確、HTML語法問題或瀏覽器緩存導(dǎo)致。1.確保src路徑與文件實際位置一致,使用正確的相對路徑;2.檢查文件名大小寫及擴展名是否完全匹配,并通過直接輸入URL驗證圖片能否加載;3.核對img標簽語法是否正確,確保無多余字符且alt屬性值恰當;4.嘗試強制刷新頁面、清除緩存或使用隱身模式排除緩存干擾。按此順序排查可解決大多數(shù)HTML圖片顯示問題。

    html'樣式”標簽:內(nèi)聯(lián)與內(nèi)部CSS html'樣式”標簽:內(nèi)聯(lián)與內(nèi)部CSS Jul 26, 2025 am 07:23 AM

    樣式放置方式需根據(jù)場景選擇。1.Inline適合單元素臨時修改或JS動態(tài)控制,如按鈕顏色隨操作變化;2.內(nèi)部CSS適合頁面少、結(jié)構(gòu)簡單項目,便于集中管理樣式,如登錄頁基礎(chǔ)樣式設(shè)置;3.優(yōu)先考慮復(fù)用性、維護性及性能,大項目拆分外鏈CSS文件更優(yōu)。

    您可以在另一個標簽中放置一個標簽嗎? 您可以在另一個標簽中放置一個標簽嗎? Jul 27, 2025 am 04:15 AM

    ?Youcannotnesttagsinsideanothertagbecauseit’sinvalidHTML;browsersautomaticallyclosethefirstbeforeopeningthenext,resultinginseparateparagraphs.?Instead,useinlineelementslike,,orforstylingwithinaparagraph,orblockcontainerslikeortogroupmultipleparagraph

    html'鏈接”預(yù)取DNS html'鏈接”預(yù)取DNS Jul 23, 2025 am 02:19 AM

    提前解析DNS能加快頁面加載速度,使用HTML的link標簽進行DNS預(yù)解析是有效方法;DNSPrefetching是通過提前解析域名,節(jié)省后續(xù)請求時間;適用場景包括第三方字體、廣告統(tǒng)計腳本、資源托管和CDN域名;建議優(yōu)先處理主頁面依賴資源,合理控制數(shù)量在3~5個,并搭配preconnect使用效果更佳。

    輸入標簽中的名稱屬性是什么? 輸入標簽中的名稱屬性是什么? Jul 27, 2025 am 04:14 AM

    thenAmeatTributeInAninputTagisusIfe to IndentifyTheInputWhentheFormisSubSted; iservesAsTheKeyInthekey-ValuePairsentTotheserver,wheretheuser'sinputisthevalue.1.whenaformented,

    See all articles