abstract:做數(shù)據(jù)采集用Python最佳,PHP不太推薦。推薦幾個(gè)庫(kù)吧:Python:1.requests 很好用的http庫(kù),中文文檔:Requests: 讓 HTTP 服務(wù)人類(lèi)2.BeautifulSoup 很好用很強(qiáng)大的html解析庫(kù),中文文檔:Beautiful Soup 4.4.0 文檔3.Scrapy 知名爬蟲(chóng)框架,中文文檔:Scrapy 0.25 文檔PHP:1.Guzzle 很好用PHP HT
做數(shù)據(jù)采集用Python最佳,PHP不太推薦。推薦幾個(gè)庫(kù)吧:
Python:
1.requests 很好用的http庫(kù),中文文檔:Requests: 讓 HTTP 服務(wù)人類(lèi)
2.BeautifulSoup 很好用很強(qiáng)大的html解析庫(kù),中文文檔:Beautiful Soup 4.4.0 文檔
3.Scrapy 知名爬蟲(chóng)框架,中文文檔:Scrapy 0.25 文檔
PHP:
1.Guzzle 很好用PHP HTTP庫(kù),再也不用寫(xiě)原生的curl了。中文文檔:快速入門(mén) — Guzzle中文文檔
2.html-parser HTML解析庫(kù),項(xiàng)目地址:GitHub - bupt1987/html-parser: php html parser,類(lèi)似與PHP Simple HTML DOM Parser,但是比它快好幾倍
3.php-html-parser 老外的html解析庫(kù),和上面那個(gè)用起來(lái)差不多,項(xiàng)目地址:GitHub - paquettg/php-html-parser: An HTML DOM parser. It allows you to manipulate HTML. Find tags on an HTML page with selectors just like jQuery.
4.phpspider 知乎上某人寫(xiě)的php爬蟲(chóng)庫(kù),暫時(shí)沒(méi)用過(guò),可以看看,項(xiàng)目地址:https://github.com/owner888/phpspider
至于數(shù)據(jù)庫(kù),mongoDB、MySQL都可以。