- 相關(guān)推薦
php抓取https的內(nèi)容的代碼
大家有時候需要獲取https網(wǎng)頁的內(nèi)容,下面得方法,可以參考下。就跟隨百分網(wǎng)小編一起去了解下吧,想了解更多相關(guān)信息請持續(xù)關(guān)注我們應(yīng)屆畢業(yè)生考試網(wǎng)!
直接用file_get_contents,會報錯;
復(fù)制代碼 代碼如下:
$url = (https://xxx.com");
file_get_contents($url);
錯誤:
Warning: file_get_contents(https://xxx.com) [function.file-get-contents]: failed to open stream: No such file or directory in D:wampwwwgrabber_clientindex.php on line 3
用curl的方式是可以的:
復(fù)制代碼 代碼如下:
$url = (https://xxx.com);
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL,$url);
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);
curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, false);
$result = curl_exec($ch);
print_r($result);
?>
重點是以下兩句:
復(fù)制代碼 代碼如下:
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);
curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, false);
如對本文有疑問,請?zhí)峤坏浇涣魃鐓^(qū),廣大熱心網(wǎng)友會為你解答。 點擊進(jìn)入社區(qū)
為方便說明,先上代碼吧
復(fù)制代碼 代碼如下:
/**
* curl POST
*
* @param string url
* @param array 數(shù)據(jù)
* @param int 請求超時時間
* @param bool HTTPS時是否進(jìn)行嚴(yán)格認(rèn)證
* @return string
*/
function curlPost($url, $data = array(), $timeout = 30, $CA = true){
$cacert = getcwd() . '/cacert.pem'; //CA根證書
$SSL = substr($url, 0, 8) == "https://" ? true : false;
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_TIMEOUT, $timeout);
curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout-2);
if ($SSL && $CA) {
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, true); // 只信任CA頒布的證書
curl_setopt($ch, CURLOPT_CAINFO, $cacert); // CA根證書(用來驗證的網(wǎng)站證書是否是CA頒布)
curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, 2); // 檢查證書中是否設(shè)置域名,并且是否與提供的主機(jī)名匹配
} else if ($SSL && !$CA) {
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false); // 信任任何證書
curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, 1); // 檢查證書中是否設(shè)置域名
}
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
curl_setopt($ch, CURLOPT_HTTPHEADER, array('Expect:')); //避免data數(shù)據(jù)過長問題
curl_setopt($ch, CURLOPT_POST, true);
curl_setopt($ch, CURLOPT_POSTFIELDS, $data);
//curl_setopt($ch, CURLOPT_POSTFIELDS, http_build_query($data)); //data with URLEncode
$ret = curl_exec($ch);
//var_dump(curl_error($ch)); //查看報錯信息
curl_close($ch);
return $ret;
}
如果URL地址是https打頭,那就走SSL,否則就走普通的HTTP協(xié)議。
是否走HTTPS的話就安全了嗎?其實SSL也有不同的驗證程度。
例如需不需要驗證證書中的公用名呢?(BTW:公用名(Common Name)一般來講就是填寫你將要申請SSL證書的域名 (domain)或子域名(sub domain)。)
需要驗證主機(jī)名嗎?
是任何證書都信任呢還是只信任CA頒布的呢?
。ㄎ也拎,電池快沒點了,只撿關(guān)鍵地兒說了 - -|||)
如果網(wǎng)站SSL證書買的是CA的(通常比較貴),那么訪問時可以使用比較嚴(yán)格的認(rèn)證,即:
復(fù)制代碼 代碼如下:
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, true); // 只信任CA頒布的證書
curl_setopt($ch, CURLOPT_CAINFO, $cacert); // CA根證書(用來驗證的網(wǎng)站證書是否是CA頒布)
curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, 2); // 檢查證書中是否設(shè)置域名,并且是否與提供的主機(jī)名匹配
如果網(wǎng)站的證書是自己生成的,或者是網(wǎng)上的小機(jī)構(gòu)申請的,那么訪問時如果使用嚴(yán)格認(rèn)證則不會通過,直接返回false。(對了,返回false時可以打印curl_error($ch)查看具體錯誤信息。)此時可以根據(jù)情況通過降低驗證程度來保證正常訪問,例如:
復(fù)制代碼 代碼如下:
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false); // 信任任何證書
curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, 1); // 檢查證書中是否設(shè)置域名(為0也可以,就是連域名存在與否都不驗證了)
平時我們使用瀏覽器訪問各個https網(wǎng)站時,有時會遇到證書不受信的提示,其實就是因為這些網(wǎng)站的證書不是正規(guī)CA機(jī)構(gòu)頒布的。
市面上各種瀏覽器中都內(nèi)置了CA根證書列表信息,訪問有CA頒布證書的網(wǎng)站時,會根據(jù)根證書驗證這些網(wǎng)站的證書,所以就不會有這個提示了。
關(guān)于CA根證書文件,其實就是包含了各個主要CA機(jī)構(gòu)的公鑰證書,用來驗證網(wǎng)站的證書是否是這些機(jī)構(gòu)頒發(fā)的。
這里的這個文件是來源于mozilla的源碼樹,又轉(zhuǎn)換成PEM格式證書文件。(大家可以到這里下載現(xiàn)成的http://curl.haxx.se/ca/cacert.pem)
最后說一個和SSL無關(guān)的東西:
復(fù)制代碼 代碼如下:
curl_setopt($ch, CURLOPT_HTTPHEADER, array('Expect:'));
這個主要是為了解決POST時數(shù)據(jù)過長問題
【php抓取https的內(nèi)容的代碼】相關(guān)文章:
php語言字典代碼06-08
PHP如何使用curl實現(xiàn)數(shù)據(jù)抓取09-27
php下載代碼怎么寫07-13
PHP源代碼方式詳解08-08
20條PHP代碼優(yōu)化技巧05-06
PHP實現(xiàn)大文件上傳源代碼10-21
php解析XML文檔屬性并編輯的代碼09-28