POINT
たった3行で対象ページのタイトルの取得が可能
環境
PHP:5.6
PHPでウェブページのスクレイピングを行う際に便利なライブラリが「simple_html_dom」です。
導入は簡単で以下から「simple_html_dom.php」をダウンロードして利用したいサイトに配置するだけです。
しばらく更新されていません(最終更新年=2014年)が現状でもあるていど問題なく利用できます。
PHPから利用する際は以下のように利用することができます。
1 2 3 4 5 6 7 8 |
//ダウンロードしたファイルを読み込む require_once("./lib/simple_html_dom.php"); //yahooのHTML(DOM)を取得する $dom_html = file_get_html("http://yahoo.co.jp"); //取得したHTML(DOM)からタイトルタグを取得する $title = $dom_html->find('title'); //タイトルを表示する echo $title[0]->innertext; |
今回の説明ではタイトルタグを取得するだけでしたが、色々な方法で目的のデータを探すことが可能です。
また、javascriptで表示さているサイトなどでもPhantomJSというヘッドレスブラウザを利用することにより解析が可能になります。
参考記事
参考サイト