【PHP】スクレイピングをする方法(simple_html_dom)

POINT
たった3行で対象ページのタイトルの取得が可能

環境
PHP:5.6

PHPでウェブページのスクレイピングを行う際に便利なライブラリが「simple_html_dom」です。

導入は簡単で以下から「simple_html_dom.php」をダウンロードして利用したいサイトに配置するだけです。

しばらく更新されていません(最終更新年=2014年)が現状でもあるていど問題なく利用できます。


PHPから利用する際は以下のように利用することができます。
このようにたった4行で目的のサイトのタイトルを取得して表示することができます。

今回の説明ではタイトルタグを取得するだけでしたが、色々な方法で目的のデータを探すことが可能です。

また、javascriptで表示さているサイトなどでもPhantomJSというヘッドレスブラウザを利用することにより解析が可能になります。


参考記事

参考サイト
PHP Simple HTML DOM Parser CSS Selector
この記事は役に立ちましたか?
  • 役に立った(0)
  • もっと詳しい情報が必要(0)
  • 情報が古かった(0)
  • 目的の情報では無かった(0)

シェアする

  • このエントリーをはてなブックマークに追加

フォローする