Perlでお気に入りのWebページをパースしよう｜LWP::UserAgentとHTML::TreeBuilderの使い方

2019年3月1日2025年5月8日

PerlでWebページをパースする基本的な方法と、よく使われるモジュールの使い方・注意点をまとめます。実際に動くサンプルコード付きです。

PerlでWebページを取得・パースする流れ

LWP::UserAgentでHTMLを取得
HTML::TreeBuilderでパースし、タグや属性で要素を抽出

サンプルコード

use strict;
use warnings;
use LWP::UserAgent;
use HTML::TreeBuilder;

my $url = 'https://example.com'; # 取得したいページURL

# UAの生成
my $ua = LWP::UserAgent->new(timeout => 10);

# ページ取得
my $response = $ua->get($url);
die "Failed to fetch $url: " . $response->status_line unless $response->is_success;

my $html = $response->decoded_content;

# パース
my $tree = HTML::TreeBuilder->new;
$tree->parse($html);

# 例：h2タグを全て抽出
my @h2s = $tree->look_down(_tag => 'h2');
foreach my $h2 (@h2s) {
    print $h2->as_text, "\n";
}

$tree->delete; # メモリ解放

上記のように、LWP::UserAgentでページ取得し、HTML::TreeBuilderでタグや属性を指定して要素を抽出できます。
他にも、classやid属性、リンクや画像なども同様に取得可能です。