今日出会ったCPANモジュール
# SYNOPSIS use HTML::TokeParser::Simple; my $p = HTML::TokeParser::Simple->new( $somefile ); while ( my $token = $p->get_token ) { # This prints all text in an HTML doc (i.e., it strips the HTML) next unless $token->is_text; print $token->as_is; }
HTML::TokeParser モジュールよりも,分かり易いコードが書けそうだ。
HTMLページ内の画像URLを取得する。
#!/usr/bin/perl use strict; use warnings; use utf8; use Encode; use Perl6::Say; use HTML::TokeParser::Simple; use LWP::Simple; my $url = shift; my $html = get($url) or die "Can't get $url"; my $parser = HTML::TokeParser::Simple->new(\$html); while (my $token = $parser->get_token) { next unless $token->is_start_tag('img'); say $token->get_attr('src'); }