今日出会ったCPANモジュール

HTML::TokeParser::Simple - Easy to use HTML::TokeParser interface

 # SYNOPSIS
 use HTML::TokeParser::Simple;
 my $p = HTML::TokeParser::Simple->new( $somefile );

 while ( my $token = $p->get_token ) {
     # This prints all text in an HTML doc (i.e., it strips the HTML)
     next unless $token->is_text;
     print $token->as_is;
 }

HTML::TokeParser モジュールよりも，分かり易いコードが書けそうだ。

HTMLページ内の画像URLを取得する。

#!/usr/bin/perl
use strict;
use warnings;
use utf8;
use Encode;
use Perl6::Say;

use HTML::TokeParser::Simple;
use LWP::Simple;

my $url = shift;
my $html = get($url) or die "Can't get $url";
my $parser = HTML::TokeParser::Simple->new(\$html);

while (my $token = $parser->get_token) {
    next unless $token->is_start_tag('img');
    say $token->get_attr('src');
}