פרק 5: עיבוד וניתוח של עמודי רשת

השיטה היא לנתח: מסכם עמודי רשת

אם נאחד את הטכניקות של ה TokeParser שראינו בפרק הזה, נוכל להציע לכם תוכנית Perl קטנה שבהנתן כתובת תקפה, תנתח את מגוון התגים ותוציא סיכום. תוכנית זו מסתמכת על מרבית הטכניקות העיקריות שבהם נתקלנו בסדרה, כולל CGI, יצירת פלט תוך כדי עבודה כולל טפסים, כמו כן המודול LWP::Simple והרכש החדש: המודול TokeParser.

תוכנית זו אינה בעלת אינטליגנציה גבוהה במיוחד, אינה חסינה משגיאות ואפילו לא קלה לקריאה, אולם היא מדגימה שימוש בטכניקות העיקריות של מאמר זה, ומספקת כמות נכבדה של קוד לעבודות ניתוח עתידיות שלכם. ניתן לראות הדגמה חייה של התוכנית parsepage.cgi בפעולה.

#!/usr/bin/perl
use CGI;
use LWP::Simple;
use HTML::TokeParser;

$cgiobject=new CGI;
$cgiobject->use_named_parameters;
print $cgiobject->header;

print $cgiobject->start_html
                  (-title=>'Page Parser',
                   -bgcolor=>'white');
                          

print $cgiobject->startform
                  (-method=>'get',
                   -action=>'parsepage.cgi');
print "URL to Analyze:".$cgiobject->textfield
                                    (-name=>'url',
                                     -size=>'40');
print "<br>".$cgiobject->submit(-value=>'Analyze');
print $cgiobject->endform;
print "<hr>";                                     


#retrieve web page
$fetchURL=$cgiobject->param("url");
unless ($fetchURL) 
 {$fetchURL=""}

$webPage=get($fetchURL);

print <<ENDHTML;
<center><h2>$fetchURL<br>
has been sliced and diced,
 thus revealing:</h2></center>
ENDHTML
                                      
&parse_title;
&parse_meta_description;
&parse_meta_keywords;
&parse_images;
&parse_hyperlinks;
print $cgiobject->end_html;


sub parse_title{
#parse and output page title
$parser=HTML::TokeParser->new(\$webPage);
$parser->get_tag("title");
print "<p><h2>Page title</h2> ".
      $parser->get_trimmed_text."</p>";
}

sub parse_meta_keywords{
#parse and output meta data
$parser=HTML::TokeParser->new(\$webPage);
while (my $token=$parser->get_tag("meta"))
 { if ($token->[1]{name}=~/keywords/i)
    { print "<p><h2>Meta Keywords</h2> ".
            $token->[1]{content}."</p>" }
 }
}

sub parse_meta_description{
#parse and output meta data
$parser=HTML::TokeParser->new(\$webPage);
while (my $token=$parser->get_tag("meta"))
 { if ($token->[1]{name}=~/description/i)
    { print "<p><h2>Meta Description</h2> ".
            $token->[1]{content}."</p>" }
 }
}


sub parse_images{
#parse and count images
$parser=HTML::TokeParser->new(\$webPage);
my $imageTotal=0;
while ($parser->get_tag("img"))
 { $imageTotal++ }
print "<p><h2>Image Count</h2> ".
      "Total = $imageTotal</p>";
} 

sub parse_hyperlinks{
#parse and output hyperlinks
$parser=HTML::TokeParser->new(\$webPage);
print "<p><h2>Hyperlink Summary</h2>";
while (my $token = $parser->get_tag("a")) 
 { my $linkURL = $token->[1]{href} || "-";
   my $linkText = $parser->get_trimmed_text("/a");
   if ($linkText=~/<image/i) {$linkText="image"}
   print "<small>$linkText</small> ".
         "<b>links to</b> $linkURL<br>"
  }
}

מקורות נוספים:

LWP::Simple Module
TokeParser Module (and related HTML Parsing Modules)
Full, Complex LWP Documentation

ניתוח תכונות בקלות
תוכן עניינים

אודות

תוכן עניינים

פרק 1: ה Perl שאתם צריכים לדעת

פרק 2: קישור Perl לעמודי הרשת

פרק 3: שמירת מצב

פרק 4: HTML בחטף ותבניות (Templates) רשת

פרק 5: עיבוד וניתוח של עמודי רשת

מטרה פשוטה: קוד כמו שסבתא נהגה להכין

פשוט, LWP:Simple

רודפים אחרי תגים

שליפת תגיות בלי מאמץ: TokeParser

ניתוח תכונות בקלות

השיטה היא לנתח: מסכם עמודי רשת

פרק 6: להשתעשע עם בסיסי נתונים מקוונים:אקסס

פרק 7: המודל MySQL

פרק 8: להשתעשע בבסיסי נתונים - GUFE - החזית הכללית והשימושית

פרק 9: המילניום - ניהול זמן ותאריך

פרק 10: ניהול רשימות והאשים (Hashs)

פרק 11: הפניה להפניה

פרק 12: הכרות עם mod_perl

פרק 5: עיבוד וניתוח של עמודי רשת

השיטה היא לנתח: מסכם עמודי רשת

מקורות נוספים:

ניתוח תכונות בקלות תוכן עניינים

ניתוח תכונות בקלות
תוכן עניינים