fc2ブログ

url・jpgの抽出

↓学校の課題でruby使ってcgiで三階層まで潜ってURLを抽出するもの
リンク抽出

サイト内のhttpを見っけてキューに保存の繰り返し

一つの階層200までにしたんだけど←※先生に命令されたw
なんかめちゃくちゃ重い・・・

しかも同じURLを弾いてないのでページの一番上にホームのURLを置かれると同じ二階層と三階層がだいたい同じ内容になってくる笑

やっつけだけど単位貰えるかな( ´,_ゝ`)

ちなみに使った正規表現/(href=\")(http\S+)(\")/



上を利用して画像URL抽出も作ったけど↓
画像URL抽出
画像URL抽出画像1

明らかに要素が少ないw
38個しかない

使った正規表現 (/img.+src=[\"|\']?([\-_\.\!\~\*\'\(\)a-zA-Z0-9\;\/\?\:@&=\$\,\%\#]+\.(jpg|jpeg|png|gif|bmp))/)

また直します。




作ったものリスト

スポンサーサイト



今まで作ったもの | コメント(0) | トラックバック(0) | 2012/08/12 04:55
コメント

管理者のみに表示