自分の記事のクロール
自分で書いたブログの記事とか、原稿はpcに入っているものもあるが、直書きのものもあって、最近、自動収集して揃えようと企んでいる。一覧のページからリンクをたどって個別ページを出す処理を書いていたら、広告系の関係ないリンクもたくさんあって、どうしようかと考えた。
原理的には、ページの中で記事へのリンクが集まっているエリアだけまず取り出して、そこからリンクを集めるのが効率的だと思うのだが、面倒なのでとりあえずページ全部取り込んでみて、全リンクのリストを作ってから、それっぽいのだけ保存するような雑な処理になった。仕事でこういうの書いたら怒られそうな気がするが、細かいページ構造が変わっても対応できるというメリットもあるし、それほど悪くないと思う。
| 固定リンク
コメント