引用 DEKO on 2013/04/09 23:25 Tue
あれだけの記事があるのですから、検索さえマトモなら…orz
確かに RSS で最新記事は取れますが、昔の記事はやっぱり検索しないといけない訳で…なんというか、ごった煮状態なんですよ。
まだ見落としがあった…orz
Team Japan ブログの記事は Delphi でコード書いて正規表現で抜き出していた。
const Exp = '<h2><a\x20href="(?<URL>.+)" rel="bookmark".+>(?<TITLE>.+)</a></h2>'; var i: Integer; Match: TMatch; Dmy, mValue: String; mStart, mLength: Integer; gName: String; begin Memo2.Lines.Clear; Match := TRegEx.Match(Memo1.Lines.Text, Exp); while Match.Success do begin Memo2.Lines.Add('[TeamJapan] ' + Match.Groups.Item[2].Value); Memo2.Lines.Add(Match.Groups.Item[1].Value); Match := Match.NextMatch; end; end;
こんな感じで。
…だけれど、例えば 2009/08 の一覧。
http://blogs.embarcadero.com/teamj/2009/08/
右側にカレンダーがあって、«Jul と Sep» で前月と翌月にジャンプできる。
で、この月 (Aug) の記事は 10 個ある。
「そうじゃない」
実はこの月の記事は全部で 16 個ある。"リスト最下部にある « Previous Entries" は «Jul (先月にジャンプ) ではなく、"当月の前ページ" にジャンプする。1 ページ辺りの記事数が 10 だから、あぶれた 6 つの記事は別ページになるが、カレンダーで移動すると別の月になってしまい見逃してしまう、という事。
記事を機械的に抜き出していたばっかりに、見落としが出てしまった…てか、手動でやっていても見落とした可能性は高い。「見た覚えのある記事が幾つか出てこないな?」 とは思っていたのだけれど。
|