Ich hab mal aus Lust und Laune sowas programmiert: Twissi Search - The personal Search Engine! Ist jetzt nix besonderes aber er dursucht halt selbständig das Internet ^^
Eckbausteine würd ich mal so setzen:
Eine Engine (z.B. eine PHP Seite) die Webseiten öffnet, dort alle links sucht und diese...