php - Daten auslesen und abspeichern (ähnlich eines Crawlers??)

Shrax · 8 September 2011

Hallo,

ich sitze derzeit an einem Problem und weiß nicht wie ich das am besten löse. Ich möchte von einer alten Seite (die ich jetzt nicht posten möchte) was bestimmtes auslesen.
Um nicht alles selber abzutippen will ich n kleines Script schreiben. Jetzt wollte ich mal fragen wie es denn da mit php als Sprache zur umsetzung aussieht.

Ich möchte von einer größeren anzahl von Seiten (ca. 200) eine bestimmte Zeichenkette speichern. Die links zu den Seiten hab ich da.
In dem oberen Teil dieser Seiten kommt eine Zeichenkette vor. Am ende der Kette ist eine weitere die ich suche. ('wort wort wort' 'gesuchtes wort').
'gesuchtes wort' will ich in einer Datei (.txt oder so) speichern. Ich könnte auch alle aufrufen und abtippen, aber das ist mir zu viel Arbeit.

Ich will nichts extrem aufweniges, vielleicht kann mir auch jemand ne andere Sprache empfehlen wie ich das umsetzen könnte.

Ablauf sollte so sein.

-> Aufrufen eines Links
-> Suche die Zeichenkette 'wort wort wort'
-> Wenn nicht vorhanden -> nächster link
-> Wenn vorhanden -> Rest der Zeile nach 'wort wort wort' kopieren
-> 'gesuchte wörter' in eine .txt abspeichern
-> nächster link

vanGoss · 8 September 2011

gibt verschiedene Möglichkeiten.
Gemacht hab ich das auch schon.

Du musst aber wissen, dass einige Seiten nicht erlauben, dass du mit Bots auf ihnen rumstöberst.
Da wäre das illegal.

Aber weils au sinnvoll sein kann:

Sockets
cURL

Des letztere ist einfacher, des erstere hardwarenäher.

Und zum auslesen halt entweder regex oder normale Suche.
Ich hattes schon mal mit regex, ist halt übel schwer-fand ich.
xkcd: Regular Expressions

und um alles rum noch ne schleife dir durch die links durch iteriert

Gruß
vanGoss

Shrax · 9 September 2011

Du musst aber wissen, dass einige Seiten nicht erlauben, dass du mit Bots auf ihnen rumstöberst.
Da wäre das illegal.

Da hab ich keine bedenken da wie gesagt ich die Seite gewissermaßen selber gemacht hab, das ganze aber nicht Dynamisch so schlau wie ich damals war, sondern Manuell diese sachen mit der Zeit in den Quelltext der einzelnen Seiten geschrieben habe.

Aber weils au sinnvoll sein kann:

Sockets

cURL

Des letztere ist einfacher, des erstere hardwarenäher.

Und zum auslesen halt entweder regex oder normale Suche.
Ich hattes schon mal mit regex, ist halt übel schwer-fand ich.
xkcd: Regular Expressions

und um alles rum noch ne schleife dir durch die links durch iteriert

Genau, das ist eine wirklich gute Antwort. Da mach ich mich gleich mal schlau. Wobei ich schaun muss ob sich der Zeit/nutzen faktor lohnt. Aber das wo ich gleich mal gelesen habe hört sich schonmal gut an. Danke
mfg Shrax

vanGoss · 9 September 2011

ich fand sowohl curl als auch sockets seeeehr interressant und vor allem auch hilfreich
beim lesen damals hab ich gaanz viel neues über http und alles mögliche gelernt

regex is halt so ne sache
ich hab au mal iwo was gelesen, dass es nur 2 sachen gibt, die man nicht verstehen kann:
quantenmechanik und regex ;)

viel spass

php - Daten auslesen und abspeichern (ähnlich eines Crawlers??)

Shrax

Mitglied

vanGoss

Neues Mitglied

Shrax

Mitglied

vanGoss

Neues Mitglied

Neueste Beiträge