preg_match falsches end DIV

webana · 23 November 2020

Hallo,

möchte mit preg_match ein teil einer Seite auslesen. Das mache ich mit

PHP:

preg_match('/<div id="function.(.+)" class="refentry">(.+)<\/div>/Uis', $page, $content);

Leider nimmt der mir aber das Falsche End-DIV und hab somit nicht den eigentlichen Content. Laut PsPad passt das aber mit den DIVs.

Woran kann das leigen bzw. was kann ich dagegen machen?

Gruß Alex

webana · 26 November 2020

Bin zwar noch dabei, aber sag trotzdem mal Danke!

Aaron3219 · 28 November 2020

Könntest du mal einen Teil der Seite reinschicken und markieren, welchen Teil du auslesen möchtest? Ich würde da gerne selber mal ein wenig herumprobieren.

webana · 28 November 2020

Hallo, das von PHP Manual. Hab mal 10 Seiten angehängt. Im Prinzip alles innerhalb von

HTML:

<div id="function.*-----Funktion-----*" class="refentry">

Viel Erfolg.

Aaron3219 · 28 November 2020

Alles klar. Scheint so, als wenn nach diesem div, welches du capturen willst, immer sowas wie

HTML:

<hr />
<div class="manualnavbar" style="text-align: center;">

kommt.

Das kannst du dir zunutze machen. Ich habe mit einem "positive lookahead" gearbeitet:

Code:

(?:<div id="function.(?:.+)" class="refentry">)(.+)(?=<hr \/>(?:[\n\s]+)?<div class="manualnavbar")

Wenn dir der Browser-Support ausreicht, kannst du auch einfach mit named capture groups arbeiten:

Code:

(?:<div id="function.(?:.+)" class="refentry">)(?<content_des_divs>.+)(?=<hr \/>(?:[\n\s]+)?<div class="manualnavbar")

Das macht es meiner Meinung nach ein wenig einfacher damit später die matches abzufragen.

Bei Fragen gerne Nachfragen.

Aber hier mit RegEx zu arbeiten ist meiner Meinung nach ein wenig zu unsicher und überkompliziert. Warum parst du den String nicht als HTML-Code und interagierst dann direkt per JS mit dem DOM-Element?

webana · 28 November 2020

Hallo,
die erste Lösung scheint zu funktionieren. Vielen Dank!

Gruß Alex

Aaron3219 · 29 November 2020

webana schrieb:
Hallo,
die erste Lösung scheint zu funktionieren. Vielen Dank!

Gruß Alex

Das ist schön. Schau dir bitte trotzdem die Theorie dahinter an. Und was ist mit dem Gegenvorschlag, den ich vorgeschlagen habe?

webana · 29 November 2020

Aaron3219 schrieb:
Und was ist mit dem Gegenvorschlag, den ich vorgeschlagen habe?

Mit Browser Support meinst Du Client-Seitig? Nein davon bin ich kein freund wenn es nicht sein muss.

tk1234 · 29 November 2020

Nein, der Gegenvorschlag ist mit DOM-Funktionen zu arbeiten - und das ist auch der einzig sinnvolle Weg, reguläre Ausdrücke sind nicht immer sinnvoll.

webana · 29 November 2020

Bei js muss ich

Aaron3219 schrieb:
[...] direkt per JS mit dem DOM-Element?

Bei JS dachte ich gleich an Clientseite. Hab wissentlich noch nichts mit DOM gemacht. Hab aber mal gerade nach php DOM gegoogelt ... Muss mich da aber auch erst reinlesen.

Aaron3219 · 29 November 2020

Oh oh, hier sind wohl ein paar Missverständnisse vorhanden. Du hast recht, JS ist clientseitig! So wie es sich anhört, möchtest du serverseitig den Content mit PHP, bzw. RegEx, auslesen, um es an den Client zu schicken, der es dann wiederum als HTML parst.

webana schrieb:
Mit Browser Support meinst Du Client-Seitig

Damit meinte ich den Browser-Support für named capture groups bei RegEx-Ausdrücken.

webana schrieb:
Client-Seitig? Nein davon bin ich kein freund wenn es nicht sein muss.

Was spricht denn dagegen?

Ich bleibe dabei, du musst es eh als HTML-Code parsen, dann parse den ganze String und arbeite mit JS damit. Aber letztendlich musst du das ja selber wissen.

Rayse · 11 Dezember 2020

tk1234 schrieb:
Nein, der Gegenvorschlag ist mit DOM-Funktionen zu arbeiten - und das ist auch der einzig sinnvolle Weg, reguläre Ausdrücke sind nicht immer sinnvoll.

Man muss sich nicht zwangsweise durch die DOM-Elemente hangeln, nur weil es deiner Meinung nach der einzig sinnvolle Weg ist. In der IT führen viele Wege nach Rom und wenn es für seinen Anwendungsfall funktioniert ist das völlig in Ordnung.

Aaron3219 · 11 Dezember 2020

Rayse schrieb:
Man muss sich nicht zwangsweise durch die DOM-Elemente hangeln, nur weil es deiner Meinung nach der einzig sinnvolle Weg ist. In der IT führen viele Wege nach Rom und wenn es für seinen Anwendungsfall funktioniert ist das völlig in Ordnung.

Eigentlich würde ich diesen Thread gar nicht so gerne wieder aufleben lassen. Das Problem scheint für @webana ja gelöst worden zu sein, ob nun mit einer optimalen oder nicht optimalen Lösung.

Dennoch ein kurzer Kommentar: Ja, viele Wege führen nach Rom, aber nicht jeder ist der optimale Weg.
Wir kennen den Anwendungsfall von webana nicht, trotzdem ist das "extrahieren" von HTML-Code mittels RegEx in den alltermeisten Fällen kein optimaler Weg und eignet sich meiner Meinung nach nur, um RegEx zu lernen.

Mir scheint es eher so, als wenn hier aus Bequemlichkeit und Halbwissen eine der Lösungen genommen wurde, die wahrscheinlich nicht optimal ist. Und das kann man auch in einem Forum durchaus kritisieren.

preg_match falsches end DIV

webana

Mitglied

webana

Mitglied

Aaron3219

Senior HTML'ler

webana

Mitglied

Anhänge

Aaron3219

Senior HTML'ler

webana

Mitglied

Aaron3219

Senior HTML'ler

webana

Mitglied

tk1234

Aktives Mitglied

webana

Mitglied

Aaron3219

Senior HTML'ler

Rayse

Mitglied

Aaron3219

Senior HTML'ler

Neueste Beiträge