• Jetzt anmelden. Es dauert nur 2 Minuten und ist kostenlos!

Idee für ein guten Algorythmus?

Ich möchte bei meinem Script versuchen, automatisiert Websites zu kategorisieren.
Wie würdet ihr das realisieren?

Mir fällt bisher nur eine mühsame Lösung ein:
Für jede Kategorie endlos viele Stichwörter definieren
(z.B.
Sport: Fussball, Handball, Ergebnis, Bundesliga etc.
Programmierung: Python, PHP, C++, Webframework etc.
....)

und dann prüfen, ob man eins dieser Wörter im Quelltext findet und dann dementsprechend die Kategorie zuordnet.
Wenn er nichts findet -> Kategorie Sonstiges

Habt ihr nen besseren Weg im Kopf ?
 
Werbung:
Ja damit kann man filtern, richtig!
Aber der bisher angesprochene Algorithmus bleibt ja der gleiche. Ich muss auch bei regExp vorher für jede Kategorie viele Stichwörter definieren, damit ich es zuordnern kann. Oder sehe ich das falsch :p ?

Ich vermute fast, es gibt kein einfacheren Weg.... :-/
 
Werbung:
Das kannst du auf diese Weise vergessen, beispielsweise kann mit "Python" auch der letzte Zoobesuch gemeint sein.

Was willst du damit überhaupt bewerkstelligen? Kann der User sich nicht selbst in Kategorien einteilen? Ansonsten müsstest du vermutlich den kompletten Inhalt auf seine Semantik untersuchen und daraus filtern, in welche Kategorie er passt. Sowas ist sicherlich nicht unmöglich, aber bestimmt nichts was ein Hobbyprogrammierer schaffen kann.
 
Werbung:
Ne wird nicht einfach.

Also wenn ich ein MetaTag "KeyWords" finde, muss ich ja nicht mehr viel machen.

Ansonsten könnte man viel vom <title> ableiten.

Werde mal bisschen recherchieren, wie andere Systeme arbeiten......
 
Danke.
So in die Richtung hab ich auch schon gedacht.
Ich muss mir dennoch glaube ich die Arbeit machen und irgendwelche Wortgruppen generieren. Will ja nicht für jedes einzelne meist gefundene Wort ne Kategorie machen.

Fällt euch spontan eine Seite ein, die so eine automatische Kategorisierung hat?
 
Werbung:
Eine Blackliste könnte da helfen (Worte, die nicht aufgenommen werden sollen), ähnliches könnte man mit der Wortlänge machen (Worte mit mehr als x Buchstaben).
Ausserdem würde ich mir überlegen, ob du nicht nur einen Vorschlag generierst, der erst akzeptiert werden muss
 
Zurück
Oben