Big Data - Best Practice für den kleinen Mann

  • Jetzt anmelden. Es dauert nur 2 Minuten und ist kostenlos!

StephanBo

Mitglied
28 Januar 2012
169
0
16
Ziel:
Ich wage mich gerade an ein Projekt heran, bei dem permanent viele Daten gesammelt, gespeichert und abgefragt werden. Es geht im Wesentlichen darum, dass ich mittels einer API Quoten von einem Buchmacher beziehe und diese dann in einer DB speichern möchte, um damit dann in einem nächsten Schritt Auswertungen vorzunehmen (ähnlich wie bei den Quotenvergleichsportalen für Sportwetten).

Datenmenge:
Die Quoten sollen zunächst stündlich bezogen werden. Ein Spiel wird beim Buchmacher etwa 2 Woche vorher veröffentlicht. Daraus ergeben sich pro Spiel Datensätze i.H.v. 14 Tage * 24 Abfragen pro Tag = 336 Datensätze pro Spiel. Eine Bundesliga Saison hat beispielsweise 306 Spiele. Daraus ergeben sich nur für eine einzige Bundesliga Saison 336*306 = 102816 Datensätze. Es soll aber nicht nur die Bundesliga, sondern 50 Ligen analysiert werden und somit sind wir bereits bei über 5Mio Datensätze pro Saison. Auch sollen nicht nur die Quoten von einem, sondern von mehreren Buchmachern bezogen werden, also multiplizieren sich die 5Mio Datensätze mit der Anzahl der Buchmachern und ich bin schnell bei 50-100 Millionen Datensätze für nur eine einzige Saison !!!

Zwischenfrage:
Sind solche Datenmengen überhaupt mit einer herkömmlichen MySQL-DB und einem Server mit 16 Kernen, 18G zu stemmen oder muss ich mich hier als "Hobbyprogrammierer" geschlagen geben und mich erst ganz Tief in die Materie Big Data einlesen?
 

_Thor_

Aktives Mitglied
29 August 2008
3.280
17
38
39
MySQL kannst du für solche Datenmengen durchaus verwenden. Wichtig dabei ist, dass du vernünftige Indizes setzt, damit die Abfragen schnell laufen. Ein Caching-Layer davor hilft auch und schon musst du gar nicht mehr so oft an die Datenbank.

Ob MySQL dafür jetzt die beste Lösung ist, weiß ich nicht, aber ich arbeite täglich mit solchen Datenmengen und wir haben die auch in einer MySQL.
 
Werbung:

Latest posts