Shared publicly  - 
 
Moin :-) Habe gestern Nacht noch mein Bilder-Experiment ausgwertet:
Translate
16
12
Martin Missfeldt's profile photoAndreas Hahn's profile photoMartin Sugioarto's profile photoFranziska Narr's profile photo
6 comments
Translate
 
Nachts sollte man schlafen! :-)
Translate
 
Das liegt (wahrscheinlich) an stark parallelisierten Algorithmen, dass die Bilder nicht nacheinander indiziert wurden.

Ein Google-Bot übergibt die neu gefundene HTML-Seite. Dann werden Links extrahiert. Dann wird eine Horde von Bots darauf losgelassen und diese Picken sich die Bilder-Links wahrscheinlich zufällig aus, damit sie sich nicht in die Quere kommen und nicht mehrfach das gleiche machen.

Ich glaube, dass später erst eine Gewichtung ins Spiel kommt. Dann werden sie wahrscheinlich noch einmal umsortiert.
Translate
 
+Martin Sugioarto So hätte ich das auch eingeschätzt. Wenn man sich mal überlegt, wieviele Seiten Google gleichzeitig indizieren muss, nur um neu hinzugekommene Seiten zu indizieren, wird einem klar, dass hier viele viele Bots arbeiten.

Ich vermute, dass Google intern mehrere Zwischenspeicher auf verschiedenen Ebenen hat. Spezialisierte Bots leeren diese und füllen direkt den nächsten Speicher. Für die effiziente Verarbeitung der Daten stelle ich mir einen kontinuierlichen MapReduce-Algorithmus vor. Auf den simplen MapReduce hat Google sogar ein Patent.
Translate
 
hehe, ja, wie ein Zauberwürfel geht das leider nicht bei Google :-)
Translate
Add a comment...