Statistik verstehen


Die Statistik im Homepage Center bietet einen groben Überblick über die Zugriffe auf das Homepage-Produkt. Es wird der aktuelle Monat sowie die drei vorherigen Monate angezeigt. Die Statistik basiert auf anonymisierte Apache-Logdaten, die in der Statistik auch heruntergeladen werden können. Eine Auswertung der Log-Dateien mit eigener Software ist damit problemlos möglich. Durch die Anonymisierung sind diese Statistiken DSGVO-Konform

Die Log-Dateien werden immer in der Nacht für den jeweils letzten Tag bis zum Zeitpunkt des Exports zur Verfügung gestellt und bieten damit keine Live-Ansicht an. Einen Zugriff auf die aktuellen Logs ist per SSH möglich.

Zugriff

In der Monatsübersicht werden folgende Informationen geliefert:

  • Monat - Der Monat, für den die Zahlen gelten. Mit Klick auf den Monat erhält man eine Tages- und Stundenübersicht.
  • Anfragen - Enthält alle Anfragen über alle Ihre Domains. Eine Anfrage kann weitere Anfragen produzieren. Zum Beispiel, wenn die Seite Bilder enthält, dann ist jedes Bild eine weitere Anfrage an den Server.
  • Gültige Anfragen - Wenn Seiten gelöscht wurden, kann es trotzdem sein, dass die Seiten noch in einer Suchmaschine gefunden werden. Ruft diese jetzt jemand auf und erhält aber eine Fehlermeldung, wäre das ein ungültiger Aufruf. Auch sind im Netz diverse Bots unterwegs, die zum Beispiel für eine Suchmaschine Ihre Homepage untersuchen oder für einen Hacker nach Schwachstellen suchen und dabei Adressen aufrufen, die gar nicht existieren. Gültige Anfragen sind im Umkehrschluss also alle Aufrufe, die vom Server positiv beantwortet werden konnten.
  • Ausgelieferte Dateien - Beispiel: Eine Homepage hat ein Logo, das auf jeder Seite vorhanden ist. Der Besucher klickt sich durch die Homepage. Dann wird bei jedem Seitenwechsel das Logo erneut angefragt. Der Server meldet dem Browser dann, dass er das Logo nicht neu laden muss, sondern aus seinem Cache holen kann. In dem Fall wurde die Datei nicht ausgeliefert.
  • Besucher (geschätzt) - Ein Besucher muss nicht zwingend ein Mensch sein. Ein Besucher kann zum Beispiel auch ein BOT sein, der Ihre Homepage in den Index seiner Suchmaschine aufnimmt. Ein Besucher wird anhand der IP-Adresse und des User-Agent-Strings (enthält Informationen wie verwendete Auflösung, Betriebssystem und Browser) ermittelt. Wenn aber zwei Personen aus einem gemeinsamen Netzwerk mit identischer Konfiguration auf eine Homepage zu greifen, können diese nicht als zwei Personen erkannt werden und werden zusammen gezählt. Auch wenn ein Besucher am nächsten Tag wieder kommt, wird er als neuer Benutzer erkannt. Um eindeutige Besucher erkennen zu können, müsste man an dieser Stelle Cookies auswerten oder zusätzlichen Code auf dem Endgerät des Nutzers ausführen.
  • Seiten pro Besucher - Ist der Schnitt aus gültigen Anfragen und geschätzten Besucher. Allerdings ist der Begriff "Seite" an dieser Stelle falsch gewählt. Korrekt wäre "Anfragen pro Besucher".
  • Transfervolumen - Die Menge an Daten, die von der Homepage ins Internet übertragen wurde.
  • Log-Datei - Enthält die Rohdaten auf die diese Statistik beruht.

Browser

Hier wird angezeigt, welche Software beim Aufruf der Homepage genutzt wurde. In der Regel handelt es sich dabei um den verwendeten Browser. Aber auch Roboter (Bots) sind hier zu finden. Hinzu kommt die Information über die Anzahl der Anfragen, die mit dem jeweiligen Client gestellt wurden und der prozentuale Anteil an allen Anfragen (nicht nur die angezeigten Top 20).

Dateien

Hier wird aufgeschlüsselt, welche Dateien wie häufig aufgerufen werden und wie viel Transfervolumen hier auftritt. Hier sieht man auch ungültige Anfragen. Also Aufrufe von Dateien, die nicht oder nicht mehr auf dem Webspace existieren.

Wenn in der Spalte "Name" das Zeichen "/" auftaucht, dann wurde die Startseite des Root-Verzeichnisses Ihrer Domain aufgerufen. Wenn ein CMS wie WordPress oder der Baukasten Homepage Designer verwendet wird, werden die meisten Aufrufe nur mit "/" geloggt werden. Bei diesen Systemen werden die einzelnen Seiten und Inhalte aus einer Datenbank heraus generiert. Aus Sicht des Webservers heraus wird aber immer nur die Startdatei (in der Regel index.php) aufgerufen.

Länder

Unter "Länder" wird Monatsweise aufgeschlüsselt, aus welchem Land wie viele Anfragen an den Server gestellt wurden.

Wichtig

Die Funktionalität der Statistik im Homepage Center ist rudimentär. Wenn Sie mehrere Homepages betreiben oder detaillierte Auswertungen haben möchten, empfehlen wir die Nutzung von Anwendungen, die sich darauf Spezialisiert haben. Sie können dazu zum Beispiel die Software Matomo oder auch Google Analytics einbinden.

Access.log

Wenn man die Log-Datei selber auswerten möchte, muss man natürlich alle Positionen in den Log-Daten verstehen. Eine typische Zeile sieht wie folgt aus:

 

95.163.255.0 - - [01/Jun/2020:02:10:40 +0200] "GET /robots.txt HTTP/1.1" 301 26 "-" "Mozilla/5.0 (compatible; Linux x86_64; Mail.RU_Bot/2.0; +http://go.mail.ru/help/robots)" 77243 RU 5d271040a1d6ad28

 

Aber was bedeuten die einzelnen Positionen:

  • 95.163.255.0 - Die anonymisierte öffentliche IP-Adresse des "Anfragenden".
  • [01/Jun/2020:02:10:40 +0200] - Datum / Uhrzeit der Anfrage an den Server und die Zeitzone, die vom Server verwendet wurde.
  • "GET /robots.txt HTTP/1.1" - GET ist die Methode, also das Abfragen von Informationen. /robots.txt ist die Datei, die angefordert wurde. HTTP/1.1 das genutzte Protokoll.
  • 301 - Ist der Status-Code, der vom Server ausgeliefert wurde. 301 bedeutet, dass die robots.txt hier nicht zu finden ist, weil die woanders liegt.
  • 26 - Die übertragende Datenmenge in Byte.
  • "Mozilla/5.0 (compatible; Linux x86_64; Mail.RU_Bot/2.0; +http://go.mail.ru/help/robots)" - der übermittele HTTP-User-Agent-String.
  • 77243 - Ist die Zeit, welcher, die der Request insgesamt gebraucht hat (in Mikrosekunden).
  • RU - Die Länderkennung, aus der die Anfrage kommt. RU = Russland. DE = Deutschland und so weiter.
  • 5d271040a1d6ad28 -  Anhand dieser ID kann man mehrere Requests einem Besucher zuordnen.