43 messaggi dal 20 gennaio 2010
ciao

ho un problemino:

vorrei eliminare dalle miei statistiche gli accessi fatti tramite i vari bot (spammatori e non, google compreso) ma ho visto che a volte non è semplice distinguerli dai browser normali.

ho cercato un po' in internet e ho fatto alcune query sullo user-agent che vado a memorizzare durante gli accessi al mio sito e ho visto un po' di tutto. si va dai 250 accessi al minuto con stessi IP, con disparati user agent.

ho cercato un po' in giro e ho trovato come lista di user-agent
http://www.useragentstring.com/pages/useragentstring.php
ma volevo capire se filtrare per era il metodo corretto e se questa lista è corretta o se ne esistono di migliori.

ho visto che robot.txt checchè se ne dica in rete non serve a nulla.

grazie
Simone
11.886 messaggi dal 09 febbraio 2002
Contributi
ciao Simone,

astambara ha scritto:

ma volevo capire se filtrare per era il metodo corretto

No, perché i bot possono simulare uno user-agent a piacimento.
Se usassi una white-list di tutti gli user-agent "validi" conteggeresti comunque alcuni bot, ed escludesti il traffico di alcuni utenti (umani) che stanno usando uno user-agent non incluso nella tua lista.

Sarebbe meno sbagliato tenere una black-list, ovvero un elenco di user-agent che sono notoriamente dei bot ed escludere quelli. Potresti partire da questa lista.
Così i dati statistici potrebbero iniziare ad avvicinarsi un po' di più a quelli reali ma se il tuo sito viene bersagliato da bot che si fingono dei browser, anche questa soluzione non sarebbe utile.

Alcuni bot si limitano ad inviare una richiesta HTTP e a parsare il risultato come stringa, per trovare link al suo interno ed inviare ulteriori richieste HTTP. Questi bot quindi non interpretano il javascript contenuto nella pagina. La soluzione potrebbe essere quindi quella di conteggiare la visita usando del javascript. Per esempio, se hai installato lo script di Google Analytics nella tua pagina, sei già al riparo da questo specifico tipo di bot. Leggi qui:
http://www.lunametrics.com/blog/2015/04/01/eliminating-bot-traffic-from-google-analytics-once-and-for-all/

Se invece hai un sistema di statistica personalizzato che conteggia la visita lato server alla richiesta di pagina, allora forse dovrai spostare il conteggio da lì e subordinarlo all'esecuzione di un codice javascript.
Un'idea buttata lì: ogni pagina referenzia un tuo file javascript che invia al server una richiesta ajax per conteggiare la visita, magari fornendo anche un codice di sicurezza per evitare che gli smanettoni possano abusare di questo sistema.

ciao,
Moreno
Modificato da BrightSoul il 29 agosto 2015 16.52 -

Enjoy learning and just keep making

Torna al forum | Feed RSS

ASPItalia.com non è responsabile per il contenuto dei messaggi presenti su questo servizio, non avendo nessun controllo sui messaggi postati nei propri forum, che rappresentano l'espressione del pensiero degli autori.