Visa föregående ämne :: Visa nästa ämne |
Startad av: |
Meddelande |
snylften
Medlem i: 4422 dagar
Status: Offline
#741001
|
Skrivet: 2016-09-20 20:24
Ämne: 404 sida googlebot
|
|
|
Hallå
Jag har satt upp en 404 sida. Och på sidan har jag satt ett script som mailar sidans URL och från vilken IP. Det fullkomligt sprutar in mail från den sidan till min inkorg. Det kommer ca 2 till 5st per minut.
Och sidorna som den försöker surfa till finns inte heller.
SidURLerna är uppbyggda på två olika sätt.
1. www.domän.se/hejsan/99876
2. www.domän.se/places.php?mid=4321
Men på något konstigt sätt försöks den här uren laddas. Och hundratals likadana fast med andra mid= nummer och andra ord efter .se/.
66.249.64.137 tried to loda www.domän.se/liseberg/places.php?mid=1860
Många från samma IP som jag tror är googlebot.
Min fråga är, kan man påverka detta på något sätt genom att kanske säga till googlebot att inte crawla dessa sidor? |
|
|
|
Till toppen på sidan |
|
harald_b


Medlem i: 4629 dagar Från: Tavesta
Status: Offline
#741002
|
Skrivet: 2016-09-21 00:06
Ämne:
|
|
|
Du kan läsa av $_SERVER['HTTP_REFERER'] för att se ifall det finns inlänkar till din saknade sida.
Du kan läsa av $_SERVER['HTTP_USER_AGENT'] för att se ifall det är googlebot som besöker. Men lösningen är nog snarare att försöka få bort inlänkar som finns.
Du bör nog konfigurera om så du inte får mail vid varje saknad sida, utan istället kanske en gång per dygn eller så. |
|
|
_________________ R.r - Ett fritt affärssystem |
Till toppen på sidan |
|
snylften
Medlem i: 4422 dagar
Status: Offline
#741003
|
Skrivet: 2016-09-21 13:44
Ämne:
|
|
|
Jag slog på milfunktionen på min 404 sida och på ca 20 sekunder trilla detta in. Det verkar som att det är googlebot som står för alltihop. Men jag kan inte förstå hur google kan crawla detta? Jag har medvetet inte satt upp några sådana länkar på siten... Får leta vidare.
Men går det att filtrera bort så inte google crawlar sådana adresser?
Det den ska crawla är ju allt förutom det som står mellan places.php?mid=1234 och mindomän.se/.
Feladress, finns ingenstans på siten
www.mindomän.se/liseberg/places.php?mid=1493
Rätt adress
www.mindomän.se/places.php?mid=1493
1: 2: User Agent = Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
3: 4: 5: User Agent = Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
6: 7: 8: User Agent = Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
9: 10: 66.249.76.71 tried to load xn--gteborg-q1a.se/johanssons-herrekipering/places.php?mid=509
11: User Agent = Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
12: 13: 14: User Agent = Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
15:
|
Senast ändrad av snylften den 2016-09-21 13:51, ändrad totalt 1 gång |
|
|
|
Till toppen på sidan |
|
harald_b


Medlem i: 4629 dagar Från: Tavesta
Status: Offline
#741004
|
Skrivet: 2016-09-21 13:50
Ämne:
|
|
|
Du kan säkert ställa in i robots.txt vad googlebot skall titta på och vad som inte skall tittas på. Men jag vet inte om det är speciellt meningsfullt i det här fallet.
Googlebot har dessa adresser någonstansifrån, och du har nytta av att ta reda på varifrån. Har du tittat på $_SERVER['HTTP_REFERER']? |
|
|
_________________ R.r - Ett fritt affärssystem |
Till toppen på sidan |
|
snylften
Medlem i: 4422 dagar
Status: Offline
#741005
|
Skrivet: 2016-09-21 15:24
Ämne:
|
|
|
Hallå
Jag har tittat på $_SERVER['HTTP_REFERER'] och försökt att skriva ut det i mailet jag får från 404.php men det kommer inte med. Det är helt blankt precis som att det inte fungerar? Jag lägger http_referer i en variabel och skickar med i mailet men det visas ingenting. Annars borde det vara sidan när länken är hittad va? |
|
|
|
Till toppen på sidan |
|
harald_b


Medlem i: 4629 dagar Från: Tavesta
Status: Offline
#741007
|
Skrivet: 2016-09-22 00:29
Ämne:
|
|
|
$_SERVER['HTTP_REFERER'] kan mycket väl vara tom. Om adressen t.ex kommer från googles register över adresser som skall bevakas så borde det rimligtvis bli så.
Kan det vara så att dessa adresser kommer från en tidigare version av webbsidan? I så fall lär dessa nog sorteras bort från google när de får 404-svar.
I så fall borde exakt samma adress inte återkomma många gånger. |
|
|
_________________ R.r - Ett fritt affärssystem |
Till toppen på sidan |
|
|