404 sida googlebot

PHPportalen Forum Index » Webbservrar och operativsystem
Lägg ett bokmärke på hela tråden
Skapa nytt inlägg   Svara på inlägget
Visa föregående ämne :: Visa nästa ämne  
Startad av: Meddelande
snylften



Medlem i: 4422 dagar

Status: Offline



#741001
Inlägg Skrivet: 2016-09-20 20:24      Ämne: 404 sida googlebot Citera

Hallå

Jag har satt upp en 404 sida. Och på sidan har jag satt ett script som mailar sidans URL och från vilken IP. Det fullkomligt sprutar in mail från den sidan till min inkorg. Det kommer ca 2 till 5st per minut.

Och sidorna som den försöker surfa till finns inte heller.
SidURLerna är uppbyggda på två olika sätt.
1. www.domän.se/hejsan/99876
2. www.domän.se/places.php?mid=4321

Men på något konstigt sätt försöks den här uren laddas. Och hundratals likadana fast med andra mid= nummer och andra ord efter .se/.
66.249.64.137 tried to loda www.domän.se/liseberg/places.php?mid=1860

Många från samma IP som jag tror är googlebot.

Min fråga är, kan man påverka detta på något sätt genom att kanske säga till googlebot att inte crawla dessa sidor?
 
Till toppen på sidan
Visa användarprofil Skicka privat meddelande
harald_b
Moderator



Medlem i: 4629 dagar
Från: Tavesta
Status: Offline



#741002
Inlägg Skrivet: 2016-09-21 00:06      Ämne: Citera

Du kan läsa av $_SERVER['HTTP_REFERER'] för att se ifall det finns inlänkar till din saknade sida.
Du kan läsa av $_SERVER['HTTP_USER_AGENT'] för att se ifall det är googlebot som besöker. Men lösningen är nog snarare att försöka få bort inlänkar som finns.

Du bör nog konfigurera om så du inte får mail vid varje saknad sida, utan istället kanske en gång per dygn eller så.
 

_________________
R.r - Ett fritt affärssystem
Till toppen på sidan
Visa användarprofil Skicka privat meddelande
snylften



Medlem i: 4422 dagar

Status: Offline



#741003
Inlägg Skrivet: 2016-09-21 13:44      Ämne: Citera

Jag slog på milfunktionen på min 404 sida och på ca 20 sekunder trilla detta in. Det verkar som att det är googlebot som står för alltihop. Men jag kan inte förstå hur google kan crawla detta? Jag har medvetet inte satt upp några sådana länkar på siten... Får leta vidare.

Men går det att filtrera bort så inte google crawlar sådana adresser?

Det den ska crawla är ju allt förutom det som står mellan places.php?mid=1234 och mindomän.se/.

Feladress, finns ingenstans på siten
www.mindomän.se/liseberg/places.php?mid=1493

Rätt adress
www.mindomän.se/places.php?mid=1493

KOD:
1:
2:
User Agent = Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
3:
 
4:
5:
User Agent = Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
6:
 
7:
8:
User Agent = Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
9:
 
10:
66.249.76.71 tried to load xn--gteborg-q1a.se/johanssons-herrekipering/places.php?mid=509
11:
User Agent = Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
12:
 
13:
14:
User Agent = Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
15:
 


Senast ändrad av snylften den 2016-09-21 13:51, ändrad totalt 1 gång
 
Till toppen på sidan
Visa användarprofil Skicka privat meddelande
harald_b
Moderator



Medlem i: 4629 dagar
Från: Tavesta
Status: Offline



#741004
Inlägg Skrivet: 2016-09-21 13:50      Ämne: Citera

Du kan säkert ställa in i robots.txt vad googlebot skall titta på och vad som inte skall tittas på. Men jag vet inte om det är speciellt meningsfullt i det här fallet.
Googlebot har dessa adresser någonstansifrån, och du har nytta av att ta reda på varifrån. Har du tittat på $_SERVER['HTTP_REFERER']?
 

_________________
R.r - Ett fritt affärssystem
Till toppen på sidan
Visa användarprofil Skicka privat meddelande
snylften



Medlem i: 4422 dagar

Status: Offline



#741005
Inlägg Skrivet: 2016-09-21 15:24      Ämne: Citera

Hallå

Jag har tittat på $_SERVER['HTTP_REFERER'] och försökt att skriva ut det i mailet jag får från 404.php men det kommer inte med. Det är helt blankt precis som att det inte fungerar? Jag lägger http_referer i en variabel och skickar med i mailet men det visas ingenting. Annars borde det vara sidan när länken är hittad va?
 
Till toppen på sidan
Visa användarprofil Skicka privat meddelande
harald_b
Moderator



Medlem i: 4629 dagar
Från: Tavesta
Status: Offline



#741007
Inlägg Skrivet: 2016-09-22 00:29      Ämne: Citera

$_SERVER['HTTP_REFERER'] kan mycket väl vara tom. Om adressen t.ex kommer från googles register över adresser som skall bevakas så borde det rimligtvis bli så.
Kan det vara så att dessa adresser kommer från en tidigare version av webbsidan? I så fall lär dessa nog sorteras bort från google när de får 404-svar.
I så fall borde exakt samma adress inte återkomma många gånger.
 

_________________
R.r - Ett fritt affärssystem
Till toppen på sidan
Visa användarprofil Skicka privat meddelande
Visa tidigare inlägg:   
Skapa nytt inlägg   Svara på inlägget
PHPportalen Forum Index » Webbservrar och operativsystem
Hoppa till:  
Du kan inte skapa nya inlägg i det här forumet
Du kan inte svara på inlägg i det här forumet
Du kan inte ändra dina inlägg i det här forumet
Du kan inte ta bort dina inlägg i det här forumet
Du kan inte rösta i det här forumet
Du kan inte bifoga filer i detta forum
Du kan inte ladda ner filer från detta forum
Kontakta oss på adressen: info@phpportalen.net
Webbplatsen bygger i grunden på phpBB © 2001, 2002 phpBB Group

Modifieringar har senare gjorts i systemet av PHPportalen
Sid och logotypdesign skapad av Daren Jularic