XF2.2 Crawler wie Sentione blocken?

sps-forum

Bekanntes Mitglied
Lizenzinhaber
Registriert
8. Sep. 2014
Beiträge
154
Punkte
68
XF Version
  1. 2.2.4
Hallo,

wie ihr vielleicht diesen Beitrag entnommen habt, beschäftigen ich mich aktuell aktiver damit wer alles auf mein Forum zugreift.


In den Logs geht ein erheblicher Teil des Datenvolumen auf das Konto von Conversational KI Plattform, Social Listening-Werkzeug - SentiOne

Irgendwie mag mir das nicht so richtig gefallen...

Wie schätzt ihr das ein?
Sollen die das dürfen?
Blockt man sowas? Wie am besten?

Zugriffe kommen von verschiedenen IP, aber sie haben alle die selbe Domain:
kuba55.sentione.com, kuba49.sentione.com, ... bzw. unterscheiden sich nur in einer Zahl in der Subdomain.

Danke für eure Meinung bzw. Hilfe dazu!
 
Frage
Warum willst du das blocken?/Was willst du erreichen?

Crawler sind dafür da um dich im Internet bekannter zu machen.
 
Wie gesagt, ich weis es nicht - deswegen such ich Rat bei euch.

Sentione hat ja nicht das Interesse meine Seite Bekannter zu machen.
Selbstverständlich will ich keine Crawler von Google und Co blocken.

Aber dieser Anbieter scheint mein Forum im Auftrag eines seiner Kunden auf bestimmte Keywords zu durchsuchen.
Der Kunde möchte scheinbar wissen wie man über ihn und seine Produkte spricht.

Das ist ja soweit alles Nachvollziehbar.
Aber ich empfinden das als etwas dreist, sowas in dem Ausmaß ungefragt zu tun.
Der Trafik ist beachtlich!
 
Der Trafik ist beachtlich!
Das wäre in Zahlen? Ich hätte das jetzt im Monat auf ein paar MB geschätzt.

Wenn die sich an die gängigsten standarts halten kann man die mit der robots.txt ausschließen.
Aber da sehe ich nicht wirklich viel Sinn darin, wenn es öffentliche Seiten sind kann man diese immer auslesen. Kenn so viele Leute die sich selber kleine Bots schreiben die Webseiten auf Veränderungen scannen. Im endeffekt hilft dagegen dann nur htaccess
 
Ehrlichgesagt kann ich dir das nicht genau sagen.
Bin da nicht so er Experte... :)

Trafic liegt im Monat bei ca. 400GB
Ich sehe nur die Anteile aus den Top 30 der Stats.
Da sind es schon 22GB

Ich weiß nicht wie Suchmaschinen Crawler funktionieren bzw. die Server belasten.
Aber mir wäre es lieber wenn Google und Co diese Ressourcen nutzen anstellen von so einem Laden.
 
Aber mir wäre es lieber wenn Google und Co diese Ressourcen nutzen anstellen von so einem Laden.
Was genau unterscheidet die Unternehmen?

Jedenfalls müsstest du in deiner access datei sehen wie der Bot heißt und dann kannst du den über die robots.txt ausschließen; wenn der darauf nicht hört geht nur ein Block über ip/domain
 
Was genau unterscheidet die Unternehmen?

Naja nach meiner Ansicht ist das so:
Google, Bing,... nützen mir was, also sollen sie Performance haben
Dieser Dienst nützt mir Garnichts. Er verbrennt meine Ressourcen damit er damit Geld verdient.

Oder sehe ich das falsch?


Jedenfalls müsstest du in deiner access datei sehen wie der Bot heißt und dann kannst du den über die robots.txt ausschließen; wenn der darauf nicht hört geht nur ein Block über ip/domain

Was spricht dagegen das gleich in der htaccess zu machen?
Wenn ich da "deny from sentione.com"
eintrage, dann sollte er auch alle subdomains blocken, oder?
Also die erwähnten: kuba55.sentione.com, kuba49.sentione.com


Wobei ich wie gesagt offen für Vorschläge bin.
So wie ich deine Aussagen verstehe würdest du das nicht blocken und es einfach so laufen lassen, oder?
 
Was spricht dagegen das gleich in der htaccess zu machen?
Wenn ich da "deny from sentione.com"
Bin schon viel zu lange weg von Apache, nutze seit Jahren ausschließlich nginx, daher hab ich viel aus der htaccess vergessen.

Die frage ist mit was arbeitet die Seite alles zusammen? Deine Webseite wird dann als unerreichbar markiert werden und unter Umständen wird dieser Status mit anderen geteilt. Ich kann die Reichweite nicht einschätzen, aber anscheinend ist sie groß genug um auf einigen meiner Blocklisten zu landen.
 
Was spricht dagegen das gleich in der htaccess zu machen?
ggf. der Performance-Faktor. Kommt auf den Server und dessen Auslastung an.

Und genau an dem Punkt kanns halt sinnvoll sein, unerwünschte weil für einen selbst nicht relevante Bots auszusperren wenn diese nur Ressourcen verbrauchen und keinen Mehrwert erbringen.
Freilich sollte man genau aufpassen, welche Bots man aussperrt und welche halt besser doch erträgt oder gar fördert. Wäre das alles super einfach, gäbe es keine SEO Dienste. ;-)
 
Wenns die eigene Nische zulässt, man z.B. rein über Empfehlungen zu neuen Nutzern gelangen möchte... why not? ;-)
 
Naja wenn du nicht diene Seite so optimierst das du auch Google gefällst, bringt der der google bot auch nicht so viel. Denke das wird überall ähnlich sein.
 
Zurück
Oben