Babel: | ||
---|---|---|
| ||
| ||
Benutzer nach Sprache |
Archiv |
---|
Jahreswechsel 2019
Ich hatte über die Feiertage Gelegenheit etwas zu entspannen, durchzuschnaufen und nachzudenken. Und mich mit den traditionellen guten Vorsätzen zu befassen.
Ich habe viel zu viele offene Baustellen und angefangene Projekte in der Wiki-Programmierung, die mich massiv belasten und mir alle gleichzeitig im Kopf herumgehen. Etliche Kinderkrankheiten der ersten Jahre bis 2009 sind noch auf den Stand der Technik zu bringen, neuen Herausforderungen wird noch zu wenig begegnet.
- Ich werde keinerlei neue Aufgabenfelder mehr eröffnen, bis nicht der Rückstand auf ein überschaubares Maß abgearbeitet wurde und Angelegenheiten geschlossen werden konnten.
- Nur dringliche Anpassungen werden noch vorgezogen; insbesondere wenn durch Weiterentwicklung der MediaWiki-Technik bedingt. Oder wenn es gilt drohende Fehlentwicklungen von vornherein abzuwenden, um nicht hinterher noch mehr Arbeit damit zu haben.
- Mehrere größere Vorhaben müssten eigentlich angegangen werden, stehen teilweise schon seit Jahren in der Warteschlange, aber dort werden sie auch noch verweilen müssen.
Ich werde auch nicht mehr wie im vergangenen Jahr tagesaktuellen Bereitschaftsdienst leisten.
- Dringliche Pflegemaßnahmen an von mir erstellten Programmierungen werde ich versuchen zeitnah umzusetzen.
- Ansonsten möchte ich häufiger einen, mehrere Tage, gar eine Woche mal frei haben.
Ich danke allen, die konstruktiv mitgewirkt haben. --PerfektesChaos 15:08, 1. Jan. 2019 (CET)
Crawler, Bots und Lookahead
Sorry wenn ich dich quäle. Persondata ist seit heute in der Nacht furchtbar langsam. Ich hab so die Vermutung, dass irgendeine Art Lookahead auf Urls passiert. Im Access-Log seit ca. 2 Stunden sind 2600 Zugriffe auf https://persondata.toolforge.org/p/<NAME> (das ist der Link auf Personendaten in der Normdatenleiste), davon sind 2300 mit "Safari" im User-Agent. Ich kann mir nicht so ganz vorstellen, dass ziemlich alle Safari-User auf den Link klicken und die Firefoxer und Chromiumer das nicht machen, mit einem Lookahead des Browsers wäre das besser zu erklären. Irgendeine Idee dazu? --Wurgl (Diskussion) 12:02, 19. Aug. 2025 (CEST)
- Schon okay, für dich immer; zwei Ideen:
- Crawler mit fake-UA
- Wirklich Lookahead (seit zwei Stunden????)
- Wären die UA-Versionsdetails von Interesse.
- Völlig identische würden auf plumpen Faker hinweisen.
- Kann aber auch sein, dass seit zwei Stunden eine neue Safari-Version ausgeliefert wird, und die ein Lookahead machen würde.
- Im Spektrum aller Safari-Versionen im Log müssten verschiedenste ID auftauchen, weil die zwar vielleicht automatisch oder auf manuelle Bestätigung aktualisiert werden, aber manche einige Monate alt und manche vom allerletzten Update.
- Die Menge aller Safari-Benutzungen müsste eine Bündelung auf neue, neuere und allerneueste Versionen in den letzten Tagen zeigen.
- Die Version mit 2600 müsste die allerallerneueste sein, wenn Lookahead seit zwei Stunden im letzten Update konfiguriert wäre.
- Wenn die mit 2600 schon etwas älter ist, die Nummern niedriger, ist es ein kopierter Fake. Dann diese Version gezielt blocken, oder irgendwie einen Antwortverlangsamer von einer Minute einbauen, um echten mit gleicher Version noch eine Chance zu geben.
- LG --PerfektesChaos 12:27, 19. Aug. 2025 (CEST)
- Access-Log war abgedreht, hab es vor zwei Stunden wieder angemacht. Daher diese 2 Stunden.
- fake-UA ist unwahrscheinlich, zu viele verschiedene. Unterschiede in der Versionsnummer, mal mit und mal ohne Edg, EdgA bzw. EdgiOS, mit und ohne Chrome, mal Mobile, mal iPhone, dann Windows, auch Linux und MacOS usw. aber eben Safari im UA --Wurgl (Diskussion) 12:37, 19. Aug. 2025 (CEST)
- Tja, bleibt nix als interessiert zuzugucken.
- UA-Faker können natürlich einer Blockade entgehen und unterschiedlichste Plattformen und Subversionsnummern zusammenwürfeln.
- Ein Lookahead müsste aber nur die allerneueste MajorVersion betreffen und in der Apple-Reklame beworben sein.
- LG --PerfektesChaos 12:42, 19. Aug. 2025 (CEST)
- Hab mal bissl geforscht:
- mit
[https://toolserver.org/persondata/p/Warren_Alland Personendaten]
: Personendaten mit nofollow - mit
[https://persondata.toolforge.org/p/Warren_Alland Personendaten]
: Personendaten KEIN nofollow
- mit
- Kann es sein, dass
#mw-content-text a.external:is([href^="//de.teknopedia.teknokrat.ac.id"], [href^="http://de.teknopedia.teknokrat.ac.id"], [href^="https://de.teknopedia.teknokrat.ac.id"], [href^="//www.wikidata.org"], [href^="http://www.wikidata.org"], [href^="https://www.wikidata.org"], [href*=".toolforge.org/"], [href*=".wmcloud.org/"], [href^="//tools.wmflabs.org"], [href^="http://tools.wmflabs.org"], [href^="https://tools.wmflabs.org"])
oder ein verwandtes Element aus dem css oder gar aus dem Wikimedia-Code da reinspuckt? - Den Link auf toolserver.org/persondata ändern wäre einen Versuch wert, aber da muss dann 1 mio Seiten aus dem Cache entfernt werden. Nicht so toll. --Wurgl (Diskussion) 13:08, 19. Aug. 2025 (CEST)
- Hab mal bissl geforscht:
- Wir hatten es ja schon mal, dass Crawler und womöglich welche die mit Fake-UA unterwegs sind, sich nicht um nofollow scheren müssen.
- Ich würd eher in den jetzt loggenden Stunden die Versionen weiter analysieren.
- Lookahead würde heißen, dass die allerneueste MajorVersion auf diversen Plattformen das jetzt einführt.
- Kommen die Anfragen relativ kontinuierlich alle 3 Sekunden; 2600 in 7200 Sekunden Log?
- Menschen würden mal gebündelt, mal mit größeren Lücken zufällig fragen.
- Meine Abwehrstrategie wäre eher, um die 45 Sekunden Pause nach einer Safari-Anfrage einzulegen. Vielleicht Huawei wieder.
- Crawler mögen keine Antwortzeiten, weil sie viele Anfragen offen halten müssen, und eine Antwort die nächste Frage triggert.
- Für Lookahead wäre es egal, weil die sich eh keiner anguckt, und das als Vergeudung ohnehin seit Jahrzehnten umstritten ist.
- Echte Safari-Menschen haben dann halt Pech und brauchen Geduld. Ich habe FF; mir wär es egal, und ich lese die eh nicht.
- Ich weiß nicht, ob die WMF-Cloud eine Abfrage nach 45 Sekunden ermöglicht, ob der Client noch live ist. Ein Mensch mit Lookahead liest inzwischen einen anderen Artikel, dann sollte ein Lookahead zusammenbrechen. Ein Crawler gibt ggf. nach 30 Sekunden auf. Also vorher keine DB-Abfragen.
- Wenn ein Crawler mit einer Antwort zur nächsten Frage getriggert wird, dann würde eine Antwortzeit von 45 statt 3 Sekunden den Traffic auf 1/15 reduzieren.
- Viel Spaß --PerfektesChaos 13:47, 19. Aug. 2025 (CEST)
- Ich hab im Log mal (mit %D Time taken to serve the request in microseconds) die Antwortzeiten reingemacht
192.168.36.101 persondata.toolforge.org - [19/Aug/2025:11:54:05 +0000] 707009237 "GET /p/Jiang_Lin HTTP/1.1" 200 4460 "-" "Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.13 (KHTML, like Gecko) Chrome/9.0.597.19 Safari/534.13"
- 707.009.237 das sind fast 12 Minuten. Unmittelbar nach dem Neustart sehe ich das hier:
192.168.254.255 persondata.toolforge.org - [19/Aug/2025:09:13:16 +0000] 375112 "GET /p/Gabriel_Mouton HTTP/1.1" 200 6836 "-" "Mozilla/5.0 (iPad; CPU OS 17_0_2 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.0 Mobile/15E148 Safari/604.1"
- 375.112 also 0,3 Sekunden. So soll es sein, aber es kommen wohl zu viele rein und bei 0,3 Sekunden ist nicht viel Optimierungsspielraum.
- Ich hab mal Safari blockiert und beobachte die nächsten 15 Minuten
- PS: Das oben mit der URL-Änderung ist Quark. https://tools.wmflabs.org/persondata/p/Allan_Bloom wäre die Alternative und dort ist auch kein nofollow, geht also nicht. --Wurgl (Diskussion) 14:04, 19. Aug. 2025 (CEST)
- Ich werde das total umbauen. Geliefert wird erstmal ein leerer Frame mit ein paar Basisdaten und alles andere wird dann per Javascript nachgeladen. Tschau bis in 14 Tagen … :-( --Wurgl (Diskussion) 15:33, 19. Aug. 2025 (CEST)
- Ich wüsste nicht, was das zur Serverlast und Anfragemenge und Häufigkeit reduzierend maßgeblich beitragen würde.
- Ein Crawler steht ja trotzdem vor der Tür.
- Allerdings, wenn erst JavaScript die Datenbankabfragen starten würde, und die Seite mit Inhalt füllt, dann hättest du was gespart.
- Die URL zum Abruf der DB müsste allerdings gut getarnt sein, weil ansonsten sieht ein Crawler die womöglich auch. Ist allerdings unwahrscheinlich.
- Umgekehrt schrottest du voraussichtlich auf diesem Weg die Barrierefreiheit.
- Dass das oben mit der URL-Änderung Quark wäre, war mir klar, weil toolserver.org ist zu >99 % tot. Allerdings ein feiner Service der WMF, dass sie das auch weiß, und Crawlern von vornherein sagt, dass ein Folgen der verbliebenen URL in den Wikis im BNR und auf Meta-Seiten sinnlos ist. Was wiederum die Restbelastung des toten Servers und seiner Fehlernotiz senkt.
- LG --PerfektesChaos 15:52, 19. Aug. 2025 (CEST)
- Ich wüsste nicht, was das zur Serverlast und Anfragemenge und Häufigkeit reduzierend maßgeblich beitragen würde.
- Moin Wurgl, ich komme mit Opera und bekomme jetzt folgendes angezeigt: "Wegen Test vorläufig kein Safari/Edge". Männo ;( Geht um die Vorlagensuche: https://persondata.toolforge.org/vorlagen/params mfg --Crazy1880 19:04, 19. Aug. 2025 (CEST)
- Hab wieder aufgesperrt, wird wahrscheinlich nicht lange dauern und es ist wieder tot :-( --Wurgl (Diskussion) 19:19, 19. Aug. 2025 (CEST)
- Tot is natürlich noch mehr männo, da gebe ich dir Recht. Danke --Crazy1880 19:38, 19. Aug. 2025 (CEST)
- Hab wieder aufgesperrt, wird wahrscheinlich nicht lange dauern und es ist wieder tot :-( --Wurgl (Diskussion) 19:19, 19. Aug. 2025 (CEST)
- Moin Wurgl, mal etwas unkonventioneller betrachtet, kann man soch sicherlich ein Count auf die einzelnen Abfragen loggen und würde rausbekommen, ob es unterschiedliche "Personen" sind, oder? Also quasi Gleicher Aufbau > Gleiche Person. Alternative ist ein Captcha einbauen, aber das frisst Zeit. mfg --Crazy1880 18:57, 21. Aug. 2025 (CEST)
Hallo PerfektesChaos, ich meine, du hättest dieses Jahr die Babel-Kategorien verschoben. Könntest du bitte auf der genannten Seite in den Abschnitt "nach Sprachkenntnissen" schauen. Dort sind nur noch rote Kategorien verlinkt. Würde mich freuen, wenn du das beheben könntest :) --Känguru1890 (Diskussion) 15:16, 27. Aug. 2025 (CEST)
- erledigt. --darkking3 Թ 15:38, 27. Aug. 2025 (CEST)
- Perfekt, danke :) --Känguru1890 (Diskussion) 15:59, 27. Aug. 2025 (CEST)