Wikisource Diskussion:Statistik
Änderungen
BearbeitenÄnderungen an den zu zählenden Daten sollten nur in gut begründeten Fällen vorgenommen werden, sonst sind die Zahlen ja nicht vergleichbar. --9xl 20:55, 6. Jul. 2009 (CEST)
- Jedenfalls ist so oder so die Anzahl der Autorenseiten nicht exakt, da die 125 anderen Kategorien mitgezählt werden, wo die Autorenseite bereits gezählt wurde. Die 125 müssen also trotzdem abgezogen werden. Wieviele ADB-Autoren auch eine Autorenseite haben, lässt sich nicht genau bestimmen (schade dass für unser Projekt die Vorlagenauswertung nicht aktiv ist). --enomil 21:10, 6. Jul. 2009 (CEST)
- Ich habe 30 ADB:Autoren nachgesehen, 23 davon hatten auch einen Eintrag in der Kategorie:Autoren; das ist schon viel. Wenn noch etwas an der Zählerei zu ändern ist, sollte das wirklich jetzt geschehen. Meine Idee war, dass im Lauf der Zeit halt die Entwicklung sichtbar wird. -- mfg --9xl
- An der Idee ist ja nichts auszusetzen, nur müssen die Zahlen halbwegs stimmen (das heißt Subkategorien abziehen oder dazunehmen). Ich bin trotzdem dafür die 126 Subkategorien von Kategorie:Autor abzuziehen, das würde dann alle wirklichen Autorenseiten zählen. --enomil 11:31, 7. Jul. 2009 (CEST)
- Das ist auch viel, ich habe die Subtraktion also wieder reingebaut und auch noch andere. Die paar historischen Zahlen auch korrigiert. Die Anzahl der Unterkategorien müsste eigentlich dann auch immer mitgeführt werden, woran ich allerdings nicht glaube da es die Systemvariable SUBCATEGORIESINCATEGORY nicht gibt ;-) Soviel zur Genauigkeit. --9xl 16:18, 8. Jul. 2009 (CEST)
- An der Idee ist ja nichts auszusetzen, nur müssen die Zahlen halbwegs stimmen (das heißt Subkategorien abziehen oder dazunehmen). Ich bin trotzdem dafür die 126 Subkategorien von Kategorie:Autor abzuziehen, das würde dann alle wirklichen Autorenseiten zählen. --enomil 11:31, 7. Jul. 2009 (CEST)
- Ich habe 30 ADB:Autoren nachgesehen, 23 davon hatten auch einen Eintrag in der Kategorie:Autoren; das ist schon viel. Wenn noch etwas an der Zählerei zu ändern ist, sollte das wirklich jetzt geschehen. Meine Idee war, dass im Lauf der Zeit halt die Entwicklung sichtbar wird. -- mfg --9xl
100k Bearbeitungen
BearbeitenWer ist denn die Arbeitsbiene mit den über 100.000 Bearbeitungen? --Jmb1982 09:38, 30. Sep. 2010 (CEST)
- Ich habe mir fest vorgenommen, keine Personendaten öffentlich zu machen, um solche Diskussionen zu vermeiden. In diesem Fall kann ich aber auf die offizielle Statistik (nach unten scrollen) verweisen. --9xl 10:44, 30. Sep. 2010 (CEST)
- Alles klar... Danke... War auch meine Vermutung :-) --Jmb1982 10:47, 30. Sep. 2010 (CEST)
Statistik ohne Großprojekte...
BearbeitenHallo 9xl,
mich würde - wenn du sowieso die nächste Monatsstatistik erstellst und es nicht zu viel Aufwand ist - einfach mal interessieren, wie unsere Seiten-Statistik aussähe, ohne die beiden Groß- und Langzeitprojekte ADB und Gartenlaube... Ich hab mich mal halbwegs durchgeklickt, es dürften gut 26.000 der unkorrigierten Seiten Gartenlaube + ADB sein, zudem über 18.000 Seiten im Status "korrigiert"... Mich würde einfach nur interessieren, wie wir ohne die beiden Projekte dastehen würden. Wenns aber nicht geht, gehts halt nicht... Danke und Gruß --Jmb1982 16:14, 22. Okt. 2010 (CEST)
- Diese Frage gibt mir Gelegenheit mal auszuplaudern, was da gemacht wird:
- Die Tabelle Bearbeitungsstand enthält zwei Auswertungen, Werke und Seiten.
- Seiten ist schnell abgehandelt. Benutzer:ThomasV stellt auf dem Toolserver einige Zahlen bereit, wie http://toolserver.org/~thomasv/cgi-bin/pagesinns.pl?server=3&db=dewikisource&ns=102&cat=Korrigiert , die ich nutze. Diese Funktionen bieten keine Möglichkeit irgend etwas aus der Erfassung auszuschließen, bzw. mir ist nichts dergleichen bekannt.
- Für Werke nutze ich Catscan, bspw. http://toolserver.org/~daniel/WikiSense/CategoryIntersect.php?wikilang=de&wikifam=.wikisource.org&basecat=Werke&basedeep=1&mode=cs&tagcat=Korrigiert&tagdeep=1&userlang=de . Die Ausgabe bricht allerdings bei 1000 Seiten ab und verrät nicht wieviele es tatsächlich sind. Wenn man aber das Ausgabeformat Wikitext oder CSV wählt, wird eine vollständige Liste ausgegeben und man braucht nur noch die Zeilen zu zählen ;-)
- Zurück zu deiner Frage: ADB-Artikel sind nicht in die Kategorie Werke eingeordnet und die Scans sind extern und nicht im Namensraum Seite. Damit sind ADB-Artikel nicht in der Auswertung der Bearbeitungsstände enthalten. Ein Gartenlauben-Artikel ist dagegen ein Werk und in der Auswertung enthalten. Die Gartenlaube auszuschließen ist nach meinem Wissensstand nicht möglich, aber du kannst gerne eigene Experimente mit Catscan anstellen. Stand von heute:
- Unkorrigiert = 8
- Korrigiert = 710
- Fertig = 144
- Mit freundlichen Grüßen 9xl 10:57, 23. Okt. 2010 (CEST)
Basierend auf dieser Grundlage: Einträge in der Kategorie:Die Gartenlaube (Tiefe 2) und
- Kategorie:unkorrigiert: ~22000
- Kategorie:korrigiert: ~1550
- Kategorie:fertig: 682
- Das heißt, auf 10 unkorrigierte Seite kommt eine korrigierte oder fertige.
Die ersten beiden Zahlen habe ich gerundet, da auch andere Einträge berücksichtigt wurden (bspw. Jahresseiten), die letzte hat den Stand von jetzt (oder das, was der Toolserver für aktuell hält). Nicht berücksichtigt ist in diesen Zahlen, dass es viele Seiten gibt, die mehr oder weniger teilkorrigiert sind, weil sich der Korrekteur nur für einen Teil der Texte interessierte, PR2 jedoch keine derartige Kennzeichnung kennt. --32X 02:13, 24. Okt. 2010 (CEST)
Sagen, Fabeln etc.
BearbeitenBei der entsprechenden Zahl fehlen die Kategorien Reimfabel und Sagenballade. Der Jahresanfang bietet sich vll. an die Zahl entsprechend zu korrigieren. Gruß -- Finanzer 18:55, 1. Jan. 2011 (CET)
- Gemacht. --9xl 21:21, 1. Jan. 2011 (CET)
Benutzerstatistik
BearbeitenAls Quelle für die Editzahlen habe ich mit einem Script Soxred93 Editcounter abgefragt. Das funktioniert leider nicht mehr. Schon im Mai 2011 gab es Schwierigkeiten, die ich noch überwinden konnte indem ich meine Abfragen als Firefox unter Windows 7 tarnte. Im Juni hat der Programmierer offenbar weitere Hürden eingebaut um automatische Abfragen zu blocken. Diese konnte ich bisher nicht überwinden. Deshalb kann ich die Benutzerstatistik vorerst nicht weiterführen. --9xl 15:42, 30. Jun. 2011 (CEST)
Der Betreiber des Editcounters hat sich etwas neues einfallen lassen, was dazu führt dass eine automatische Abfrage unserer ca. 2800 Benutzer etwa 24 Stunden dauern würde - wenn er nicht ein einziges mal hängen bleibt. Ich kann diesen Service also nicht weiterführen. --9xl 10:50, 30. Nov. 2011 (CET)
Bearbeitungen der Mitarbeiter
BearbeitenSicher kriegt mans auch im Koppe raus, ich finde aber die Bearbeitungen der Mitarbeiter könnten neben den Bots auch als Summe da stehen? -- Paulis 19:29, 8. Aug. 2011 (CEST)
Seitenaufrufe
BearbeitenIch werde Wikisource:Statistik/Seitenaufrufe nicht weiterführen. Die Daten von http://dammit.lt/wikistats erscheinen unzuverlässiger als je, die Diskrepanzen zur offiziellen Statistik sind riesig, sodass diese Auswertung nur noch den Wert einer Spielerei hat. Hinzu kommt, das die Seite nur noch sporadisch erreichbar ist, der Betreiber hat anscheinend das Interesse an der Sache verloren.
Wenn sich jemand weiterhin damit befassen möchte, ich stelle die Scripte zur Verfügung, Kontakt per Wikimail. Gebraucht wird PHP, Mysql und ca. 60 GB Download pro Monat. --9xl 10:30, 22. Okt. 2011 (CEST)
Topographia
BearbeitenHallo.
Werden neben den Einzelseiten auch die Ortstexte der Topographia-Werke irgendwo in der Statistik erfasst? Macht es sich in der Statistik bemerkbar, dass ich gerade dabei bin, den korrekten Bearbeitungsstand von 150 Orten nachzutragen? --Jmb1982 11:52, 20. Feb. 2012 (CET)
- Nein. Nur die Topographien, also Franconiae, Hassiae, usw. stehen in der Kategorie Werke, nicht die einzelnen Ortsartikel. Ich denke, das ist auch richtig so. --9xl 18:26, 20. Feb. 2012 (CET)
- Danke... Da will man mal die Statistik pimpen und alles Essig :-) --Jmb1982 18:36, 20. Feb. 2012 (CET)
Dauernd aktive Benutzer
BearbeitenDa die Quelle Spezial:Aktive_Benutzer verschwunden ist, kann diese Auswertung nicht mehr weitergeführt werden. --9xl (Diskussion) 09:00, 30. Apr. 2013 (CEST)
Bot-Edits
BearbeitenFür die Bot-Edits habe ich bisher die Anzahl der sichtbaren Edits des Bearbeitungszählers benutzt. Das kann aber zu inkonsistenten Zahlen führen, z. B.:
- Im April 2014 wurden 473 Edits von Benutzer:MediaWiki default gelöscht. Das führte zu einer Summe von 1621 Bot-Edits, aber allein Benutzer:Fkraus hat in diesem Monat mehr als 2000 Bearbeitungen.
Ich habe deshalb das Verfahren auf die Gesamtzahl der Edits umgestellt und die Monatszahl per Hand ermittelt (wir haben ja nur vier bis fünf aktive Bots). Dadurch passen in diesem Monat die Zahlen nicht zusammen, in Zukunft sollten aber keine Inkonsistenzen mehr auftauchen. --9xl (Diskussion) 11:04, 30. Apr. 2014 (CEST)
November 2014
BearbeitenNun zeigte sich ein weiteres Problem: Die Gesamtzahl der Edits betrug 8125. Es hatte aber Fkraus laut http://tools.wmflabs.org/supercount/index.php?project=de.wikisource&user=Fkraus in diesem Monat alleine 5875 Bearbeitungen was für die User 2250 Edits übrig lässt. Das ist mit Sicherheit nicht richtig. Nach Beobachtungen scheint es so zu sein, dass Seitenschutz-Aktionen in den Gesamtedits nicht enthalten sind. Ob das schon länger/immer so war entzieht sich meiner Kenntnis. Jedenfalls macht die bisherige Auswertung nach Botedits und Useredits so keinen Sinn und wird deshalb nicht fortgefüht. --9xl (Diskussion) 10:02, 30. Nov. 2014 (CET)
Anzahl externer Links, nbn-resolving.de
BearbeitenÜber http://nbn-resolving.de werden nicht nur Digitalisate der ULB Düsseldorf verlinkt, sondern auch der ULB Münster, LLB Detmold, UB Paderborn u.a.
ULB Düsseldorf | 2.769 |
ULB Münster | 1.381 |
LLB Detmold | 448 |
UB Paderborn | 167 |
UB Bonn | 29 |
UB Köln | 4 |
--Ath (Diskussion) 10:25, 31. Aug. 2014 (CEST)
- nbn-resolving.de löst natürlich noch viel mehr auf.
- Der verwendete Bezeichner urn:nbn:de:hbz erfasst demnach alle Hochschulbibliotheken in NRW? --9xl (Diskussion) 11:22, 31. Aug. 2014 (CEST)
Statistiker gesucht
BearbeitenIch möchte in absehbarer Zeit die Aktualisierung der Statistikseite in andere (jüngere?) Hände übergeben. Der Zeitaufwand beträgt beim derzeitigen Umfang ca. 20 Minuten monatlich, wenn toollabs funktioniert. Wer das weiterführen möchte, bitte hier melden. --9xl (Diskussion) 11:25, 22. Mär. 2015 (CET)
- Ich bin jung und brauche das Geld ;-) --THE IT (Diskussion) 11:50, 10. Jul. 2015 (CEST)
- @9xl: wie schaut es aus, willst du das immer noch abgeben? Gruß --THE IT (Diskussion) 10:11, 12. Okt. 2016 (CEST)
- Ich habe am 1.7.2015 abgegeben. Wieso ich auf deine Nachricht vom 10.7.2015 nicht geantwortet habe, verstehe ich jetzt nicht ? Aber, Standardantwort: It's a wiki! Feel free... --9xl (Diskussion) 21:16, 12. Okt. 2016 (CEST)
- Noch ein paar tipps? Welche tools nutzt du? --THE IT (Diskussion) 23:51, 12. Okt. 2016 (CEST)
- Einige Petscan-Links (mit Angaben von gerade eben):
- Seiten sind unkorrigiert 26586
- Seiten sind korrigiert 31867
- 190106 Seiten sind fertig
- Seiten sind sofort fertig (Dieser Korrekturstatus wurde – wir erinnern uns – eingeführt, weil im internationalen Vergleich befürchtet wurde, dass die Deutsch(sprachig)en in den Statistiken bescheißen.) 5736
- Alles in allem gab es in den letzten 15 Monaten ein Rückgang der (un)korrigierten Seiten um rund 3000 (− 5 %), während die Zahl der fertigen um 22.000 wuchs (+ 13 %). Dennoch les ich hier und da noch die alte Mär vom erdrückenden Berg der unfertigen, der Altlasten. --René Mettke (Diskussion) 11:04, 13. Okt. 2016 (CEST)
- Das meiste scheint man wohl mit Petscan abgefrühstückt zu bekommen. Dann wird das wohl mal einfach automatisiert. --THE IT (Diskussion) 11:07, 13. Okt. 2016 (CEST)
- Noch ein paar tipps? Welche tools nutzt du? --THE IT (Diskussion) 23:51, 12. Okt. 2016 (CEST)
- Ich habe am 1.7.2015 abgegeben. Wieso ich auf deine Nachricht vom 10.7.2015 nicht geantwortet habe, verstehe ich jetzt nicht ? Aber, Standardantwort: It's a wiki! Feel free... --9xl (Diskussion) 21:16, 12. Okt. 2016 (CEST)
- @9xl: wie schaut es aus, willst du das immer noch abgeben? Gruß --THE IT (Diskussion) 10:11, 12. Okt. 2016 (CEST)
Genau so ist es.
- Die Botedits habe ich manuell abgefragt mit der Botliste von Useredits in ein Spreadsheet eingetragen zum summieren und Differenzen zum Vormonat. Da werden jedoch zu häufige Zugriffe der gleichen IP blockiert, d. h. bei Fehlermeldung 5 Minuten warten und dann weitermachen.
- Seitenstatistik die aktuellen Werte in eine neue Zeile.
- Bearbeitungsstände
- Werke von Petscan
- Alle Werke
- Fertig
- Korrigiert
- usw.
- ns:Seite
- Werte von dieser Seite
Alles in ein Spreadsheet, Differenzen und Prozente ausrechnen.
- Benutzerstatistik, aktuelle Werte in eine neue Zeile.
Das waren die tools soweit es mich betrifft ;-) 9xl (Diskussion) 17:46, 13. Okt. 2016 (CEST)