Uživatel:Cswikisource-bot
Z Wikizdrojů, volně dostupné knihovny
Tento uživatelský účet slouží pro hromadné robotické editace na projektu. Bota spravuje uživatel Milda (jeho diskusní stránka).
Používá (mírně upravenou) sadu skriptů pywikipediabot doplněnou o skriptování v prostředí operačního systému Linux (bash, sed, Perl).
Obsah |
[editovat] Poznámky
Níže jsou a budou publikovány některé postupy, které jsem využil při strojových editacích české verze Wikisource. Smyslem zveřejnění je jednak pro mě samotného mít možnost dohledat, co jsem jak dělal (jaký skript s jakými parametry jsem volal apod.), kódy ale mohou sloužit i jako inspirace jiným uživatelům. Upozorňuji však, že jsem z Linuxu zvyklý pracovat často stylem „udělej si sám“, takže možná dělám složitě něco, co jde jednoduše nebo pro co existuje specializovaný skript v pywikipediabot frameworku, pouze já jsem o něm nevěděl. ;-)
[editovat] Zakládání kategorií
#!/bin/sh i=2009 while [ $i -le 2052 ]; do sed -e "s/YYYY/$i/" tmp/hiddencat.wiki > tmp/hiddencat.wiki.$i python pagefromfile.py -start:___boundary___ -end:___boundary___ -file:tmp/hiddencat.wiki.$i -summary:hiddencat -minor -force -notitle i=$((i+1)) done
kde iniciální soubor tmp/hiddencat.wiki obsahuje:
___boundary___ '''Kategorie:Odkazy na díla volná od roku YYYY''' __HIDDENCAT__ [[Kategorie:Stránky s odkazy na dosud chráněná díla]] ___boundary___
[editovat] Přesuny stránek
V názvu některých stránek byla chyba způsobená OCR softwarem (záměna ě za ĕ).
cat tmp/zvonyazvonky.txt | { while read NAZEV; do echo "$NAZEV" | grep 'ĕ' && \ NOVYNAZEV=`echo "$NAZEV" | tr 'ĕ' 'ě'` && \ python movepages.py -from:"$NAZEV" -to:"$NOVYNAZEV" -summary:'oprava ĕ/ě v názvu' done }
[editovat] Oprava znaků v textu stránek
Stránky obsahovaly, jako chybu způsobenou OCR softwarem, znaky ĕ namísto ě).
cat tmp/zvonyazvonky.txt | { while read NAZEV; do python replace.py -page:"$NAZEV" 'ĕ' 'ě' -summary:'oprava ĕ/ě' -always done }