Uživatel:Cswikisource-bot

Z Wikizdrojů, volně dostupné knihovny

Přejít na: navigace, hledání

Tento uživatelský účet slouží pro hromadné robotické editace na projektu. Bota spravuje uživatel Milda (jeho diskusní stránka).

Používá (mírně upravenou) sadu skriptů pywikipediabot doplněnou o skriptování v prostředí operačního systému Linux (bash, sed, Perl).

Obsah

[editovat] Poznámky

Níže jsou a budou publikovány některé postupy, které jsem využil při strojových editacích české verze Wikisource. Smyslem zveřejnění je jednak pro mě samotného mít možnost dohledat, co jsem jak dělal (jaký skript s jakými parametry jsem volal apod.), kódy ale mohou sloužit i jako inspirace jiným uživatelům. Upozorňuji však, že jsem z Linuxu zvyklý pracovat často stylem „udělej si sám“, takže možná dělám složitě něco, co jde jednoduše nebo pro co existuje specializovaný skript v pywikipediabot frameworku, pouze já jsem o něm nevěděl. ;-)

[editovat] Zakládání kategorií

#!/bin/sh
i=2009
while [ $i -le 2052 ]; do
    sed -e "s/YYYY/$i/" tmp/hiddencat.wiki > tmp/hiddencat.wiki.$i
    python pagefromfile.py -start:___boundary___ -end:___boundary___ -file:tmp/hiddencat.wiki.$i -summary:hiddencat -minor -force -notitle
    i=$((i+1))
done

kde iniciální soubor tmp/hiddencat.wiki obsahuje:

___boundary___
'''Kategorie:Odkazy na díla volná od roku YYYY'''
__HIDDENCAT__
[[Kategorie:Stránky s odkazy na dosud chráněná díla]]
___boundary___

[editovat] Přesuny stránek

V názvu některých stránek byla chyba způsobená OCR softwarem (záměna ě za ĕ).

cat tmp/zvonyazvonky.txt | { 
  while read NAZEV; do
    echo "$NAZEV" | grep 'ĕ' && \
    NOVYNAZEV=`echo "$NAZEV" | tr 'ĕ' 'ě'` && \
    python movepages.py -from:"$NAZEV" -to:"$NOVYNAZEV" -summary:'oprava ĕ/ě v názvu'
  done
}

[editovat] Oprava znaků v textu stránek

Stránky obsahovaly, jako chybu způsobenou OCR softwarem, znaky ĕ namísto ě).

cat tmp/zvonyazvonky.txt | {
  while read NAZEV; do
    python replace.py -page:"$NAZEV" 'ĕ' 'ě' -summary:'oprava ĕ/ě' -always
  done
}

[editovat] Odkazy