Přeskočit na obsah

Uživatel:JAn Dudík/Nápady

Z Wikizdrojů, volně dostupné knihovny

Textinfo

[editovat]
  • sjednotit názvy parametrů, přednostně malá písmena
  • VYDÁNO a ZDROJ rozdělit na více parametrů (zakomponovat citaci knihy)
    • datum vydání (1888, 1888-12-01) - postupně zavádám
    • název zdroje (Nové básně)
    • vydavatel (J. R. Vilímek)
    • url (http://example.com)
    • místo vydání (Praha)
    • vydání č.
  • WIKISLOVNÍK-HESLO zrušit
  • odkaz na Wikidata
  • WIKIPEDIA* zjednodušit a ujasnit
    • WIKIPEDIA má směřovat na článek o knize
    • WIKIPEDIA-HESLO a -DALŠÍ mají směřovat na téma hesla z encyklopedie - šlo by sloučit s Wikidaty, protože občas článek na české Wikipedii neexistuje. pokud má položka na wikidatech vyplněné téma, zkusí se vzít odkaz z něj. Možná by šlo sloučit do jediného parametru.
    • označit číselně, ke které části hesla se vztahuje (Otto a encyklopedie obecně)
    • WIKIPEDIA-HESLO hlásí chybu v některých dílech, i když je tam umístěna dobře
  • doplnit ilustrátora a odkaz na kategorii na Commons
  • Autoři - řeší Danny B.
    • Autorská stránka i pro nedostatečně identifikované, mimo neuveden, kolektiv, redakce. neznámý= Anonym? co s tradicionálem?
    • pod jednou zkratkou mohlo publikovat více autorů, zvláště, pokud je každá v jiné publikaci.
  • číslo kapitoly, viz níže
  • sloučení s šablonou {{NavigacePaP}} u podstránek, v této šabloně je navíc název díla (obvykle zjistitelný z názvu nadřazené stránky) a navigace předchozí/další
  • parametr redakční úpravy, kam by se dávala informace buď o úpravách provedených redaktory Wikizdrojů nebo i redakcí vydavatele (obvykle poznámka, že text prošel redakčními úpravami někde v doslovu či poznámce vydavatele)
  • parametr na online zdroj/kopii. Dnes je někde řešeno přímo v textu stránky, což je špatně.
[editovat]
  • V současnosti řešena šablonou {{NavigacePaP}}, ale mela by se sloučit s {{Textinfo}}.
  • V určitých případech by bylo potřeba odkázat na dvě předchozí/další. Typicky u periodik, kde jde o pravidelnou rubriku - odkaz na předchozí článek v témže čísle + odkaz na tutéž rubriku v předchozím čísle.
  • jak navigiovat u přeložených encyklopedií? dle původního řazení či dle českého názvu?
    • je šance, že by někdy byla některá cizí encyklopedie přeložená celá (podstatná část?)?
      • U Otty máme po 10 letech cca 15%. Vlastenský slovník má po 5 letech cca 71%, překládaná Britannica asi 2‰


Periodika

[editovat]

U periodik je nutné mít vytvořenou univerzální strukturu. Vzhledem k množství přehledových stránek by možná nebyl od věci samostatný jmenný prostor, jenže co pak s články? dávat do přehledového NS (horší hledání) nebo do hlavního s kopií struktury na nejnižší úrovni (chybějící vyšší úrovně)?

  • Hodilo by se něco na způsob {{Redakční poznámka}} k umístění nahoru (inline), kam by se umisťovaly poznámky k příslušným ročníkům/číslům (tento ročník měl 28 čísel, které vycházely čtrnáctidenně, o prázdninách týdně) apod.) Další možné použití je u historických textů (např. Alexandreis), kde by bylo dobré na začátek uvést pár pzonámek
  • Lámat přehled do sloupců?
  • Automatická kategorizace dle roku a periodika
    • periodikum=
    • okrajový případ: číslo 1 (leden), které vyšlo již v prosinci.
deníky
  • Deník/Rok/měsíc/den nebo raději jen Deník/Rok/datum.
    • co v případě více vydání (ranní/večerní)?
    • struktura pak Noviny/1910/duben/1. duben (ráno)/Nějaký článek
  • Seznam měsíců a denních vydání by šel předpřipravit šablonou {{Kalendář|1910|leden}}, tedy parametry rok a měsíc. pak zbývá jen ošetřit nepravidelnosti typu více vydání za den, nedělní čísla, dny, kdy noviny nevyšly. to by se mohlo dělat natvrdo zadanými parametry s číslem dne. den5=2 by udělalo v pátém dnu dva odkazy (1. vydání, 2. vydání) pro raník a večerník, naopak den9=1 udělá odkaz i v neděli 9. a den19=0 neudělá odkaz 19.
    • jak v takovém případě odkazovat na online zdroje? udělat další hromadu parametrů? nebo odkazovat až v jednotlivých číslech?
      • U ročníku odkázat na přehledovou stránku ročníku na Krameriovi, to samé u čísla.
  • co ještě zahrnout mimo zpráv? inzeráty? různá oznámení? hádanky? Vtipy? komiksy?
    • šachové úlohy zde jsou, patří sem i křížovky?
  • jak moc členit? třeba rubrika Různá oznámení se leckdy skládá z desítek drobných zpráviček, leckdy s různými autory.
    • var.1: vše na jedné stránce jako odstavce. výhoda - jednodušší struktura, vše pohromadě. nevýhoda - mix autorů a témat
    • var.2: podstránky. výhoda - není to mix, nevýhoda - potřeba další úrovně, není na pohled patrné, že jde o součást jedné rubriky
    • Var.3: v přehledu čísla udělat nadpis rubriky bez odkazu, jednotlivé články dávat samostatně na úrovni ostatních článků. Možná promítnout do názvu (/Oznámení: Významné jubileum dr. Křečka)?
    • Var.3a: Po sobě následující drobnosti s podobnou tématikou bez podpisu/s jedním autorem sloučit do jedné rubriky (např. anekdoty)
  • Četba na pokračování?
    • specifický případ - článek začínající na titulní (poslední) straně a pokračující dále v čísle. Určitě jde dát do jednoho textu, ale vyznačovat zlom?
časopisy, týdeníky a jiné v delší periodě
  • struktura jednoznačně Časopis/ročník/číslo
    • u časopisů mi přijde lepší než rokem uvádět ročník číslem, občas se totiž měnila periodicita a období vydávání (školní/kalendářní rok)
    • to pokryje i nepravidelnosti (dvojčísla, mimořádná čísla) Časopis/15. ročník/9-10
    • kvůli řazení mi přijde lepší dávat číslo na začátek
  • co s četbou na pokračování?
    • některá díla vyšla i knižně, jiná zřejmě vycházela jen tehdy jednou.
      • šlo o různá vydání, tedy raději zduplikovat
  • dávat články do struktury časopisu nebo zvlášť?
  • některé časopisy měly kontinuální číslování čísel, jiné kontinuální číslování stránek v ročníku
  • Potřeba dvojité navigace

Stanovit, od kdy zařazovat ojedinělé články do struktury. Pokud je z časopisu jediný článek, není nutné dělat strukturu. Pokud je převzato více textů, případě se přebírá systematicky, pak zařadit.

specifické parametry

[editovat]

Roboticky jsem vyčlenil tyto parametry:

  • periodikum = označuje název periodika. Řadí do stejnojmenné kategorie. neměl by se vyskytovat současně s parametrem EDICE =
  • ročník = pouze číslo (arabské/římské nebo rok, výjimečně rozsah roků)
  • číslo = u většiny periodik s výjimkou těch, co vycházela jednou ročně
  • datum vydání = ve formátu rrrr-mm-dd, případně rrrr-mm. Pomocí modulu by mělo jít převést na normální datum např. 15. června 1895 nebo červenec 1906. Tento parametr se používá i jinde.
  • strany = číslo, rozsah, čísla oddělená čárkou. Tento parametr se používá i jinde.

Z výše uvedených parametrů by měla jít sestavit citace zdroje ve formátu Periodikum. ročník 1, číslo 6, str. 10-12. vydáno 15. června 1895. často jsou údaje neúplné, chybí stránky (nepovinné), číslo nebo je datum zapsáno nestandardně.

Tyto parametry pokrývají většinu použití s výjimkou ranního/odpoledního vydání a článků, které vyšly na pokračování

Nyní by bylo dobré projít postupně všechna periodika.

Pojmenování podstránek

[editovat]

Má-li dílo více kapitol/básní, měly by se dávat na podstránky. Kapitoly vždy, u povídek, pohádek a básní asi záleží na případu. Umístění v první úrovni (tedy ne na podstránce) má tu výhodu, že se informace o příslušném textu (minimálně autor, překladatel) dostanou snadněji na Wikidata. Současná praxe není jednotná, co se pojmenování týče. Šablona {{Textinfo}} obsahuje položku TITULEK, která by měla být většinou shodná s názvem podstránky. V praxi nastávají čtyři výjimky, z nichž dvě by se mohly vymýtit.

  1. rozlišovač (dvě básně stejného názvu v jedné sbírce), ten musí zůstat zachován.
  2. Prefix, obvykle číslo kapitoly
  3. Suffix (obvykle interpunkce)
  4. zkrácení či rozepsání názvu

V případě pojmenované kapitoly je zbytečné uvádět v názvu její číslo (ale výjimky se zřejmě najdou, typicky výpravné názvy jako Kapitola III., ve které náš hrdina udělá, co by nikdy neudělal.). Tedy kapitola XI. Cesta do neznáma. by se mohla uvádět jako Cesta do neznáma . Tečka na konci je také zbytná, uváděl bych to jen v případě, že se jedná o jinou interpunkci (!?) nebo v případě košatých názvů kapitol. Zřejmě by šlo zavést do šablony parametr na číslo kapitoly, teĎ mne nenapadá praktické využití, možná jen jako jakýsi Defaultsort {{BASEPAGENAME}}/{{{číslo kapitoly}}} {{SUBPAGENAME}} Stejně tak bych nedával do názvů podstránek uvozovky, pokud jsou v názvu každé kapitoly. Zkracování či rozepisování názvů kapitol by mělo být výjimečné, a spíše jen zkracování u opravdu extrémně dlouhých názvů. třeba takové Historie o těžkých protivenstvích církve české/Václav, pastýř církve arnoštovické a Kunrád, arcibiskup pražský už mi přijde hraniční. Dekret presidenta o přihlášení vkladů a jiných peněžních pohledávek u peněžních ústavů, jakož i životních pojištění a cenných papírů se už nevejde ani na obrazovku :-)

Stupeň rozpracovanosti

[editovat]

U stránek s podstránkami by šlo zjišťovat, kolik podstránek již existuje. Skriptem/dotazem do databáze by šlo zjistit, kolik stránka obsahuje odkazů a kolik z nich je červených. Prostým podílem se dá získat orientační procento zpracovanosti díla. Trochu problém bude u vícestupňových děl. Větší problém bude u děl, které mají transkludovaný obsah, i když u nich zase lze zjistit podíl zpracovaných stránek skenu. Pokud má dílo odkazováno 10 podstránek, z nichž je zpracováno 5, má dílo 50% zpracováno. Číslo je samozřejmě jen orientační, neboť nebere v úvahu délku podstránek ani druhou úroveň. Pokud by se tato metodika podařila dostatečně automatizovat, mohlo by se pak do šablony {{Textinfo}} přímo uvádět nějaké číslo a pomocí něj kategorizovat. Dalším problémem jsou díla, která nemají kompletní výpis podstránek.

Skeny

[editovat]

V ideálním případě by mělo dílo obsahovat odkaz na online originál, nejlépe na sken knížky. Stránky vytvořené pomocí extenze Proofread (nebo mající sken na commons) obsahují takový odkaz v parametru INDEX=. Mnoho dalších knih je k dispozici na archive.org, v systému Kramerius nebo na Google Books.

  • Archive.org je dobrý v tom, že lze odkazovat na konkrétní stránku knihy. Kniha lze stáhnout v různých formátech. Lze automatizovaně přenést na Commons nástrojem https://tools.wmflabs.org/ia-upload/ (nápověda na en:Help:Internet_Archive).
  • Kramerius má několik verzí, často se nedá jednoduše odkázat na konkrétní stránku. Skeny z Krameria jdou stáhnout jako PDF, ale podle verze jen 20, 60 nebo 100 stránek zároveň
  • Google Books zřejmě není příliš použitelný z území ČR, ale stejné knihy by mělo být možné najít na archive.org

Pro archive.org by se mohla vytvořit šablona, kam by se uváděl identifikátor. Kramerius již takovou šablonu má.

Dle pravidel Commons lze skeny volných děl nahrávat na Commons i z těchto služeb (po smazání úvodní disclaimerové stránky), pro archive.org je dokonce nástroj na přenos. Ale nevím, zda by neměla třeba národní knihovna námitky při masovějším přenášení skenů, v současnosti ten občas nějaký zřejmě nikdo neřeší.

Vydání

[editovat]

Jedno dílo může být na Wikizdrojích i vícekrát, pokud se výrazněji liší.

  • Pokud jedna báseň vyšla ve stejné podobě v pěti různých sbírkách a antologiích, udělat pět stejných stránek s různým zdrojem? nebo jen zmínit v obsahu, že jde o duplikát?
  • V jiných případech se díla mohou mírně lišit, jako třeba báseň v časopise a ve sbírce o 16 let později. Jindy se liší třeba ilustracemi, poznámkami, přepracováním, doplněním...
  • U sbírek jednoznačně dávat strukturu Sbírka/báseň či povídka
  • U knih Kniha/kapitola

Tento systém s uváděním vícera vydání má trochu nevýhodu v tom, že se hůře zjišťuje seznam všech děl autora - třeba Batlička psal pouze povídky, které vycházely po různých časopisech. V pozdějších letech vyšly knižně, ale zřejmě se nedá sehnat určitá skupina knih, která obsahuje všechny povídky jen jednou. Buď se některé opakují nebo nějaká chybí. (subjektivní dojem když jsem je četl, rešerši jsem si zatím nedělal)

Další otázkou je, co s díly, která léta vychází v téměř identické podobě, například Povídání_o_pejskovi_a_kočičce, kde se s výjimkou kapitoly Jak pejsek s kočičkou slavili 28. říjen za léta měnila (po redakční úpravě) výhradně interpunkce či drobné úpravy pravopisu a slovosledu. Z 99,5% jde o identická díla. Ovšem asi nehrozí, že by se s tím chtěl někdo natolik systematicky piplat. V současnosti u Pejska a kočičky zřejmě postačí, že je u příslušné kapitoly uvedena poznámka o jiném vydání...

Wikidata

[editovat]

Ostatně soudím, že na Wikidatech můžou mít svou položku téměř všechny stránky z hlavního jmenného prostoru, protože i u kapitol se to dá využít na prolinkování s originálem/překladem

  • básně a pohádky medle mohou být importovány všechny
  • Prozatím u všech stránek, které mají položku, importuji autora a překladatele.

Bratrský pravopis

[editovat]

Pro přepis z bratrského pravopisu se používá hlavně pár stále stejných náhrad.

  • wv
  • jí
  • gj
  • ſſ (ss) → š
  • auou
  • eyej

Po zběžném prozkoumání si myslím, že by mohl jít napsat jednoduchý skript s použitím funkce replace() [1], který by hromadně měnil na kliknutí v textu tyto znaky v jednom či druhém směru. Stejně tak by pravděpodobně mohl jít upravit [2] použitý font, aby si zájemce mohl přepnout na frakturu.


Extenze Proofread

[editovat]

I když některé jazykové verze mají většinu děl udělanou přes tuto extenzi, nemyslím, že je to úplně správná cesta.

Výhody

[editovat]
  • Možnost kontroly (viz sekce o skenech)
  • Snadný převod skenu na text.
    • Využití OCR
    • Porovnávání stránek
  • Označení stupně kontroly
  • Možnost udělat jen část textu (jednu stránku) a ke zbytku se vrátit jindy
  • Možnost práce více lidí na jednom díle
  • Rychlé zjištění stupně zpracovanosti

Nevýhody

[editovat]
  • OCR má u některých stránek problémy s více sloupci
  • OCR někdy nechce u některých stránek fungovat
  • OCR v některých případech opravuje správná slova (starší forma) dle svého slovníku, naopak jiná slova neopraví.
  • Trasnkluze
    • Text je uložen jinde
    • (Skryté) znaky v textu navíc.
      • Při použití <pages index="XXX.djvu" include=1-5/> je přímo ve zdroji jen prázdný span
      • Při použití {{Stránka}} se i v textu objevují názvy/čísla stránek
    • dělení slov (odstavců, seznamů, spanů...) na zlomu stránek, ještě horší v situaci, kdy jde o více sloupců, které pokračují na další stránce
    • Nutnost různých hacků
    • rozložením na mnoho stránek se u složitějšího členění mnohem hůře udržuje jednotná forma - třeba už jen dohledávání začátků kapitol
  • Neúplná či zcela chybějící dokumentace (hlavně k různým pomocným šablonám)
  • Při transkluzi více stránek problematické dohledávání, na které stránce zdroje je třeba opravit chybu
  • Vyhledávání
  • Ne zcela jednoduché substování, ale zatím mi přijde jednodušší než transkludovat, zvlášť v případě více děl na stránce pak kopírovat.
  • Nutnost korektury alespoň dvou lidí, než je dílo zcela hotovo (zelená)

Problémy

[editovat]
  • U kapitol/básní na jednu stranu použitelné.
  • U málo stránek (básně) docela použitelné, problém na přelomu stránek
  • Pokud je na jedné stránce více básní/kapitol, složitější transkluze (opět chybějící dokumentace)
  • Míchání stylů, kdy některá díla lze editovat přímo, jiná přes stránky. Pokud je jedno dílo jedním stylem, není to až takový problém, ale pokud je dílo z části transkludováno a z části přímo vloženo (např. 1 heslo ve VSH transkludováno, dalších 700+ přímo vloženo), je to špatné.
  • Mnohá díla už jsou z části nebo zcela přepsána, ale nemají vytvořenou stránku díla nebo podstránky, takže de facto neexistují (nejsou ani transkludovaná v hlavním jmenném prostoru)
  • Někteří uživatelé se snaží převést stránky se vším všudy, včetně čísel stránek, oddělovačů a snad i tiskových značek. Což sice vypadá pěkně při porovnání skenu s textem, ale dělá problémy při transkluzi.
    • Tento způsob také v mnoha případech narušuje sémantiku, kdy nejsou nadpisy vždy správně označeny jako nadpisy, ale jsou jen všelijak pozvětšovaným běžným textem. (aneb BFU a Word).
  • Trasnkluze formátované titulní stránky odsouvá to hlavní (obsah) níže, leckdy je nutné scrollovat.
  • Trasnkludované stránky nedodržují formu (např. {{Forma|proza}}vloženou v cílové stránce. Způsobeno znakem > v definci
    .proza > p { text-indent: 2.5em; text-align: justify; margin-top: 0; margin-bottom: 0 }
    
  • Pokud je obsah transkludován, nelze (robotem) získat seznam odkazovaných stránek (obdobně, jako by šlo o šablonu)

Zatímco některé věci se dají vyřešit sepsáním lepší dokumentace či vytvořením nástrojů, jiné jsou poměrně zásadní a vyžadují opravu celé extenze či změnu celé koncepce. Navíc narážíme na nedostupnost zdrojových scanů k přenosu na Commons a nedostatek lidí

Encyklopedie a Wikidata

[editovat]
  • Položky Wikipedia-heslo a Wikipedia-další importovat na wikidata jako P921
  • Naopak nastavit P1343 (název encyklopedie) s vymezením P805 (název položky)
    • Pomocí Quick statements, zkopírovat tsv soubor z následujícího query, import z první verze
cs.wikisource
de.wikisource
en.wikisource