Sujet sur Discussion utilisateur:SyB~Anicium/Structured Discussions Archive 1

SyB~Anicium (discussioncontributions)

Suite de la conversation sur le Scriptorium (janvier 2018) avec @Laurent Jerry

Je vous propose d'échanger ici, on pourra plus facilement coordonner nos efforts ! Actuellement, j'achève l'extraction du texte du volume 1, et j'essaie de compiler un fichier .djvu avec une couche texte, qui soit de bonne qualité visuelle mais pas trop lourd. Il sera ensuite possible de réinjecter le texte mieux OCRisé (j'y travaille !) et de gagner du temps. J'en profite pour expérimenter un peu et progresser

SyB~Anicium (discussioncontributions)

@Laurent Jerry Bonjour, je tâtonne encore pour concevoir un Djvu qui soit vraiment de qualité (j'essaie toujours de perfectionner, c'est habituel ^^ ) Mais je pense pouvoir livrer un fichier de moins de 70Mo, de bonne facture. Je viens aussi de me rendre compte de l'existence, sur Gallica, des cartes correspondantes (elles sont repliées dans les fac-similés) : je pense qu'il sera possible de les charger sur Commons de la même manière ? Cela t'est-il déjà arrivé, est-ce que les images/photos ont leur place sur Commons ? Amitiés.

Laurent Jerry (discussioncontributions)

Bonjour SyB~Anicium. (Désolé si je fais des fautes de syntaxe ou que des bizarreries apparaissent dans mon message, je n'ai jamais utilisé Flow).

Bien entendu, les images ont entièrement leur place sur Commons. C’est même leur lieu de téléversement préférentiel. Si je prends par exemple commons:Category:Histoire des églises et chapelles de Lyon, sur lequel je travaille également, on y trouve le fac-similé lui-même (tomes I et II), mais aussi toutes les images qui en ont été extraites et qui servent pour la mise en page du texte. Mais les images peuvent être chargées dans un second temps, après le fichier lui-même.

Bon courage et à très bientôt

SyB~Anicium (discussioncontributions)

Bonjour @Laurent Jerry, le Tome 1 est en place ! Il me reste encore une opération à tester demain : le match and split. Bien que le texte soit relativement correct, j'ai pu obtenir un texte OCRisé un petit peu plus propre Je vais donc expérimenter cela sur Vicifons (où beaucoup de fonctiones manquent par rapport à Wikisource FR, hélas...

Qu'en penses-tu ? J'espère que nous pourrons trouver quelques relecteurs, ici ou sur Wikipédia (j'ai vu que tu faisais partie du Projet:Christianisme, peut-être que cela intéressera du monde là-bas ?).

Je compte bien faire de même avec les volumes suivants, et j'imagine que tu vas attendre le Tome 4 avec impatience... c'est celui sur Lyon !

Laurent Jerry (discussioncontributions)

C'est absolument magnifique ! Félicitations !

En fait, j'attends certes avec impatience le tome 4, mais tous les tomes même. Plus encore que sur le projet lyonnais, je suis investi de longue haleine sur le projet cistercien, qui concerne donc toute fa France, et même largement au-delà. Disposer d'un pareil matériau est déjà inestimable !

En tout cas, oui, je préviens le projet christianisme sur Wikipédia.

Merci et vraiment bravo !

SyB~Anicium (discussioncontributions)

Merci ! Une chose est sûre, ce type de travail est chronophage... Rien que la mise en place de volumes corrects m'a demandé beaucoup (lire : énormément) d'expérimentations. Je me suis aperçu en cours de route que les numérisations de Google cachaient de très nombreuses « surprises » : pages en double (une quinzaine au moins sur ce volume !), pages complètement absentes (4) que j'ai dû récupérer sur d'autres versions Google... Puis la phase de création du Djvu, et l'OCRisation... Pfiouuuu. Là j'en suis à la dernière étape, qui devrait être achevée ce week-end : je match et split l'ensemble avec un texte de meilleure qualité ; seul défaut de l'opération : souvent, une ligne du début de la page suivante se retrouve en fin de page précédente... Mais je pense que c'est acceptable vis-à-vis du gain de qualité de l'OCR !

Et après c'est tout bon, il n'aura « plus » qu'à transcrire ! Merci d'avoir posté une annonce dans le Projet Christianisme au fait !

Demeurera le problème de la mise en page/forme ; Vicifons est vraiment démuni, voire désert (?!). Les modèles (formulae) ne sont pas classées, rarement fonctionnels, bref, une galère pour trouver des équivalents. Connaîtrais-tu des Wikisourciers prêts à observer quelques pages et à nous rapatrier quelques modèles utiles ? Je pense par exemple à un affichage des notes de marge (un peu comme avec le modèle s:la:Formula:Left sidenote mais sans les bugs d'affichage en mode Page !). Voire des modèles spécialement construits pour ces volumes ? Mais je n'ai pas du tout creusé la question...

edit @Laurent Jerry, pour permettre des notes latérales, ce serait vraiment intéressant de bénéficier d'un modèle "latinisé" repris de celui-ci : Modèle:Manchette Mais comment faire pour créer cela sur Vicifons (avec de préférence un raccourci ?).

Laurent Jerry (discussioncontributions)

En fait, le modèle existe sur Vicifons : la:Formula:Sidenotes begin. Mais, comme tu le vois, il est en anglais. Cela dit, peut-être qu'il fonctionne...

SyB~Anicium (discussioncontributions)

En effet ! Je viens de tester la combinaison des deux modèles, et cela fonctionne pour le mode page !

Dommage, cependant, que les concepteurs n'aient pas jugé bon de faire une formule raccourcie (?). Il va falloir copier/coller à l'infini ces longues formules pour encadrer toutes les notes marginales, en les plaçant (choix éditorial douloureux) à gauche ou à droite.

Et faire appel à un bot (?) pour copier/coller dans tous les en-têtes le modèle Sidenotes begin et dans tous les pieds de page le modèle Sidenotes end !

Dans le texte transclus, cela ne posera plus de problème, apparemment, mais en mode Page, aïe.

Dans un premier temps, peut-être faudra-t-il éviter de transcrire les notes marginales, et y revenir quand une solution simple aura été trouvée ? Peut-être un fichier CSS qui s'applique à tout le volume... Hum, dommage que le scriptorium latin soit aussi peu animé :-/

La bonne nouvelle de la journée c'est l'avancée du match and split -plus que 300 âges environ, mais le bot a souvent des difficultés). Et l'ajout d'une carte en HD ! La province ecclésiastique d'Albi est là !

Il va falloir tester, se tromper, et fixer quelques principes de base si l'on veut aller loin et sainement avec ces grimoires

SyB~Anicium (discussioncontributions)

@Laurent Jerry, comme tu peux le voir j'avance à pas mesurés pour tester en même temps l'affichage en cas de transclusion. Pour l'instant, ça a l'air de rendre assez correctement : VOIR TEST. Cependant, je ne parviens pas à créer de retrait au début des paragraphes - cela ne se fait pas automatiquement comme ici ?

merci

Laurent Jerry (discussioncontributions)

Houlàlà, c'est une bonne question. Je l'ignore. En ce qui me concerne, je viens de faire quelques modifications au modèle la:Formula:Left sidenote pour qu'il soit plus utilisable. Et ça semble fonctionner pour la page II : s:Pagina:Gallia Christiana, 1715, T1.djvu/4. Par contre, pourquoi le <div style="width:40%;"> ? => du coup, la largeur du texte transclus est minuscule (en tout cas chez moi).

SyB~Anicium (discussioncontributions)

C'était une tentative pour régler un souci d'affichage que je rencontre : chez moi la transclusion était aléatoire, mais je croyais être parvenu à quelque chose de correct. Là je viens de retirer tous les <div> de mise en page, et le résultat est en pleine page quand j'arrive sur cette page de test.

Par contre, si j'actualise cette même page, hop, l'affichage en colonne réduite et centrale (comme la maquette classique chez Wikisource FR) se met en place. J'en perds mon latin !!!

SyB~Anicium (discussioncontributions)

Re @Laurent JerryJe crois que le souci est réglé : il fallait ajouter les balises {sidenotes} sur la page de transclusion ! Tu peux me confirmer que tu as un affichage correct sur cette page ?

Laurent Jerry (discussioncontributions)

Impeccable ! Ça me va tout à fait.

SyB~Anicium (discussioncontributions)

Parfait ! Concernant les notes marginales, je pense que nous devrions fixer des règles "simples", notamment pour les placer systématiquement du même côté. La gauche me paraissait bien, car on les voit en mode Page (autrement, la note à droite que tu viens de modifier se cache sous le scan !). On manque vraiment d'outils précis sur Vicifons :)

SyB~Anicium (discussioncontributions)

J'ai simplifié, n'hésite pas à me dire ce que tu en penses :)

  • Notes marginales à gauche
  • Mise en forme sur la page de transclusion uniquement (pour ce qui était de la police et de la taille de celle-ci : j'ignore ce qui m'a pris de mettre en forme paragraphe par paragraphe, autant réserver cela à l'étape finale de présentation/transclusion).
  • Ce qui donne ceci. Comme tu peux le voir, les paragraphes n'ont pas d'indentation en première ligne ; je crois avoir compris pourquoi. Il est probable que Vicifons suive les règles anglo-saxonnes, expliquées ici : les § sont uniquement repérés par un interligne + grand...
  • EDIT : on peut obtenir des paragraphes indentés en plaçant un <div class=text> sur la page de transclusion ! MAIS cela décale absolument tout, à cause des notes marginales sans doute.
SyB~Anicium (discussioncontributions)

Ca y est, solution trouvée : les balises sidenotes doivent être placées à un endroit bien précis, par rapport aux <div text> et à l'autre <div style> ! Le résultat me paraît satisfaisant cette fois-ci (avec une police à 120% spécialement pour l'épitre au régent)

SyB~Anicium (discussioncontributions)

@Laurent Jerry, bonjour ! Je vois que tu avances courageusement de ton côté sur une page à colonnes ! Ne faudra-t-il pas leur ajouter un pour aplatir la présentation en transclusion ? Les colonnes ne pourront pas être conservées, je le crains... D'où ma proposition de laisser les notes marginales sur un seul côté pour éviter des bugs par la suite...

La bonne nouvelle, c'est que je suis parvenu à améliorer notablement la qualité du texte OCRisé (avec des chercher/remplacer), en m'occupant en plus des ligatures ! Je prépare cela. Je pense que cela va donner un sacré coup de pouce à la vérification.

Cerise sur le gâteau, j'ai trouvé une technique pour passer directement à l'étape SPLIT, ce qui va m'épargner un temps fou pour le Tome 2 Et je risque de l'employer aussi sur Wikisource FR à l'occasion ; si jamais tu as besoin d'un meilleur texte quelque part, n'hésite pas.

Laurent Jerry (discussioncontributions)

Bonjour à toi !

Eh bien oui, j'essaie de respecter la mise en page initiale, parce que sinon, la numérotation « double » ne veut plus dire grand-chose... donc, oui, il va falloir que je trouve le moyen de faire fonctionner les notes latérales droites.

Bravo pour les rechercher/remplacer, je n'ai pas travaillé sur suffisamment de texte pour repérer des erreurs systématiques de reconnaissance de caractère (et aussi, je ne connais pas le latin, ce qui est assez handicapant).

Par contre, pour le reste de ton message, je... ne suis pas assez calé pour comprendre de quoi il retourne. Désolé ! Mais, manifestement, bravo !

SyB~Anicium (discussioncontributions)

Ne me félicite pas trop vite @Laurent Jerry, il reste encore du pain sur la planche ^^

Plus j'y réfléchis, et plus je pense qu'il faudra sacrifier le système de colonnes originel... Du moins dans la transclusion. Comment faire autrement ? L'objectif de la transclusion c'est, à mon sens, d'offrir au lecteur contemporain une présentation de lecture contemporaine. Respectueuse du contenu d'origine, mais adaptant sa forme aux moyens modernes. Je crains que les pages se suivent sans que leurs colonnes puissent s'assembler correctement. Et même, dans l'espace Page:, cela risque d'être très ardu de faire coïncider les deux colonnes retranscrites à celles d'origine. Rien ne vaut un bon test, néanmoins, et j'imagine qu'il faudra transclure quelque part les premières pages de la province d'Albi pour passer à l'étape de réflexion suivante :)

En tout cas, c'est très intéressant de te voir ajouter des solutions, et ton aide m'encourage à poursuivre le côté "technique", que je découvre encore.

En fait, j'essaie juste de simplifier au maximum la tâche des retranscripteurs éventuels, en nettoyant bien le texte et en insérant dès le début les ſ, les æ, etc (j'ai suffisamment peiné à les taper à la main dans les premières pages). Pas évident pour les ſ car j'essaie de minimiser le nombre de S qui devront être replacés individuellement... J'ai été tenté de les zapper complètement pour moderniser tout le texte, mais j'ai vu qu'ils n'étaient pas handicapants lorsqu'on cherchait un mot qui les contient : ils sont perçus comme des S classiques. Donc je préfère les conserver, quitte à ce qu'un jour quelqu'un choisisse de les ôter (ou mieux : que l'on implémente le bouton "Modernisation" qui existe sur le WS français...). Il sera facile de les remplacer par des s. L'inverse est plus complexe.

Répondre à « Projet Gallia Christiana »