Feuille de style pour convertir le fichier MARC contenant les données de
BAnQ vers un fichier wdef.
- - matches_occupations.xml, matches_places.xml, matches_roles.xml
+ - matches.xml, matches_occupations.xml, matches_places.xml, matches_roles.xml
Liste des équivalents connus dans Wikidata, maintenus manuellement.
- merge_fixes.xslt
pour cela un script pré-existant gérant l’opération de manière automatique.
$ mkdir cache
- $ ./merge_wd_properties.sh 4-wdef-matches.xml cache/ > 5-wdef-reduced.xml 2>/tmp/reduce.log
+ $ ./merge_wd_properties.sh 3-wdef.xml cache/ > 4-wdef-reduced.xml 2>/tmp/reduce.log
6. Déduplication des labels et descriptions
Le projet contient un schema pour dédupliquer les éléments concernés en ajoutant
l’identifiant BAnQ à la description. Il s’invoque de la manière suivante :
- $ xmlstarlet tr fix_label_description_duplicates.xslt 5-wdef-reduced.xml > 6-wdef-dedup.xml
+ $ xmlstarlet tr fix_label_description_duplicates.xslt 4-wdef-reduced.xml > 5-wdef-dedup.xml
8. Le fichier est converti vers sa version canonique. Le contenu est le même,
seule la structure est purgée des entrées inutiles :
- $ xmlstarlet tr wdef_tools/xslts/canonicalize.xslt 6-wdef-dedup.xml > 7-wdef-canonicalized.xml
+ $ xmlstarlet tr wdef_tools/xslts/canonicalize.xslt 5-wdef-dedup.xml > 6-wdef-canonicalized.xml
7. Dernière étape avant l’import, il s’agit de vérifier que le fichier utilisé
pour l’opération est bien valide. Cette validation se fait au moyen d’un schéma
XSD fourni dans le dépôt wdef_schemas :
- $ xmlstarlet val wdef_schemas/wdef.xsd 7-wdef-canonicalized.xml
+ $ xmlstarlet val wdef_schemas/wdef.xsd 6-wdef-canonicalized.xml
9. Cette dernière étape couvre l’import effectif vers Wikidata. L’opération se
parfaitement aux besoins de l’import, il peut être importé dans Wikidata via la
commande suivante :
- $ wdef_tools/scripts/import.sh 7-wdef-canonicalized.xml ids 2>>errors
+ $ wdef_tools/scripts/import.sh 6-wdef-canonicalized.xml ids 2>>errors
Le premier paramètre correspond au fichier wdef à importer. Dans le fichier
choisi en second paramètre seront écrits les identifiants des éléments tels que