Séance 6 Traitement des pages html

Pour le moment, nous avons collecté les Urls multilingue, y compris coréen, chinois, russe, anglais, francais. Dans cette partie, nous allons exécuter le script et afficher le résultat.

Notre motif: travailleur expatrié

Etant donnée que nous n’avons pas fini le segmentation de chinois, donc ici j’ai testé seulement le motif en fançais et anglais, soit travailleur expatrié, salarié expatrié, foreign worker.

la ligne de commande en Terminal:

sh ./PROGRAMMES/projetxu.sh ./URLS ./TABLEAUX/motif_table.html « foreign|worker|travailleur|expatrié|salarié »

Attention:

1. pour le Mac, pas besion de perl, donc il faut changer cette ligne de script comme ça:

2. N’ouliez pas de modifier le contenu du fichier de motif dans le dossier de minigrepmultilingue-v2-2

3. Garder le format de fichier qui contient les urls en Unix, sinon le résultat ne passe bien.

4. Modifier l’enodage du texte par défaut comme utf-8, sinon lors de l’éxécution de script, il ne peut pas récupérer les caractères spéciales, par exemple « é », « à »…

le résultat obtenu ici:

Remarque: dans certaines lignes, il affiche 0 ou – , c’est le problème de url en PDF, je vais les modifier ces derniers jours. De plus, j’ai exécuté seulment les motif en français et anglais, je vais parfaire mon script pour afficher les résultats en tous les cinq langues.

Un avis sur « Séance 6 Traitement des pages html »

  1. Bonjour

    Pour l’écriture de votre motif :

    A mon avis, il serait plus judicieux de garder les formes au singulier.
    Pê faudra-t-il expliquer quelque part pourquoi le genre n’est pas « marqué » ou utilisé dans ces séquences…

    De même, supprimer la frontière de mot (\b) dans le fichier motif de minigrep

    SF

    J’aime

Laisser un commentaire

Concevoir un site comme celui-ci avec WordPress.com
Commencer