Séance 5 Parfaire le script

On reprendra du script de le séance 4, il aura des ajouts et modifications, l’objectif de cette partie est les étapes suivants est :

Etape N°1 : lecture

les fichiers input 

Etape N°2 : pour les fichiers entrés 

Premièrement, on voit si l’URL est OK, si oui, on va détecter l’encodage d’URL, l’encodage ideal est UTF8. Deuxièmement, si le test passe bien, nous pouvons faire des manipulations suivants – traitement d’URL. Autrement, nous devons convertir l’encodage ( le méthode sera vu dans la prochaine partie).

1 Tester les URLs 

pour tester les URLls s’ils sont acceptables pour le traitement, on va utiliser une commande curl, La commande curl est disponible sur la plupart des systèmes basés sur Unix. C’est l’abréviation de « Client URL ». Les commandes Curl sont conçues pour fonctionner comme un moyen de vérifier la connectivité aux URL et comme un excellent outil pour transférer des données. Je liste certaines commandes vues avec curl dans cette partie:

-o: le résultat sera sauvé dans le fichier passé en paramètre

-v: vous permet d’avoir plus d’informations (cookies, header, ip, …) concernant le

téléchargement.

-I: seulement retourner l’information de head 

On écrit la commande comme ça:

Retourcurl:$(curl -o toto.txt https://   -w % {http_code})

echo retourcurl 

si  code de statut de réponse HTTP est 200: OK! Il indique la réussite d’une requête. et on peut continuer. on va l’intégrer dans le script.

2. Détecter l’encodage d’URL

On verra l’encodage d’URL, l’encodage idéal est UTF8, pour récupérer la valeur de l’encodage précisément, on écrit la commande: 

Curl -I https://      | egrep ‘charset’

ici on utilise egrep: recherche sur fichiers, il nous permet d’isoler rapidement un élément dans un fichier de configuration, dans la sortie d’une commande ou dans un fichier texte quelconque est un atout essentiel sur un système GNU-Linux pour lequel “tout est fichier”.

Hors cela, egrep supporte les expressions régulières étendues, concernant les expressions régulières, on a aussi vu au cours de Langage Régulier. Voici les commandes fréquentes de egrep dans notre projet:

Optionusage
-i ignorer la casse, rechercher sur fichier en minuscule et majuscule
-nindiquer le numéro de ligne
-v chercher les lignes qui n’incluent PAS le motif de recherche
-Rcherhcer de manière récursive tous les fichiers du(des) répertoire(s)
-wne chercher le motif QUE comme mot entier
^chercher une ligne commence par … (exemple: egrep ^A)
$chercher une ligne finissant par…(exemple: egrep N$)

c’est pas tous les options de commande egrep, si on rencontre plus d’option après, on peut les ajouter.

De plus, on rencontre la commande complémentaire iconv pour convertir l’encodage de fichier.

nous sommes en train de collecter les URLs concernant notre sujet, une fois les URLs soient bien collectés, je vais parfaire mon programme pour générer une page HTML qui contient toute les informations de URLs, et le montrer ici …

Laisser un commentaire

Concevoir un site comme celui-ci avec WordPress.com
Commencer