Projet la vie des mots

mercredi 27 novembre 2013

Problèmes de sens de lecture

Les problèmes d'encodage, c'est un cauchemar quotidien lorsqu'on travaille sur des corpus. Surtout sur des corpus venants du web. Surtout sur des corpus comprenant des systèmes d'écriture non latins.

Mais aujourd'hui, nous avons eu affaire à une nouveauté dans le domaine : les problèmes liés au sens de lecture. Voyez plutôt :

cliquer pour agrandir la capture

Nous avons ici une capture d'écran du résultat d'un script perl qui nous est fourni (minigrep) pour effectuer des recherches de motif avec des systèmes d'écriture divers. L'une de nos langues de travail est l'arabe, langue qui se lit de droite à gauche.

Dans un encodage Unicode, les caractères sont entrés dans l'ordre de lecture, sans tenir compte de la nature de cet ordre. C'est à dire qu'en arabe, où on doit écrire

, sitôt qu'on écrit de l'arabe le curseur se déplace de droite à gauche, et on entre d'abord 11, puis le mot. Si on affiche les octets composant le fichier, on observera que les octets correspondant à "11" viendront avant les octets correspondant à "سبتمبر". C'est le rôle du moteur de rendu, ici votre navigateur préféré, d'afficher le texte de droite à gauche.

Il en résulte divers problèmes lorsqu'on mélange de l'arabe avec du français (comme pour rédiger cet article) ou avec du code (comme pour écrire une expression régulière). Dans la rédaction de cet article, j'ai été contrainte d'utiliser une image pour illustrer mon propos dans le paragraphe précédent, la succession d'écritures latine et arabe renvoyant le curseur à droite ou à gauche, mais jamais au bon endroit !

Mais revenons aux problèmes de programmation. Sur la capture, nous avons en haut l'expression régulière soumise à Perl. A la suite, les contextes où la regex a été trouvée. L'ordre change, et pourtant le motif est détecté.

L'inversion peut s'être produite à plusieurs niveaux, mais le plus probable est que le problème vienne tout simplement de l'affichage du fichier html de sortie. Dans l'affichage de la regex, l'arabe se trouve juste à côté de caractères latins. Le "11" a été traité comme faisant partie du texte latin, et a donc été placé à gauche. Dans l'affichage du résultat, on a un bloc de texte arabe, dans lequel les "11" ont été placés au bon endroit.

Mais pour écrire notre expression régulière, nous avons dû écrire "11" puis le mot signifiant "septembre" pour repérer les occurences de ce qui s'affiche à l'écran comme étant "septembre" puis "11"... si on ignore le sens de lecture.

Comme quoi, même en tout Unicode, on n'est pas sortis de l'auberge.

Corpus complet

Voici notre corpus de travail complet, portant sur quatre langues : le français, l'anglais, l'allemand et l'arabe. Chaque langue comporte 30 à 40 URLs.

Liste des URL
Français
1	http://www.slate.fr/monde/77352/nes-11-septembre-2001...
2	http://www.larousse.fr/encyclopedie/divers/attentats_du_11_s...
3	http://bourse.lefigaro.fr/indices-actions/actu-conseils/l-ho...
4	http://www.lefigaro.fr/international/2013/07/18/01003-201307...
5	http://www.lefigaro.fr/international/2013/04/29/01003-201304...
6	http://www.lemonde.fr/11-septembre/article/2011/09/11/les-tr...
7	http://www.lemonde.fr/ameriques/article/2013/08/19/proces-du...
8	http://www.lemonde.fr/ameriques/article/2012/09/05/11-septem...
9	http://www.lemonde.fr/ameriques/article/2012/05/06/les-accus...
10	http://www.lemonde.fr/ameriques/article/2012/05/05/cinq-accu...
11	http://bigbrowser.blog.lemonde.fr/2011/09/29/al-qaida-a-ahma...
12	http://www.lemonde.fr/ameriques/article/2011/09/22/le-centre...
13	http://www.lemonde.fr/11-septembre/article/2011/09/12/11-sep...
14	http://www.lemonde.fr/culture/article/2011/09/12/mille-et-un...
15	http://lci.tf1.fr/monde/amerique/un-pompier-mort-le-11-septe...
16	http://lci.tf1.fr/lexique/11-septembre-6609830.html...
17	http://lci.tf1.fr/monde/amerique/11-septembre-recherche-de-r...
18	http://lci.tf1.fr/monde/amerique/bientot-de-nouvelles-recher...
19	http://lci.tf1.fr/culture/livres/d-un-septembre-a-l-autre-l-...
20	http://lci.tf1.fr/monde/amerique/le-cerveau-du-11-septembre-...
21	http://lci.tf1.fr/monde/amerique/11-septembre-les-accuses-so...
22	http://lci.tf1.fr/monde/amerique/a-ground-zero-avec-valerie-...
23	http://lci.tf1.fr/monde/amerique/le-11-septembre-une-pause-d...
24	http://tempsreel.nouvelobs.com/justice/20130920.OBS7892/t-sh...
25	http://www.20minutes.fr/monde/1249495-20131113-world-trade-c...
26	http://braindamaged.fr/2013/09/11/911-special-11-septembre-a...
27	http://www.agoravox.fr/tribune-libre/article/j-accuse-les-fa...
28	http://www.liberation.fr/monde/2013/09/11/les-etats-unis-com...
29	http://www.liberation.fr/monde/2013/10/26/11-septembre-la-to...
30	http://www.liberation.fr/monde/2013/10/23/torture-les-accuse...
31	http://www.liberation.fr/monde/2013/11/10/guantanamo-la-dess...
32	http://www.liberation.fr/monde/2013/04/27/un-morceau-d-avion...
33	http://www.liberation.fr/monde/2011/09/08/la-bombe-a-retarde...
34	http://www.liberation.fr/monde/2011/09/11/j-aimerais-faire-c...
35	http://www.liberation.fr/monde/2011/09/10/ben-laden-a-laisse...
36	http://www.liberation.fr/monde/2011/09/08/a-ground-zero-un-v...
37	http://www.liberation.fr/monde/2012/04/09/polemiques-autour-...
38	http://www.liberation.fr/monde/2013/11/13/world-trade-center...
39	http://www.liberation.fr/societe/2009/09/17/mathieu-kassovit...
40	http://www.liberation.fr/monde/2012/06/15/11-septembre-la-te...
Anglais
1	http://www.airdisaster.com/special/special-0911.shtml...
2	http://www.herald.co.zw/remembering-the-first-911/...
3	http://11-sept.org/home.html...
4	http://usa.usembassy.de/gemeinsam/03e.htm...
5	http://www.bbc.co.uk/history/events/the_september_11th_terro...
6	http://www.telegraph.co.uk/news/worldnews/september-11-attac...
7	http://en.wikipedia.org/wiki/September_11_attacks...
8	http://www.history.com/topics/9-11-attacks...
9	http://911digitalarchive.org/...
10	http://www.911truth.org/...
11	http://www.september11news.com/DailyTimeline.htm...
12	http://www.september11news.com/Mysteries1.htm...
13	http://www.september11news.com/Mysteries2.htm...
14	http://www.september11news.com/InternationalReaction.htm...
15	http://www.september11news.com/PresidentBush.htm...
16	http://www.september11news.com/PresidentBushPentagon.htm...
17	http://amhistory.si.edu/september11/...
18	http://www.globalresearch.ca/the-unspoken-truth-on-911-septe...
19	http://www.nybooks.com/articles/archives/2013/nov/07/thomas-...
20	http://www.peacefultomorrows.org/history...
21	http://www.peacefultomorrows.org/about-us...
22	http://www.telegraph.co.uk/news/worldnews/al-qaeda/10306755/...
23	http://www.telegraph.co.uk/news/worldnews/september-11-attac...
24	http://www.telegraph.co.uk/news/worldnews/september-11-attac...
25	http://www.telegraph.co.uk/news/worldnews/september-11-attac...
26	http://www.telegraph.co.uk/news/worldnews/september-11-attac...
27	http://www.telegraph.co.uk/news/worldnews/middleeast/syria/1...
28	http://www.telegraph.co.uk/news/worldnews/september-11-attac...
29	http://www.telegraph.co.uk/news/worldnews/september-11-attac...
30	http://www.telegraph.co.uk/news/worldnews/september-11-attac...
31	http://www.globalresearch.ca/the-911-reader-the-september-11...
32	http://www.aljazeera.com/news/americas/2013/09/2013911173289...
33	http://www.reuters.com/article/2013/09/11/us-usa-worldtradec...
34	http://swampland.time.com/2011/09/12/in-obamas-commemoration...
35	http://content.time.com/time/arts/article/0,8599,2092287,00....
36	http://content.time.com/time/nation/article/0,8599,2092503,0...
37	http://world.time.com/2011/09/08/ten-years-after-911-is-it-n...
38	http://content.time.com/time/nation/article/0,8599,2092455,0...
39	http://content.time.com/time/nation/article/0,8599,2092304,0...
40	http://content.time.com/time/nation/article/0,8599,2092686,0...
Allemand
1	http://de.wikipedia.org/wiki/Terroranschl%C3%A4ge_am_11._Sep...
2	http://www.heise.de/tp/artikel/39/39855/1.html...
3	http://news4kids.de/wissen/gesellschaft/article/september-20...
4	http://www.helles-koepfchen.de/artikel/2691.html...
5	http://www.voltairenet.org/article179584.html...
6	http://pravdatvcom.wordpress.com/2012/09/24/11-september-200...
7	http://www.rp-online.de/politik/deutschland/wie-deutschland-...
8	http://www.tagesschau.de/ausland/meinelfterseptember100.html...
9	http://www.fr-online.de/11--september-2001/11--september-200...
10	http://www.lpb-bw.de/11september.html...
11	http://www.focus.de/politik/ausland/usa/11-september-2001/er...
12	http://www.bpb.de/politik/hintergrund-aktuell/68721/9-11-und...
13	http://www.wtc-terrorattack.com/index2.htm...
14	http://www.heise.de/tp/artikel/39/39855/1.html...
15	http://www.fu-berlin.de/presse/informationen/fup/2011/fup_11...
16	http://www.faz.net/aktuell/politik/zehn-jahre-nach-9-11/die-...
17	http://principiis-obsta.blogspot.fr/2013/10/der-11-september...
18	http://www.kleinezeitung.at/nachrichten/politik/3405701/usa-...
19	http://www.tagesspiegel.de/kultur/zehn-jahre-nach-9-11-was-d...
20	http://www.deutschlandfunk.de/der-11-september.724.de.html?d...
21	http://www.aerztezeitung.de/panorama/k_specials/9-11/article...
22	http://www.arbeiterfotografie.com/galerie/kein-krieg/hinterg...
23	http://www.baerfacts.de/2007/05/19/die-verschwoerung-um-den-...
24	http://www.sueddeutsche.de/thema/11._September...
25	http://politiken.dk/udland/faktaudland/ECE1383504/11-septemb...
26	http://www.buergerstimme.com/Design2/2011-09/die-medien-und-...
27	http://derhonigmannsagt.wordpress.com/2013/09/11/11-septembe...
28	http://info.kopp-verlag.de/hintergruende/geostrategie/webste...
29	http://www.politaia.org/terror/der-11-september-und-die-erlo...
30	http://www.wahrheiten.org/blog/911-luege/...
31	http://www.abendblatt.de/dossiers/article1790380/Der-Terror-...
Arabe
1	http://www.voltairenet.org/article151755.html...
2	http://www.aljazeera.net/specialfiles/pages/4ccbb98b-1c5e-43...
3	http://www.brooonzyah.net/vb/t10975.html...
4	http://www.alrakoba.net/articles-action-show-id-11905.htm...
5	http://www.egy-press.com/STORYDETAILS.ASPX?STORYID=34034 ...
6	http://www.alalam.ir/news/691124...
7	http://www.ouarsenis.com/ara/diver_info/119.html...
8	http://ar.wikipedia.org/wiki/%D8%A3%D8%AD%D8%AF%D8%A7%D8%AB_...
9	http://www.iraqicp.com/index.php/2013-03-22-11-04-13/2013-03...
10	http://www.samaa-news.com/news13816.html...
11	http://www.odabasham.net/show.php?sid=14298...
12	http://www.humanitarianibh.net/conferences/noaydi.htm...
13	http://www.albayan.ae/opinions/articles/2011-09-08-1.1499370...
14	http://travel.maktoob.com/vb/travel658294/...
15	http://arabic.rt.com/prg/telecast/658139-%D8%AD%D9%82%D8%A7%...
16	http://www.saadahpress.net/news-10428.htm...
17	www.akhbarelyom.com/news/newdetails/208173/1/تأثير-11-سبتمبر...
18	http://www.vetogate.com/634496...
19	http://www.ahewar.org/debat/show.art.asp?aid=76121...
20	http://albainah.net/index.aspx?function=Item&id=1965&lang...
21	http://www.akhbarelyom.com/news/newdetails/208256/1/%D8%A7%D...
22	http://www.al-moharer.net/moh259/sameera_rajab259g.htm...
23	http://www.assakina.com/center/files/24469.html...
24	http://www.elaph.com/Web/NewsPapers/2013/9/835302.html...
25	http://akhbaar24.argaam.com/article/detail/148012/%D8%A7%D9%...
26	http://akhbaar24.argaam.com/article/detail/127109/%D9%85%D8%...
27	http://akhbaar24.argaam.com/article/detail/134753/%D8%A7%D9%...
28	http://akhbaar24.argaam.com/article/detail/109153/%D8%A7%D9%...
29	http://www.alrakoba.net/articles-action-show-id-11905.htm...
30	http://www.almasryalyoum.com/node/2109551...
31	http://www.egyptian-copts.com/article.php?id=12575...
32	http://samlala.com/2011/09/%D8%A3%D8%AD%D8%AF%D8%A7%D8%AB-11...
33	http://www.al-jazirah.com/2012/20120915/ar8.htm...
34	http://nahar-documentary.blogspot.fr/2013/04/11-2001.html...
35	http://al-mashhad.com/News/%D8%A8%D9%86-%D9%84%D8%A7%D8%AF%D...
36	http://www.alrai.com/article/538116.html...
37	http://www.turkistanweb.com/?p=605...
38	http://www.alwasatnews.com/elections/page/745109.html...
39	http://www.alroya.info/ar/alroya-newspaper/report/39618----1...
40	http://www.alnaharegypt.com/t~147475...
41	http://www.alwatan.com.sa/dialogue/News_Detail.aspx?ArticleI...

mercredi 6 novembre 2013

Connaître l'encodage des pages aspirées en adaptant le script bash

première page

1	http://www.slate.fr/monde/77352/nes-11-septembre-2001	page aspirée N° 1	utf-8	DUMP N° 1
2	http://www.larousse.fr/encyclopedie/divers/attentats_du_11_septembre_2001/143942	page aspirée N° 2	utf-8	DUMP N° 2
3	http://bourse.lefigaro.fr/indices-actions/actu-conseils/l-hommage-maladroit-d-at-t-aux-victimes-du-11-septembre-495871	page aspirée N° 3	utf-8	DUMP N° 3
4	http://www.lefigaro.fr/international/2013/07/18/01003-20130718ARTFIG00552-11-septembre-le-proprietaire-des-tours-jumelles-veut-faire-payer-les-compagnies-aeriennes.php	page aspirée N° 4	utf-8	DUMP N° 4
5	http://www.lefigaro.fr/international/2013/04/29/01003-20130429ARTFIG00289-11-septembre-interrogations-autour-du-train-d-atterrissage-retrouve.php	page aspirée N° 5	utf-8	DUMP N° 5
6	http://www.lemonde.fr/11-septembre/article/2011/09/11/les-tribunes-publiees-dans-le-monde-apres-les-evenements_1570742_1569588.html	page aspirée N° 6	utf-8	DUMP N° 6
7	http://www.lemonde.fr/ameriques/article/2013/08/19/proces-du-11-septembre-les-procureurs-veulent-accelerer-les-procedures_3463049_3222.html	page aspirée N° 7	utf-8	DUMP N° 7
8	http://www.lemonde.fr/ameriques/article/2012/09/05/11-septembre-le-proces-pour-negligence-d-american-et-united-airlines-aura-bien-lieu_1756030_3222.html	page aspirée N° 8	utf-8	DUMP N° 8
9	http://www.lemonde.fr/ameriques/article/2012/05/06/les-accuses-du-11-septembre-silencieux-face-a-la-justice_1696410_3222.html	page aspirée N° 9	utf-8	DUMP N° 9
10	http://www.lemonde.fr/ameriques/article/2012/05/05/cinq-accuses-du-11-septembre-comparaissent-a-guantanamo-devant-un-tribunal-decrie_1696348_3222.html	page aspirée N° 10	utf-8	DUMP N° 10
11	http://bigbrowser.blog.lemonde.fr/2011/09/29/al-qaida-a-ahmadinejad-arretez-les-theories-de-conspiration-sur-le-11-septembre/	page aspirée N° 11	utf-8	DUMP N° 11
12	http://www.lemonde.fr/ameriques/article/2011/09/22/le-centre-culturel-musulman-pres-de-ground-zero-a-ouvert_1575728_3222.html	page aspirée N° 12	utf-8	DUMP N° 12
13	http://www.lemonde.fr/11-septembre/article/2011/09/12/11-septembre-barack-obama-vante-les-etats-veritablement-unis-d-amerique_1570983_1569588.html	page aspirée N° 13	utf-8	DUMP N° 13
14	http://www.lemonde.fr/culture/article/2011/09/12/mille-et-une-autres-facons-de-vivre-et-raconter-l-islam_1571041_3246.html	page aspirée N° 14	utf-8	DUMP N° 14
15	http://de.wikipedia.org/wiki/Terroranschl%C3%A4ge_am_11._September_2001	page aspirée N° 15	utf-8	DUMP N° 15
16	http://www.heise.de/tp/artikel/39/39855/1.html	page aspirée N° 16	utf-8	DUMP N° 16
17	http://news4kids.de/wissen/gesellschaft/article/september-2001-der-tag-der-die	page aspirée N° 17	utf-8	DUMP N° 17
18	http://www.helles-koepfchen.de/artikel/2691.html	page aspirée N° 18	iso-8859-1	DUMP N° 18
19	http://www.voltairenet.org/article179584.html	page aspirée N° 19	utf-8	DUMP N° 19
20	http://pravdatvcom.wordpress.com/2012/09/24/11-september-2001-die-dritte-wahrheit-extended-edition-video/	page aspirée N° 20	utf-8	DUMP N° 20
21	http://www.rp-online.de/politik/deutschland/wie-deutschland-auf-den-11-september-reagierte-1.2097664	page aspirée N° 21	utf-8	DUMP N° 21
22	http://www.tagesschau.de/ausland/meinelfterseptember100.html	page aspirée N° 22	utf-8	DUMP N° 22
23	http://www.fr-online.de/11--september-2001/11--september-2001-die-usa-erinnern-an-die-opfer-von-9-11,1477440,24284652.html	page aspirée N° 23	utf-8	DUMP N° 23
24	http://www.lpb-bw.de/11september.html	page aspirée N° 24	unknown-8bit	DUMP N° 24
25	http://www.focus.de/politik/ausland/usa/11-september-2001/erinnerungen-an-den-11-september-2001-ich-sah-einen-riesigen-feuerball_aid_654906.html	page aspirée N° 25	utf-8	DUMP N° 25
26	http://www.bpb.de/politik/hintergrund-aktuell/68721/9-11-und-die-folgen	page aspirée N° 26	utf-8	DUMP N° 26
27	http://www.voltairenet.org/article151755.html	page aspirée N° 27	utf-8	DUMP N° 27
28	http://www.aljazeera.net/specialfiles/pages/4ccbb98b-1c5e-436d-b32c-986e963aae59	page aspirée N° 28	utf-8	DUMP N° 28
29	http://www.elkhabar.com/ar/monde/354244.html	page aspirée N° 29	utf-8	DUMP N° 29
30	http://www.brooonzyah.net/vb/t10975.html	page aspirée N° 30	unknown-8bit	DUMP N° 30
31	http://www.alrakoba.net/articles-action-show-id-11905.htm	page aspirée N° 31	iso-8859-1	DUMP N° 31
32	http://www.egy-press.com/STORYDETAILS.ASPX?STORYID=34034	page aspirée N° 32	utf-8	DUMP N° 32
33	http://www.alalam.ir/news/691124	page aspirée N° 33	utf-8	DUMP N° 33
34	http://www.ouarsenis.com/ara/diver_info/119.html	page aspirée N° 34	utf-8	DUMP N° 34

Les colonnes "pages aspirées" et "dump" renvoient vers les pages aspirées en local sur nos machines. Il est normal qu'elles renvoient une erreur 404... pour l'instant =)
Pour générer le tableau ci-dessus, j'ai utilisé le script bash suivant :



#!/usr/bin/bash

echo "Bonjour, donnez le chemin du fichier à traiter svp:";

read chemin_du_fichier;

echo $chemin_du_fichier; 

echo "Bonjour, donnez le chemin du fichier à créer svp";

read chemin_du_fichier_a_creer;

echo $chemin_du_fichier_a_creer;

echo "<html><head><title>première page</title></head><body>" > $chemin_du_fichier_a_creer;

i=1 ;

echo "<table border="">" >>  $chemin_du_fichier_a_creer;

   for ligne in `cat $chemin_du_fichier `    

    do 

        lynx -dump -nolist $ligne > ../DUMP-TEXT/$i.txt ;    

    wget -O ../PAGES-ASPIREES/$i.html $ligne;      

    echo "<tr><td>$i</td><td><a href="http://www.blogger.com/%5C" ligne="">$ligne</a></td><td><a href="http://www.blogger.com/%5C" i.html="">page aspirée N° $i</a></td><td>$(file -i ../PAGES-ASPIREES/$i.html | cut -d'=' -f2)</td><td><a href="http://www.blogger.com/%5C" i.txt="">DUMP N° $i</a></td></tr>

" >> $chemin_du_fichier_a_creer ;      



    let "i=i+1";    

    done  



echo "</table>

" >>  $chemin_du_fichier_a_creer;

echo "</body>" >> $chemin_du_fichier_a_creer;

echo "</html>" >> $chemin_du_fichier_a_creer;

mercredi 23 octobre 2013

Créer une jolie liste d'URL

Pour créer cette page, j'ai choisi d'utiliser Python plutôt que Bash. J'y suis plus à l'aise.

J'ai utilisé en entrée un fichier txt unique contenant une url par ligne, avec au début de chaque bloc de lignes le nom de la langue, précédé d'une *
Cela donne un fichier du type :
*Français
http://lemonde.fr/...
...
...
*Anglais
*Allemand
http://www.heise.de/...
...

Voici le script (sans les indentations, obligatoires en Python) :



#!/usr/bin/python

# -*- coding: utf-8 -*-

import codecs

import re

import unicodedata





# Attention, le tableau de résultats fait actuellement 700px de large

# Pour l'intégrer sur le blog, il doit faire 500px de large. A modifier manuellement à la publication.

#pour insérer le fichier html résultant de ce script dans le blog, il suffit de prendre uniquement le body.

#attention au charset



def tableau_url():

### ouverture fichier

file=codecs.open('liste_url.txt','r',encoding="utf-8")

fichier_sortie=codecs.open('tableau_url.html','w',encoding='utf-8')



### nettoyage fichier

file2=[]

for line in file:

if line=="\r\n":

line="\n"

line = re.sub("\t", "", line)

line = re.sub("\r", "", line)

line = re.sub("\n", "", line)

if line=="" or line==" ":

serarien=0

else:

file2.append(line)



### init sortie

sortie=[]

sortie.append(u'<!DOCTYPE html><html>')

sortie.append(u'<!-- Cette page a été générée automatiquement par un script python')

sortie.append(u'Pour des raisons de lisibilité dans le script, et pouvoir être intégré dans le blog, les attributs css sont souvent placés directement au niveau des balises.')

sortie.append(u'C\'est très laid, mais plus pratique.--><head>')

sortie.append(u'<meta http-equiv="Content-Type" content="text/html; charset=utf-8">')

sortie.append(u'<title>Sortie URL</title><body><p style="text-align:center;">La liste des url de notre projet 11 Septembre.</p>')

#le réglage de la largeur du tableau se règle à la fin de la ligne ci-dessous

sortie.append(u'<table style="border:3px grey solid;border-collapse:collapse;margin-left:auto;margin-right:auto;width:700px;">')

sortie.append(u'<tr><th colspan="2" style="background:#DDDDDD;padding:5px">Liste des URL</th></tr>')





### récup url

i=0

for line in file2:

print line

if line[0]=="*": #cas nom de langue

i=0

sortie.append(u'<tr><td colspan="2" style="padding:5px;font-style:italic;background:#EEEEEE; border:solid black 1px;text-align:center;">'+line[1:]+u'</td></tr>')

else:            #cas normal, ligne url

i+=1 

sortie.append(u'<tr><td style="padding:5px;border:solid black 1px;text-align:center;">'+str(i)+u'</td><td style="padding:5px;border:solid black 1px;text-align:center;"><a href="'+line+'">'+line[0:60]+u'...</a></td></tr>')







### fin sortie

sortie.append(u'</table></body></html>')



### sortie

strsortie=''

for line in sortie:

strsortie=strsortie+line+"\n"





fichier_sortie.write(strsortie)

fichier_sortie.close



return "done"

J'ai rencontré quelques problèmes d'encodage, évidemment, mais heureusement facilement résolus par la conversion de toutes les chaines de caractères en chaines unicodes : u'string'

Un autre problème : pour pouvoir être intégré sur le blog, ce tableau doit pouvoir fonctionner indépendamment de toute information contenue dans le head ou dans un fichier css quelconque. Le résultat est que toutes les informations css sont intégrées dans les balises, ce qui est très laid, et provoque beaucoup de redondance dans le tableau final. Mais cela fonctionne, j'ai donc privilégié cette méthode.

Exercices de Bash

En guise d'introduction, un aperçu des exercices de Bash destinés à nous familiariser avec les systèmes Unix. Pour certains, il s'agissait de leur premier contact avec une invite de commandes, ce qui explique que ces commandes soient très basiques.

Nous avons vu les commandes suivantes :

pwd	print working directory, affiche simplement le chemin du répertoire de travail
ls	Permet d'afficher le contenu du répertoire de travail
ls -a	Option permettant d'afficher les fichiers cachés, commençant par un .
ls -l	Affiche le résultat sous forme de liste détaillée, donnant des informations supplémentaires sur les fichiers
cd	choose directory, permet de se déplacer dans l'arborescence
mkdir	make directory
touch	sert à l'origine à mettre à jour le dernier accès à un fichier, mais sert dans notre cas à créer un fichier vide
cp	Permet de copier des fichiers
cp -u	L'option update permet de ne copier que si la source est plus récente
cp -i	Cette option permet de prévenir l'utilisateur si le fichier existe déjà dans le dossier cible, et de lui donner la possibilité d'annuler le cas échéant.
man	Enfin, la commande manuel, fondamentale...
cat	Cette commande a de nombreuses utilisations. Pour l'instant, nous ne l'utilisons que pour afficher le contenu d'un fichier.
file	Affiche l'encodage d'un fichier, et de nombreuses autre informations avec l'option -i
echo	Affiche tout simplement ce qu'on entre en argument
read	Récupère ce que l'utilisateur tape en entrée, utile dans le cadre d'un script
cut -d X -f1	Permet de récupérer une partie seulement d'une variable, en utilisant le séparateur X. Une seconde option doit être appliquée pour sélectionner la portion qu'on veut récupérer : f1, f2, f3...

egrep, cat, redirection

amélioration de la sortie de ls avec cut

vendredi 11 octobre 2013

Corpus

Voici les URL de notre corpus sur le thème des attentats du 11 septembre 2001. Cette liste est encore incomplète et destinée à évoluer. Nous nous concentrerons particulièrement sur les articles de presse et sur les mots "11 septembre" et, dans les langues concernées, sur la locution ou le mot composé désignant les évènements du 11 septembre.

Vous trouverez ici une version propre de cette liste, mais peut-être pas à jour.