on
Les formats de fichiers usuels
Les formats de fichiers usuels
Réfrences
- CSV, Wikipédia, le 12 juin 2019
- Documentation de Pandas, le 12 juin 2019
archives
formats de fichiers d’échange de données
Les formats de données tabulées
Les tableurs proposent de stoker d’information sous forme de tableau. Les données sont référencés par des numéros de lignes et de colonnes. Ces formats sont normalisés (Office Open XML, OpenDocument) et supportés par des logiciels libres (LibreOffice) et propriétaires (Excel, Number).
CSV (Comma-Separated-Values) est un format textuel non normalisé (mais faisant l’objet d’une RFC). Il permet de stocker les données tabulées en identifiant nominativement les colonnes.
Civilité,Prénom,Année de naissance
M,Alphonse,1932
F,Béatrice,1964
F,Charlotte,1988
En python on manipule des données tabulées facilement avec des objets DataFrame
de bibliothèque pandas
. La documentation sur les dataframes nos servira par la suite.
import pandas
data = {"Civilité":("M","F", "F"),'Prénom':('Alphonse','Béatrice', 'Charlotte'), "année":(1932, 1964, 1988)}
df = pandas.DataFrame(data)
print(df.query('Civilité == "F"'))
print("année moyenne: {:.0f}".format(df['année'].mean()))
Lecture d’un tableur dans un DataFrame :
df = pandas.read_excel("https://pigne.org/teaching/DIU_EIL/resultats-2016.xlsx")
print("Dimensions du DataFrame :", df.shape)
df.head()
Exercice 1
Télécharger ce tableur. Suivre le TP n°1 sur les tableurs de Licence 1 à partir de la question N°6 sans s’attarder sur la mise en forme.
Exercice 2
Dans un nouveau notebook, répondre aux questions 6 à 12, posées dans l’exercice 1 à l’aide de python et des DataFrame
de pandas
.
Données structurées et typés
L’échange de données entre différentes entités est souvent assurés par le format XML. Ce format constitué de balise permet de spécifier le rôle et l’imbrication des balises pour un fichier donné. Les données sont donc typées et structurées.
Dans les technologies web, le format JSON s’est imposé. Moins expressif que XML il est plus léger et semble plus simle à manipuler. Il est aussi très proche du langage JavaScript.
import json
from urllib.request import urlopen
with urlopen('https://pigne.org/teaching/DIU_EIL/data.json') as f:
d = json.load(f)
print(d)
Exercice 3
Télécharger le fichier de données JSON. Celui-ci contient un tableau de 3 objets qui ont un champ “data” contenant a son tour un champ “values” ou “value”.
Dans un nouveau notebook, changer le fichier, puis faire la moyenne des valeurs dans les champs “values” respectivement et afficher de cette façon :
- Température Bureau : (TEMPERATURE = 23.11)
- Porte du Garage : (DOOR = 0)
- Ventilateur Ordinateur Bureau : (FAN_SPEED = 1774.50)
Fichiers images
- les images matricielles
- les images vectorielles
Exercice 4
Télécharger l’archive “Images” Suivre le TP sur les images matricielles de Licence 1.