Le TensorFlow Dataset permet de lire facilement les jeux de données utilisés fréquemment en Machine Learning/Deep Learning.

Si vous utilisez tf >2.0 il n’est pas utile d’installer tfds (TensorFlow dataset library), par contre, pour tf <2.0 il faut installer le package.

La liste des jeux de données supportés est importante. Elle est présentée ici.

Il y a des fichiers audios, des images, du texte, des traductions, et des vidéos.

Pour voir la liste des jeux de données :

Pour lire un fichier de données, c’est ensuite très simple (par exemple pour MNIST : )

Le dataset est un dictionary train et test qui sont eux-mêmes des dictionaries.

Pour que les données lues soient compatibles avec Keras, il est nécessaire de préciser l’option as_super vised=True 

Par exemple, ci-dessous (extrait du livre d’A. Géron).

Par exemple, ci-dessus :

  • on lit le jeu de données MNIST, au format Keras
  • on définit un batch size de 32
  • repeat répète le jeu de données indéfiniment (car count=None)
  • prefetch crée un sous jeu de données avec un 1 élément

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *