Le TensorFlow Dataset permet de lire facilement les jeux de données utilisés fréquemment en Machine Learning/Deep Learning.

Si vous utilisez tf >2.0 il n’est pas utile d’installer tfds (TensorFlow dataset library), par contre, pour tf <2.0 il faut installer le package.

pip install tensorflow-datasets

La liste des jeux de données supportés est importante. Elle est présentée ici.

Il y a des fichiers audios, des images, du texte, des traductions, et des vidéos.

Pour voir la liste des jeux de données :

tfds.list_builders()
Code language: CSS (css)

Pour lire un fichier de donnĂ©es, c’est ensuite très simple (par exemple pour MNIST : )

dataset = tfds.load(name="mnist")
Code language: JavaScript (javascript)

Le dataset est un dictionary train et test qui sont eux-mĂŞmes des dictionaries.

mnist_train, mnist_test = dataset["train"], dataset["test"] mnist_example, = mnist_train.take(1) image, label = mnist_example["image"], mnist_example["label"]
Code language: JavaScript (javascript)

Pour que les donnĂ©es lues soient compatibles avec Keras, il est nĂ©cessaire de prĂ©ciser l’option as_super vised=True 

Par exemple, ci-dessous (extrait du livre d’A. GĂ©ron).

dataset = tfds.load(name="mnist", batch_size=32, as_supervised=True) mnist_train = dataset["train"].repeat().prefetch(1) mnist_train = mnist_train.repeat(5).batch(32) mnist_train = dataset["train"].repeat().prefetch(1)
Code language: PHP (php)

Par exemple, ci-dessus :

  • on lit le jeu de donnĂ©es MNIST, au format Keras
  • on dĂ©finit un batch size de 32
  • repeat rĂ©pète le jeu de donnĂ©es indĂ©finiment (car count=None)
  • prefetch crĂ©e un sous jeu de donnĂ©es avec un 1 Ă©lĂ©ment

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *