Des informations générales:

Le niveau

Master

Titre

Vers une meilleure optimisation pour l’analyse prédictive de données massives

SPECIALITE

Génie logiciel

Page de garde:

Vers une meilleure optimisation pour l'analyse prédictive de données massives


Sommaire:

Introduction générale.
1. Contexte & Motivation.
Problématique
3. Objectif
4. Organisation de manuscrit.
I.1. Big Data
I.1.1. Définition
I.1.2. Caractéristiques du Big Data
I.1.2.1. Le Volume.
I.1.2.2. La Variété.
I.1.2.3. La Vélocité
I.1.2.4. La véracité
I.1.2.5. La Valeur
I.1.2.7. La visibilité.
I.1.2.8. La validité
I.1.2. Architectures du Big Data.
I.1.3.1. Avantages des architectures du Big Data.
I.1.4. Les domaines d’application du Big Data.
1.1.5. Enjeux du Big Data [16]
I.1.5.1. Enjeux techniques.
I.1.5.2. Enjeux économiques
I.1.5.3. Enjeux juridiques.
I.1.6. Les intérêt du Big Data [19].
I.1.7. Les challenges du Big Data [20].
I.1.7.1. La représentation des données.
I.1.7.2. La réduction des redondances et la compression de données
I.1.7.3. La gestion du cycle de vie des données
I.1.7.4. Les mécanismes analytiques.
I.1.7.5. La confidentialité des données.
I.1.7.6. Extensibilité et évolutivité
I.1.7.7. La coopération
1.3.Conclusion.
II. Introduction
II.1. Préparation des données.
II.1.1. Définition 1
II.1.1.2. Définition 2.
II.1.2. Étapes de la préparation des données
Figure II.1.Les étapes de la préparation des données [22].
II.1.2.1. Collecte de données.
II.1.2.1.1. Définitions
II.1.2.1.2. Méthodes de collecte de données.
II.1.2.1.2.3. Entretien
II.1.2.1.2.4. Groupes de discussion
II.1.2.1.2.5. Observation
II.1.2.2. Découvrir et évaluer les données
II.1.2.3. Nettoyer les données.
II.1.2.4. Transformer les données.
II.1.2.5. Stocker les données
II.1.3. Pourquoi la préparation des données est-elle importante?
II. 1.4. Problèmes de la préparation des données.
II.1.5. Motivations et promesses de la préparation des données [33]
II.1.6. Avantages de la préparation des données.
II.2. Modélisation de données
II.2.1. Définition
II.2.2. Approches de modélisation de données.
II.2.2.1. La modélisation logique de données
II.2.2.2. La modélisation physique de données.
II.2.2.3. La modélisation de données d’entreprise.
II.2.2.4. La modélisation conceptuelle de données
II.3. Visualisation de données
II.3.1. Définitions
II.3.1.1 Définition 1
II.3.1.2. Définition 2
II.3.3.1. Comparer les données.
II.3.3.2. Explorer la composition et les relations partielles dans les données
II.3.3.3. Suivre les données au fil du temps
II.3.3.5. Évaluer les données de performance actuelles
II.3.3.6. Examiner les données du projet
II.3.3.7. Donner un sens aux données géographiques
II.3.4. Les avantages de la visualisation des données [36].
II.4. Sécurité et intégrité des données
II.4.1. Sécurité.
II.4.1.2. Pourquoi la sécurité des données est-elle importante?.
II.4.1.4. les Avantages de la sécurité.
II.4.2. Intégrité des données
II.4.2.1. Définition
II.4.2.2. Types d’intégrité des données.
II.4.3. Risques d’intégrité des données
II.4.3.1. Erreur humaine.
II.4.3.2. Erreurs de transfert
II.4.3.3. Bogues et virus
II.4.3.4. Matériel compromis.
II.4.3. Comment minimiser ou éliminer les risques d’intégrité des données ?
II.4.5. Intégrité des données VS Sécurité des données.
II.5. Conclusion.
III.1. Analyse de données
III.1.1. Définitions
III.1.2. Types d’analyse de données.
III.2.1. L’analyse descriptive
III.2.2. L’analyse prédictive
III.2.2.1. Définitions.
III.2.2.2. Les six étapes clés de l’analyse prédictive [50].
III.2.3. L’analyse prescriptive.
III.3.Echantillonnage.
III.3.1. Définitions.
III.3.1.1. Définition 1.
III.3.1.2. Définition 2.
III.3.1.3. Définition
III.3.2. Les avantages de l’échantillonnage.
III.3.3. Les méthodes l’échantillonnage.
III.3.3.1. Les méthodes probabilistes ou aléatoires.
III.3.3.2. Échantillonnage non probabiliste (Non aléatoire).
III.4. Machine Learning
III.4.1.1. Définition 1
III.4.1.2. Définition 2.
III.4.2. La relation entre Machine Learning et Big Data.
III.4.3. Méthodes du Machine Learning
III.4.3.1. L’apprentissage supervisé
III.4.3.2. L’apprentissage non supervisé
III.4.3.3. L’apprentissage par renforcement.
III.4.4. Algorithmes du Machine Learning.
III.4.4.1. L’arbre de décision
III.4.4.2. Les forêts aléatoires
III.4.4.3. Le gradient boosting.
III.4.4.4. Les machines à vecteurs de support
III.4.4.5. Les K plus proches voisins (ou K-Means).
III.4.4.7. La régression logistique
III.4.4. 8. Le clustering.
III.4.4. 9. Régression linéaire
III.4.4. 10. Naïve Bayes
III.4.4. 11. Détection d’une anomalie
III.4.4. 12. Les réseaux de neurones.
III.5. Conclusion
IV.1. Approches de traitement des données.
IV.1.1. Introduction
IV.1.2.1. L’approche Batch
IV.1.2.2. L’approche Micro-Batch.
IV.1.2.3. L’approche temps réel (Streaming).
IV.2. Les architectures du Big Data
IV.2.1. Les architectures avancées.
IV.2.1.1 L’architecture Lambda
IV.2.1.2. L’architecture Kappa
IV.2.1.3. L’architecture Zeta
IV.2.1.4. L’architecture SMACK
IV.2.2.Les architectures distribués.
IV.2.2.1. Les nuages informatiques
IV.2.2.2. Les grilles.
IV.4. Les Traitements parallèles
IV.4.1. Traitement Massivement Parallèle.
IV.4.2. SISD (Simple Instruction Simple Data).
IV.4.3. SIMD (Simple Instruction Multiple Data)
IV.4.4.MISD (Multiple Instruction Simple Data).
IV.4.6. Unité de traitement graphique (GPU)
IV.5. Conclusion
V. Introduction
V.2. Versions des outils utilisés
V.3. Le scenario de fonctionnement du système proposé.
V.4. Présentation de l’application
V.4. 1. L’authentification
V.4.2. L’interface principale
V.5 Performance du système.
V.5.1 Précision
V.5.2 Correctly Classified Instances
V.5.3 Incorrectly Classified Instances
V.5.4 Root mean-squared error
V.5.5 Mean absolute error
V.5.6 Relative absolute error
V.5.7. Root relative squared error
V.5.8 Les mesures d’exactitude par classe.
V.6. Les graphes.
V.7. Synthèse
V.8 Discussion
V.8. Conclusion.
Conclusion générale.
Références bibliographiques.

Télécharger:



 


Pour plus de
sources et références universitaires
(mémoires, thèses et articles
), consultez notre site principal.