Titre : | Data mining et statistique de´cisionnelle : l'intelligence des donne´es |
Auteurs : | Stéphane Tuffery |
Type de document : | Books |
Mention d'édition : | 4d ed. [quatrième édition actualisée et augmentée] |
Editeur : | Paris : Editions Technip, 2012 |
Article en page(s) : | XX, 826 p. |
ISBN/ISSN/EAN : | 978-2-7108-1017-9 |
Langues: | Anglais |
Index. décimale : | 006.3/12 |
Tags : | Data mining ; Statistical decision ; Statistical decision--Data processing |
Résumé : |
Le data mining et la statistique sont de plus en plus répandus dans les entreprises et les organisations soucieuses d'extraire l'information pertinente de leurs bases de données, qu'elles peuvent utiliser pour expliquer et prévoir les phénomènes qui les concernent (risques, consommation, fidélisation...). Cette quatrième édition, actualisée et augmentée de 120 pages, fait le point sur le data mining, ses fondements théoriques, ses méthodes, ses outils et ses applications, qui vont du scoring jusqu'au web mining et au text mining. Nombre de ses outils appartiennent à l'analyse des données et la statistique "classique" (analyse factorielle, classification automatique, analyse discriminante, régression logistique, modèles linéaires généralisés, régression pénalisées...) mais certains sont plus spécifiques au data mining, comme les arbres de décision, les réseaux de neurones, les SVM, l'agrégation de modèles et la détection des règles d'associations. Ces outils sont disponibles dans des logiciels de plus en plus puissants et conviviaux, aptes à exécuter de nombreux algorithmes sur de grands volumes de données. Un chapitre de l'ouvrage aide le lecteur à se diriger dans cette offre logicielle et détaille les fonctionnalités des trois principaux logiciels : R, SAS, IBM et SPSS. Ces logiciels sont aussi utilisés pour illustrer par des exemples de nombreuses explications théoriques : une partie de 50 pages est consacrée à une étude de cas complète de credit scoring, qui va de l'exploration des données jusqu'à l'élaboration de la grille de score. Les aspects méthodologiques vont de la conduite des projets jusqu'aux facteurs de réussite et aux pièges à éviter, en passant par l'évaluation et la comparaison des modèles, leur intégration dans les processus opérationnels, sans oublier les contraintes juridiques dès que l'on traite des données à caractère personnel. Table des matières : 1. Panorama du data mining. 2. Le déroulement d'une étude de data mining. 3. L'exploration et la préparation des données. 4. L'utilisation des données commerciales et géodémographiques. 5. Les logiciels de statistique et de data mining. 6. Panorama des méthodes de data mining. 7. L'analyse factorielle. 8. Les réseaux de neurones. 9. Les techniques de classification automatique. 10. La recherche des règles d'associations. 11. Les techniques de classement et de prédiction. 12. L'analyse discriminante linéraire et ses généralisations. 13. Le modèle linéaire et ses généralisations. 14. Le modèle logistique et ses généralisations. 15. Les autres modèles prédictifs. 16. L'agrégation de modèles. 17. Une application du data mining : le scoring. 18. Les facteurs de succès d'un projet de data mining. 19. Le text mining. 20. Le web mining. Annexes. Bibliographie. Index. - "Cet ouvrage de référence, agréable à lire malgré sa technicité, et qui comporte beaucoup d'exemples traités avec les logiciels du marché, s'adresse aux statisticiens, aux utilisateurs et gestionnaires de bases de données dans tous les domaines d'activité, ainsi qu'aux étudiants de masters et à leurs enseignants." (Journal de la Société Française de Statistique et Revue de Statistique Appliquée, Vol. 148, n° 3/2007) - "Cet ouvrage de référence écrit par un professionnel intéressera tous les publics : de l'expert statisticien à l'étudiant. Il dresse un panorama complet des techniques, des logiciels, les support vector machines méthodes récentes sont par exemple développées." (www.web-datamining.net/actualites/biblio.asp) - "Cet ouvrage présente un panorama général et complet de ce qu'est le "data mining", des domaines où il est utilisé, des techniques utilisées, des applications typiques. L'intérêt est une certaine exhaustivité : toutes les méthodes statistiques connues sont passées en revue ; chacune est décrite succinctement dans ses principes généraux, (..) : les avantages et inconvénients sont souvent résumés après l'exposé de la méthode elle-même ; des indications sur les logiciels et les procédures permettant de la mettre en œuvre ainsi que sur des comparaisons de fonctionnalités de plusieurs logiciels sont fournies. Même si quelques paragraphes indiquent parfois comment une méthode s'adapte au data mining, ces méthodes n'en sont pas moins des méthodes de statistiques très générales utilisables dans d'autres contextes. L'ouvrage contient avant et après les chapitres décrivant les méthodes, des chapitres plus spécifiques du data mining : la définition du data mining, ses objectifs et intérêts, sa mise en œuvre, le type de données qu'il implique, ses facteurs de succès. Il est complété par deux chapitres sur le text et le web mining s'appliquant à des données moins classiques que sont les textes et les données issues des serveurs Internet. Une annexe statistique peut aider le lecteur non statisticien à lire le livre.(...) - Le livre est une bonne base pour un statisticien d'entreprise qui y trouvera la façon d'utiliser les principales techniques statistiques et de data mining, grâce à l'exposé des principes généraux et des exemples souvent accompagnés du programme SAS correspondant" (Marion Selz, Bulletin de Méthodologie Sociologique, janvier et juillet 2006) - "Ce livre de data mining et statistique décisionnelle est un ouvrage de référence pour les gestionnaires de bases de données dans tous les secteurs d'activité. Le "forage de données" est une discipline moderne qui veut extraire des informations utiles d'une grande base de données en utilisant la statistique et l'informatique. Le livre est surtout basé sur les méthodes classiques mais il y a aussi des méthodes plus modernes comme arbres de décision, réseaux de neurones, support vector machines, algorithmes génétiques, bagging et boosting, etc. Le livre contient beaucoup d'exemples et applications avec les logiciels SAS, SPSS et SPAD. Il y a aussi des annexes intéressantes sur les bases des statistiques et sur les aspects juridiques de l'informatique. Ce livre est utile pour le grand public des enseignants et practiciens dans ce domaine." (N.D.C. Veraverbeke (Universiteit Hasselt, Diepenbeek, Belgium) for Short Book Review , Vol. 26, No 1, April 2006) - "Cet ouvrage traite du data mining qui est l'application des techniques de statistique, d'analyse des données et d'intelligence artificielle à l'exploration et à l'analyse de grandes bases de données en vue d'en extraire les informations utiles et pertinentes pour le décideur. Il compte 15 chapitres. Les cinq premiers sont relatifs à une introduction sur le data mining avec en particulier le déroulement d'une étude de data mining, l'exploration et la préparation des données, l'utilisation de données commerciales, et un aperçu sur les techniques de data mining. Les chapitres 6 à 10 sont consacrés aux méthodes de data mining : analyse factorielle, réseaux de neurones, classification automatique, techniques de classement et de prédiction, recherche de règles d'association etc. Les derniers chapitres traitent d'applications diverses (scoring, text mining, Web mining), des logiciels de statistique et de data mining ainsi que des facteurs de succès d'un projet de data mining. Deux annexes (rappels de statistique et data mining, informatique et libertés) et une intéressante bibliographie commentée terminent ce manuel, très clair et très complet. Cet ouvrage de référence où les questions techniques sont abordées avec la rigueur voulue, mais sans formalisme excessif, et qui comporte de nombreux exemples d'application traités avec les logiciels SAS, SPAD et SPSS s'adresse aux statisticiens, aux utilisateurs et gestionnaires de bases de données, aux décideurs, aux économètres, aux enseignants et aux étudiants en sciences économiques, aux "data miners" etc." (Revue de Statistique Appliquée, mars 2006) - "Ce livre très riche et agréable à lire, malgré sa technicité, est destiné aux statisticiens et praticiens du d.m., aux utilisateurs et gestionnaires de bases de données mais aussi à tous les décideurs et aux étudiants en sciences économiques. Il permettra aux enseignants de mathématiques de rafraîchir leurs connaissances en statistique et en informatique et de montrer à leurs élèves, en liaison avec leurs collègues économistes, comment leur discipline est utilisée dans le monde d'aujourd'hui. " (Bulletin APMEP, n° 462, janvier-février 2006) |
En ligne : | http://www.editionstechnip.com/f/tuffery_data_mining_statistique_1507.asp |
Exemplaires (1)
Code-barres | Cote | Support | Localisation | Section | Disponibilité |
---|---|---|---|---|---|
301193 | XXX.1193 | Book | Royal Military Academy | Communication, Information, Systems & Sensors | Disponible |