Comment Target Co. a-t-il découvert qu'une adolescente était enceinte avant que son père ne le fasse?
Jon Pospischil, co-fondateur, Custora (démarrage analytique prédictif)
Notre scientifique en chef, Aaron Goodman, a écrit un article sur le blog en spéculant sur la manière dont ils l'ont fait, voici l'essentiel du message:
Cible a commencé avec la conviction que les femmes forment des allégeances de marque quand ils font leurs achats dans leur troisième trimestre. En tant que tels, ils veulent pouvoir prédire quand leurs clientes entreront dans ce trimestre. En envoyant des coupons pertinents à la fin du deuxième trimestre, ils souhaitent encourager leurs clients à visiter Target et à développer davantage de relations durables.
Nous pouvons envisager d’aborder le problème en trois étapes: prédire d’abord les clients qui sont enceintes, puis prévoir les dates d’échéance, et enfin trouver les meilleurs coupons à envoyer pour que le client revienne au magasin. Dans ce post, nous allons examiner le premier problème, prédire quels clients sont enceintes.
Le problème de la prédiction de la grossesse peut être davantage divisé comme suit:
Établir un ensemble de données de formation composé de clients enceintes et non enceintes
Créer des "paniers commerciaux" d'articles achetés par ces clients
Choisir un modèle, identifier les caractéristiques pertinentes et générer des scores de prédiction de grossesse
Déterminer quels clients reçoivent des mailers
Création d'un jeu de données d'entraînement
Pour prédire la grossesse, nous devons d'abord développer un ensemble de données de formation pour les modèles. Nous filtrons l'ensemble de données client vers les femmes qui achètent régulièrement à la cible. Target doit avoir un moyen de relier directement le genre et l’identité de l’invité, ou bien ils peuvent déterminer le sexe à partir des produits que les clients achètent. Ils doivent être des acheteurs assez réguliers pour disposer de suffisamment de données pour obtenir des prévisions précises.
Target a également des données sur lesquelles de ces femmes sont enceintes. L'article indique qu'ils ont des informations de date d'échéance de la part d'invités qui fournissent les informations dans le registre de cadeaux de Target. Nous pouvons utiliser ces données comme ensemble de formation pour le modèle.
Définir des paniers de marché "enceintes" et "non enceintes"
Nous pouvons établir une variété de "paniers de marché" de produits achetés par des femmes enceintes ou non. Nous créons les paniers de produits de grossesse en regardant ce que les clients achètent dans leurs 26 premières semaines de grossesse. Nous établissons un panier de base de produits que les femmes non enceintes achètent en prenant des produits que les femmes achètent au cours d'une période de 26 semaines choisie au hasard.
Nous sommes maintenant armés des données dont nous avons besoin pour prévoir les dates de grossesse. L'article dit que:
[Le statisticien de Target] a pu identifier environ 25 produits qui, une fois analysés ensemble, lui ont permis d’attribuer à chaque client un score de «prédiction de grossesse». Plus important encore, il pouvait également estimer sa date limite dans une petite fenêtre. pourrait envoyer des coupons chronométrés à des étapes très précises de sa grossesse.
Choisir un modèle et une approche pour apprendre et prédire
Donc, la première chose à faire est la sélection des fonctionnalités. La sélection des fonctionnalités est le processus de sélection des variables prédictives possibles. Dans ce cas, les caractéristiques sont l'achat ou le manque d'achat de produits spécifiques. Target a des dizaines de milliers de produits et, pour prédire quelles clientes sont enceintes, nous devons déterminer le sous-ensemble de produits achetés par les femmes enceintes. Pour comprendre cela, nous pourrions coder chaque produit de leur portefeuille avec une variable indicateur booléenne, puis chaque panier de marché est une collection de ces variables. Ainsi, pour n paniers de marché et m éléments dans le magasin, nous pouvons encoder le problème en une matrice nx1 de variables de réponse où un 1 indique que le panier de consommation provenait d'une femme enceinte et un 0 indique que le panier de cliente féminine. Nous ferions une matrice nxm de variables prédictives où les lignes sont les différents paniers du marché et les m colonnes sont des éléments dans l'inventaire des cibles. Les cellules de la matrice sont remplies avec 1 si l'élément est présent dans le panier et 0 si l'élément est absent.
Ensuite, nous pourrions utiliser un algorithme d'apprentissage supervisé pour prédire quels paniers appartiennent à des femmes enceintes, puis nous pouvons effectuer une sélection de caractéristiques pour déterminer quels produits sont les plus prédictifs de la grossesse. Les algorithmes d'apprentissage supervisé les plus populaires, la régression logistique, les réseaux neuronaux, les machines à vecteurs de support et les forêts aléatoires. Je commencerais par une régression logistique régularisée, qui combine les étapes de prédiction et de sélection des caractéristiques (Tibshirani et. Al). La régularisation est un moyen d'éviter le sur-ajustement et utilise une estimation du maximum de vraisemblance pénalisée. La régularisation est également utilisée pour déterminer quels produits sont utiles, nous pouvons simplement choisir un paramètre de régularisation, puis choisir tous les produits qui ont des coefficients de prédiction non nuls.
Choisir à qui envoyer des mailers
À ce stade, nous avons un score de prédiction de grossesse pour chaque client et nous devons déterminer quel est le seuil approprié. Nous faisons cela en établissant un taux de fausse découverte (FDR). Puisque nous ne pourrons jamais prédire avec une précision de 100% qui est enceinte et qui ne l'est pas, nous avons besoin d'un moyen de minimiser l'erreur que nous allons commettre. Nous pouvons fixer un FDR à 0,05, c'est-à-dire que 95% des femmes qui les reçoivent sont enceintes et que 5% sont des faux positifs. (Storey et. Al).
Le post complet est disponible ici: http://blog.custora.com/2012/02/
Daniel McLaury, [math] P [A coin B] neq P [A] P [B] [/ math]
Réponse le 9 mars 2017 · L'auteur a 2,6k réponses et 8.8m répond aux vues
Note: répondre car on m'a demandé de
Je suis d'accord avec Charles H Martin
. Target utilise probablement des réglages sophistiqués et plusieurs systèmes, mais il s’agit d’un problème d’apprentissage supervisé à la vanille - les naissances sont de notoriété publique, vous pouvez donc simplement extraire la liste des personnes qui ont eu des bébés, le nom sur leur compte de carte de crédit / magasin / etc., et ensuite analyser ce qu'ils ont acheté pendant les mois précédant la livraison. D'un point de vue mathématique, je suppose que vous pouvez obtenir la plupart du temps en utilisant quelque chose d'aussi simple que logistique régression. Bien sûr, dans une entreprise, cet énorme centième de point de pourcentage vaut la peine d’être défendu, ce qui explique pourquoi une équipe spécialisée travaille sur ces choses et utilise sûrement des machines plus lourdes, mais le principe de base reste le même.
Meta Brown, Auteur, Data Mining for Dummies
Résolu le 14 août 2017 · Auteur a 151 réponses et 211.2k réponses vues
Cette histoire est issue d'une œuvre écrite par Charles Duhigg et parue dans le New York Times en février dernier, coïncidant avec la sortie de son nouveau livre sur la prise de décision.
L'article mentionne un appel d'un père en colère dont la fille avait reçu un certain type de diffusion lié bébé, et il dit aussi quand un gestionnaire plus tard appelé à présenter des excuses, le père se a présenté ses excuses, faire une remarque qui impliquait qu'il avait appris depuis que la la fille était enceinte. Cependant, il est difficile de savoir quel courrier a été impliqué, ou s'il s'agissait bien d'un cas lié à la modélisation de Target. En effet, cet article et un entretien par cible « propre analyste Andrew Pole suggèrent que vise la cible pour les envois plus subtils - pas un grand We-Know-vous » re-enceinte message, mais une approche plus subtile de coupons glisser pour les articles pour bébés dans un mailer avec un mélange d'articles proposés.
Si vous souhaitez en savoir plus sur la manière dont Target identifie les clients susceptibles d’être enceintes, vous pouvez entendre les détails de la modélisation de Target par leur propre analyste. Visionnez cette vidéo de son allocution 2010 à Predictive Analytics World: http: //www.rmportal.performedia...
Voici les messages de moi-même soulignant certains des défis du processus de modélisation qu'il décrit:
Gestion des secrets http://metabrown.com/blog/2012/0
Plus d'informations sur les secrets http://metabrown.com/blog/2012/0
Tanya zyabkina, pris quelques classes de stat
Résolu le 17 mars 2017 · Auteur a 591 réponses et 610.4k réponses vues
je suis avec Daniel McLaury
sur celui-ci. Pour que votre modèle soit développé, vous devez avoir un ensemble de résultats définitifs, tout comme les actes de naissance, que vous pouvez ensuite utiliser pour analyser vos dossiers de pré-naissance. On peut essayer de prédire l’achat d’articles pour bébé uniquement sur la base des données d’achat (sans utiliser les données de naissance publiques), mais cela est beaucoup plus difficile car le jeu de données est pollué par des cadeaux de naissance, des grands-parents, etc.
Voici la meilleure hypothèse concernant les variables qu'ils ont pu trouver significatives dans le modèle, en supposant que vous modélisez pour une grossesse précoce (avant qu'elle ne commence à acheter des articles pour bébé):
1. Femme en âge de procréer.
2. Lacune dans l'achat d'articles de protection féminine.
3. Achat d'un test de grossesse.
4. Achat d'acide folique ou de vitamines prénatales.
5. Achat de vêtements de maternité.
J'ai aussi l'impression que c'est une légende urbaine. Bien que de telles analyses soient possibles, elles sont peu probables (et je n'ai jamais reçu de coupons de Target après avoir été détenteur de la carte pendant environ 10 ans). projet spécial "analyse pour envoi par l'un des fournisseurs, comme les fabricants de couches ou de formules.
Amit Goel, Co-fondateur de LetsTalkPayments.com et CEO / Founder GrowthPraxis
Résolu le 9 mars 2017 · Auteur a 86 réponses et 118k réponses vues
La réponse réside dans la collecte des bonnes données et leur analyse. Par exemple, si vous suivez les données démographiques de vos détaillants, les acheteurs (à l'aide de cartes de fidélité ou de formulaires uniquement) peuvent à nouveau facilement effectuer leurs achats à partir des données du panier d'achat. Pour exemple, si cette fille était venue au magasin et acheter des produits pré natales, vêtements de maman et de l'analyse contre une fille qui est (par exemple) 20. Ajoutez à cela si elle achète beaucoup de nourriture de confort tels que les chocolats et guimauves l'analyseur obtient la première série de conseils. Il peut vérifier plusieurs fois en fonction de diverses règles et peut confirmer après un certain temps. Aussi une bonne question à poser est ce que vous faites une fois que vous obtenez cette information? Vous pouvez essayer de lui proposer des produits spécifiques. Par exemple, des vêtements pour bébé, des couches en envoyant des remises aux expéditeurs.
Charles H Martin, Conseil en calcul; nous prédisons les choses
Résolu le 3 mars 2017 · L'auteur a 1,2k réponses et 2.9m répond aux vues
Cela ressemble plus à un problème simple dans l'apprentissage supervisé. Si je savais quels clients devenaient enceintes (c’est-à-dire quand ils ont commencé à acheter des articles pour bébés), je pouvais facilement prédire si les clients existants pourraient être enceintes et quand ils sortiraient simplement de leur historique d’achats. Pas un conseiller - juste une analyse de régression simple.
C’est une excellente application de l’apprentissage automatique
Rick Bischoff
Répondu le 3 mars 2012
Je ne pense pas que quiconque à part Target puisse dire avec certitude que c’était probablement un système de recommandation avec filtrage collaboratif.
Je serais très surpris que Target entreprenne explicitement de déterminer qui était enceinte. Ils ont probablement extrait cette pépite de connaissances d'un système beaucoup plus vaste de recommandations.
Logiciel de statistiques, cible (entreprise), analyse prédictive, statistiques (données collectées), statistiques (discipline académique)