{"id":2743,"date":"2019-08-04T17:44:24","date_gmt":"2019-08-04T20:44:24","guid":{"rendered":"https:\/\/www.geekosas.com\/?p=2743"},"modified":"2020-06-25T12:42:28","modified_gmt":"2020-06-25T15:42:28","slug":"destapando-los-promedios","status":"publish","type":"post","link":"https:\/\/geekosas.com\/index.php\/es\/2019\/08\/04\/destapando-los-promedios\/","title":{"rendered":"Destapando los promedios"},"content":{"rendered":"Como dicen por ah\u00ed, los promedios esconden muchas cosas, en el articulo <a href=\"https:\/\/www.geekosas.com\/index.php\/2019\/02\/20\/gender-pay-gap-en-tecnologia\/\">gender-pay-gap-en-tecnologia<\/a> vimos un an\u00e1lisis que mostraba como, para esos datos, la diferencia de sueldos entre hombres y mujeres puede entenderse con factores distintos al g\u00e9nero.\n\nAhora vamos a ver una t\u00e9cnica, basada en machine learning, muy simple de explicar y comunicar para &#8220;destapar&#8221; lo que est\u00e1 por de debajo de los promedios.\n\n<h4>Planteamiento<\/h4>\n\nImag\u00ednese que usted es el data scientist del \u00e1rea de satisfacci\u00f3n de una empresa y est\u00e1 a cargo de mantener la nota que ponen sus clientes al servicio de la compa\u00f1\u00eda (o alg\u00fan otro KPI). Esta nota se obtiene con un muestreo mensual hecho a clientes que se contactaron con el call center.\n\nHoy es el d\u00eda, lleg\u00f3 la nueva encuesta de satisfacci\u00f3n y si jefe est\u00e1 ansioso por saber como se hizo el trabajo el mes anterior y Eureka! la nota promedio subi\u00f3 de 5.577 a 5.723, por lo que todos se ganan el bono y salen a almorzar.\n\nPero que oculta ese promedio? Subi\u00f3 realmente la nota? veamos como realizar r\u00e1pidamente este an\u00e1lisis.\n\n<h4>Datos<\/h4>\n\nPara cada mes (anterior y actual) se tiene una tabla con 2000 observaciones que luce del siguiente modo (son datos simulados):\n\n<pre><code class=\"language-r line-numbers\">id        causa genero region nota\n1  1       equipo hombre  norte    6\n2  2        saldo  mujer  norte    8\n3  3  facturacion hombre  norte    2\n4  4        saldo  mujer centro    6\n5  5 conectividad  mujer centro    9\n6  6 conectividad hombre centro    4\n<\/code><\/pre>\n\n<h4>Modelo<\/h4>\n\nPara entender las variables que explican la nota, utilizando rpart calibraremos un arbol que se ve del siguiente modo:\n\n<pre><code class=\"language-r line-numbers\">library(rpart)\nlibrary(rattle)\nfit = rpart(nota ~ causa + genero + region,data1,cp = 0.015)\nfancyRpartPlot(fit)\n<\/code><\/pre>\n\n\n\n<figure class=\"wp-block-image\"><img data-recalc-dims=\"1\" loading=\"lazy\" decoding=\"async\" width=\"501\" height=\"373\" data-attachment-id=\"2747\" data-permalink=\"https:\/\/geekosas.com\/index.php\/es\/2019\/08\/04\/destapando-los-promedios\/rpart\/\" data-orig-file=\"https:\/\/i0.wp.com\/geekosas.com\/wp-content\/uploads\/2019\/08\/rpart.png?fit=501%2C373&amp;ssl=1\" data-orig-size=\"501,373\" data-comments-opened=\"1\" data-image-meta=\"{&quot;aperture&quot;:&quot;0&quot;,&quot;credit&quot;:&quot;&quot;,&quot;camera&quot;:&quot;&quot;,&quot;caption&quot;:&quot;&quot;,&quot;created_timestamp&quot;:&quot;0&quot;,&quot;copyright&quot;:&quot;&quot;,&quot;focal_length&quot;:&quot;0&quot;,&quot;iso&quot;:&quot;0&quot;,&quot;shutter_speed&quot;:&quot;0&quot;,&quot;title&quot;:&quot;&quot;,&quot;orientation&quot;:&quot;0&quot;}\" data-image-title=\"rpart\" data-image-description=\"\" data-image-caption=\"\" data-large-file=\"https:\/\/i0.wp.com\/geekosas.com\/wp-content\/uploads\/2019\/08\/rpart.png?fit=501%2C373&amp;ssl=1\" src=\"https:\/\/i0.wp.com\/www.geekosas.com\/wp-content\/uploads\/2019\/08\/rpart.png?resize=501%2C373&#038;ssl=1\" alt=\"\" class=\"wp-image-2747\" srcset=\"https:\/\/i0.wp.com\/geekosas.com\/wp-content\/uploads\/2019\/08\/rpart.png?w=501&amp;ssl=1 501w, https:\/\/i0.wp.com\/geekosas.com\/wp-content\/uploads\/2019\/08\/rpart.png?resize=300%2C223&amp;ssl=1 300w\" sizes=\"auto, (max-width: 501px) 100vw, 501px\" \/><\/figure>\n\n\n\nB\u00e1sicamente se lee de este modo: En la primera rama (arriba), el promedio es 5.6, pero si abrimos esa rama seg\u00fan la causa de la llamada, cuando la causa es conectividad o facturaci\u00f3n, la nota baja a 4.4, mientras que de lo contrario la nota sube a 6.3.\n\nCada una de las ramas anteriores se abre nuevamente, la de la izquierda en genero (del cliente), donde los hombres ponen nota 5.1 y las mujeres 5.2, mientras que  mientras la de la derecha en la zona geogr\u00e1fica donde vive el cliente.\n\nLa intuici\u00f3n en la siguiente: mi nota total puede cambiar por 2 razones:\n\n<ul>\n<li>Por que una hoja cambio su nota.<\/li>\n<li>Por que una hoja se volvi\u00f3 m\u00e1s importante (por ejemplo, si se encuestan mas mujeres, mi nota deber\u00eda subir).<\/li>\n<\/ul>\n\nIntentaremos descomponer los aportes en esos 2 factores:\n\n<pre><code class=\"language-r line-numbers\">dataset1 = data.frame(data1,hoja = rpart.predict.leaves(fit,data1)) %&gt;% \n  group_by(hoja) %&gt;% \n  summarise(nota1 = mean(nota),desvest1 = sd(nota), freq1 = n())\n\ndataset2 = data.frame(data2,hoja = rpart.predict.leaves(fit,data2)) %&gt;% \n  group_by(hoja) %&gt;% \n  summarise(nota2 = mean(nota), freq2 = n())\n\ndataset = dataset1 %&gt;% \n  left_join(dataset2) %&gt;% \n  ungroup() %&gt;% \n  mutate(peso1 = freq1\/sum(freq1), \n         peso2 = freq2\/sum(freq2))\n\ndataset = dataset %&gt;% \n  mutate(\n    delta_freq = (freq2 - freq1)\/freq1,\n    delta_nota = nota2 - nota1,\n    pval = pnorm(-abs(delta_nota),0,desvest1\/sqrt(freq1))\n    )\n\nprint(dataset)\n# A tibble: 4 x 11\n   hoja nota1 desvest1 freq1 nota2 freq2 peso1 peso2 delta_freq delta_nota     pval\n  &lt;int&gt; &lt;dbl&gt;    &lt;dbl&gt; &lt;int&gt; &lt;dbl&gt; &lt;int&gt; &lt;dbl&gt; &lt;dbl&gt;      &lt;dbl&gt;      &lt;dbl&gt;    &lt;dbl&gt;\n1     3  4.09     1.63   560  3.47   221 0.28  0.110     -0.605     -0.620 1.40e-19\n2     4  5.22     1.64   228  4.35   567 0.114 0.284      1.49      -0.865 8.67e-16\n3     6  5.93     1.57   697  6.42   697 0.348 0.348      0          0.494 4.55e-17\n4     7  6.88     1.65   515  7.25   515 0.258 0.258      0          0.373 1.36e- 7\n<\/code><\/pre>\n\nEn la tabla anterior resultante, la primera fila corresponde a la hoja de la mas izquierda, a medida que bajas, te mueves a la derecha en las hojas del \u00e1rbol. Podemos ver que en las hojas 3 y 4 (fila 1 y 2), hay una disminuci\u00f3n considerable en la nota (columna delta_nota = nota2 &#8211; nota1), las cuales corresponden a los servicios relacionados con facturaci\u00f3n y conectividad, es m\u00e1s un peque\u00f1o test nos muestra que esta diferencia es estadisticamente significativa (columna pval).\n\nSi intentamos descomponer el cambio global de la nota en los 2 factores: frecuencia y nota, nos da el siguiente resultado:\n\n<pre><code class=\"language-r line-numbers\">dataset = dataset %&gt;% \n  mutate(aporte_dfreq = peso1 * nota1 * (delta_freq),\n         aporte_dnota = peso2 * delta_nota\n  )\ndataset %&gt;% select(-pval)\n# A tibble: 4 x 12\n   hoja nota1 desvest1 freq1 nota2 freq2 peso1 peso2 delta_freq delta_nota aporte_dfreq aporte_dnota\n  &lt;int&gt; &lt;dbl&gt;    &lt;dbl&gt; &lt;int&gt; &lt;dbl&gt; &lt;int&gt; &lt;dbl&gt; &lt;dbl&gt;      &lt;dbl&gt;      &lt;dbl&gt;        &lt;dbl&gt;        &lt;dbl&gt;\n1     3  4.09     1.63   560  3.47   221 0.28  0.110     -0.605     -0.620       -0.693      -0.0685\n2     4  5.22     1.64   228  4.35   567 0.114 0.284      1.49      -0.865        0.885      -0.245 \n3     6  5.93     1.57   697  6.42   697 0.348 0.348      0          0.494        0           0.172 \n4     7  6.88     1.65   515  7.25   515 0.258 0.258      0          0.373        0           0.096 \n\n&gt; #validacion\n&gt; sum(dataset$aporte_dnota) + sum(dataset$aporte_dfreq)\n[1] 0.1465\n&gt; mean(data2$nota) - mean(data1$nota)\n[1] 0.1465\n\n# Aporte factores\n&gt; sum(dataset$aporte_dfreq)\n[1] 0.1921425\n&gt; sum(dataset$aporte_dnota)\n[1] -0.04564248&lt;\/pre&gt;\n<\/code><\/pre>\n\nB\u00e1sicamente el cambio en la nota me caus\u00f3 una perdida de -0.045 (columna aporte_dnota) y la ganancia en la nota global se debe a el cambio en las frecuencias, que corresponde a 0.192 (columna aporte_dfreq),  b\u00e1sicamente por que hubo menos m\u00e1s mujeres en la muestra.\n\n<h4>Conclusi\u00f3n<\/h4>\n\nSe puede salir a celebrar, dado que el bono si se gan\u00f3, pero hay que ver que pas\u00f3 con las causas conectividad y facturaci\u00f3n, por que el pr\u00f3ximo mes podr\u00edamos no vernos beneficiados por un aumento de mujeres en la encuesta.\n\nLo que hay que hacer es partir revisando si ha habido un cambio en los protocolos normales de atenci\u00f3n para conectividad y\/o facturaci\u00f3n o incluso escuchar algunas de las converzaciones para detectar que sucede. Lo importante es corregir la situaci\u00f3n pronto.\n\nSaludos!","protected":false},"excerpt":{"rendered":"<div class=\"mh-excerpt\"><p>Como dicen por ah\u00ed, los promedios esconden muchas cosas, en el articulo gender-pay-gap-en-tecnologia vimos un an\u00e1lisis que mostraba como, para esos datos, la diferencia de <a class=\"mh-excerpt-more\" href=\"https:\/\/geekosas.com\/index.php\/es\/2019\/08\/04\/destapando-los-promedios\/\" title=\"Destapando los promedios\">[&#8230;]<\/a><\/p>\n<\/div>","protected":false},"author":1,"featured_media":2745,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_jetpack_newsletter_access":"","_jetpack_dont_email_post_to_subs":false,"_jetpack_newsletter_tier_id":0,"_jetpack_memberships_contains_paywalled_content":false,"_jetpack_memberships_contains_paid_content":false,"footnotes":"","jetpack_publicize_message":"","jetpack_publicize_feature_enabled":true,"jetpack_social_post_already_shared":true,"jetpack_social_options":{"image_generator_settings":{"template":"highway","default_image_id":0,"font":"","enabled":false},"version":2},"jetpack_post_was_ever_published":false},"categories":[1],"tags":[],"class_list":["post-2743","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-sin-categoria"],"jetpack_publicize_connections":[],"jetpack_featured_media_url":"https:\/\/i0.wp.com\/geekosas.com\/wp-content\/uploads\/2019\/08\/distribution.png?fit=1200%2C767&ssl=1","jetpack_sharing_enabled":true,"jetpack_shortlink":"https:\/\/wp.me\/p8vjqF-If","jetpack-related-posts":[{"id":2755,"url":"https:\/\/geekosas.com\/index.php\/es\/2019\/08\/26\/destapando-promedios-v2\/","url_meta":{"origin":2743,"position":0},"title":"Destapando Promedios V2","author":"Daniel Fischer","date":"2019-08-26","format":false,"excerpt":"Unos d\u00edas atr\u00e1s escrib\u00ed el articulo Destapando Promedios que b\u00e1sicamente lo que hac\u00eda era abrir un valor promedio en factores utilizando arboles, por favor leer el articulo antes de seguir. En ese an\u00e1lisis de ejemplo yo cree el dataset y por ende sabia exactamente donde estaba el cambio, el cual\u2026","rel":"","context":"In &quot;Sin categor\u00eda&quot;","block_context":{"text":"Sin categor\u00eda","link":"https:\/\/geekosas.com\/index.php\/category\/sin-categoria\/"},"img":{"alt_text":"","src":"https:\/\/i0.wp.com\/geekosas.com\/wp-content\/uploads\/2019\/08\/averages.jpeg?fit=500%2C345&ssl=1&resize=350%2C200","width":350,"height":200},"classes":[]},{"id":2329,"url":"https:\/\/geekosas.com\/index.php\/es\/2018\/04\/12\/han-empeorado-los-videojuegos\/","url_meta":{"origin":2743,"position":1},"title":"Han empeorado los videojuegos?","author":"Daniel Fischer","date":"2018-04-12","format":false,"excerpt":"Introducci\u00f3n \/ Abstract Un data scientist es aquel que logra hacer que los datos le hablen, es b\u00e1sicamente una converzaci\u00f3n, donde les haces preguntas y los datos de responden. En este notebook quiero compartir mi ultima converzaci\u00f3n con este dataset con las notas que le han puesto a distintos videojuegos,\u2026","rel":"","context":"In &quot;Sin categor\u00eda&quot;","block_context":{"text":"Sin categor\u00eda","link":"https:\/\/geekosas.com\/index.php\/category\/sin-categoria\/"},"img":{"alt_text":"","src":"https:\/\/i0.wp.com\/geekosas.com\/wp-content\/uploads\/2018\/04\/consoles-800x491.jpg?fit=800%2C491&ssl=1&resize=350%2C200","width":350,"height":200,"srcset":"https:\/\/i0.wp.com\/geekosas.com\/wp-content\/uploads\/2018\/04\/consoles-800x491.jpg?fit=800%2C491&ssl=1&resize=350%2C200 1x, https:\/\/i0.wp.com\/geekosas.com\/wp-content\/uploads\/2018\/04\/consoles-800x491.jpg?fit=800%2C491&ssl=1&resize=525%2C300 1.5x, https:\/\/i0.wp.com\/geekosas.com\/wp-content\/uploads\/2018\/04\/consoles-800x491.jpg?fit=800%2C491&ssl=1&resize=700%2C400 2x"},"classes":[]},{"id":2771,"url":"https:\/\/geekosas.com\/index.php\/es\/2020\/04\/07\/comparativa-entre-julia-python-y-r\/","url_meta":{"origin":2743,"position":2},"title":"Comparativa entre Julia, Python y R","author":"Daniel Fischer","date":"2020-04-07","format":false,"excerpt":"La discusi\u00f3n sobre que lenguaje es el mejor para analizar datos puede llevarnos a conversaciones mas apasionadas que por temas como religi\u00f3n o pol\u00edtica. Pero como Data-Scientist debemos enfocarnos en la evidencia emp\u00edrica, las dimensiones con las que se podr\u00edan comparar son muchas: Comunidad, Performance, Editores, Gestor de Paquetes, Encapsulaci\u00f3n\u2026","rel":"","context":"In &quot;Sin categor\u00eda&quot;","block_context":{"text":"Sin categor\u00eda","link":"https:\/\/geekosas.com\/index.php\/category\/sin-categoria\/"},"img":{"alt_text":"","src":"https:\/\/i0.wp.com\/geekosas.com\/wp-content\/uploads\/2019\/09\/external-content.duckduckgo.com_.jpg?fit=474%2C312&ssl=1&resize=350%2C200","width":350,"height":200},"classes":[]},{"id":2656,"url":"https:\/\/geekosas.com\/index.php\/es\/2019\/02\/20\/gender-pay-gap-en-tecnologia\/","url_meta":{"origin":2743,"position":3},"title":"Gender Pay Gap en Tecnolog\u00eda","author":"Daniel Fischer","date":"2019-02-20","format":false,"excerpt":"El Gender Pay Gap consiste en la diferencia que existe en promedio en los sueldos de Hombres vs el de las Mujeres. Hoy en d\u00eda existen personas que atribuyen lo anterior a una discriminaci\u00f3n, mientras que otros dicen que es debido a las decisiones que en promedio los hombres toman\u2026","rel":"","context":"In &quot;Sin categor\u00eda&quot;","block_context":{"text":"Sin categor\u00eda","link":"https:\/\/geekosas.com\/index.php\/category\/sin-categoria\/"},"img":{"alt_text":"","src":"https:\/\/i0.wp.com\/geekosas.com\/wp-content\/uploads\/2019\/02\/GenderPayGap-201803070107196681-20180404082357920.jpg?fit=619%2C413&ssl=1&resize=350%2C200","width":350,"height":200,"srcset":"https:\/\/i0.wp.com\/geekosas.com\/wp-content\/uploads\/2019\/02\/GenderPayGap-201803070107196681-20180404082357920.jpg?fit=619%2C413&ssl=1&resize=350%2C200 1x, https:\/\/i0.wp.com\/geekosas.com\/wp-content\/uploads\/2019\/02\/GenderPayGap-201803070107196681-20180404082357920.jpg?fit=619%2C413&ssl=1&resize=525%2C300 1.5x"},"classes":[]},{"id":2385,"url":"https:\/\/geekosas.com\/index.php\/es\/2018\/06\/18\/separar-efectos-y-analisis-de-camada\/","url_meta":{"origin":2743,"position":4},"title":"Separar Efectos y An\u00e1lisis de Camada","author":"Daniel Fischer","date":"2018-06-18","format":false,"excerpt":"En los negocios de suscripci\u00f3n (Diarios, Celular, Seguros, etc...) el negocio siempre es el mismo: captar a un cliente y luego recibir flujos de dinero asociados a un servicio provisto por la empresa, el d\u00eda que el cliente corta el servicio se llama CHURN y el cliente pasa a estar\u2026","rel":"","context":"In &quot;Sin categor\u00eda&quot;","block_context":{"text":"Sin categor\u00eda","link":"https:\/\/geekosas.com\/index.php\/category\/sin-categoria\/"},"img":{"alt_text":"","src":"https:\/\/i0.wp.com\/www.geekosas.com\/wp-content\/uploads\/2018\/06\/pressent-value.png?resize=350%2C200","width":350,"height":200,"srcset":"https:\/\/i0.wp.com\/www.geekosas.com\/wp-content\/uploads\/2018\/06\/pressent-value.png?resize=350%2C200 1x, https:\/\/i0.wp.com\/www.geekosas.com\/wp-content\/uploads\/2018\/06\/pressent-value.png?resize=525%2C300 1.5x, https:\/\/i0.wp.com\/www.geekosas.com\/wp-content\/uploads\/2018\/06\/pressent-value.png?resize=700%2C400 2x"},"classes":[]},{"id":1923,"url":"https:\/\/geekosas.com\/index.php\/es\/2017\/03\/04\/ley-de-estacionamientos\/","url_meta":{"origin":2743,"position":5},"title":"Ley de Estacionamientos","author":"Daniel Fischer","date":"2017-03-04","format":false,"excerpt":"En Chile el d\u00eda 15 de febrero (corrijanm\u00e9 si estoy equivocado) se promulg\u00f3 la ley de estacionamientos, la cual entre otros obliga a la empresas de estacionamientos a: Compensar a los clientes\u00a0victimas de robos. Imposibilidad de multar por perdida de ticket. Elegir uno de los dos siguientes modos de tarificaci\u00f3n\u00a0.\u2026","rel":"","context":"In &quot;Uncategorized&quot;","block_context":{"text":"Uncategorized","link":"https:\/\/geekosas.com\/index.php\/es\/category\/uncategorized-es\/"},"img":{"alt_text":"","src":"https:\/\/i0.wp.com\/geekosas.com\/wp-content\/uploads\/2017\/02\/1487175020-auno760729.jpg?fit=799%2C533&ssl=1&resize=350%2C200","width":350,"height":200,"srcset":"https:\/\/i0.wp.com\/geekosas.com\/wp-content\/uploads\/2017\/02\/1487175020-auno760729.jpg?fit=799%2C533&ssl=1&resize=350%2C200 1x, https:\/\/i0.wp.com\/geekosas.com\/wp-content\/uploads\/2017\/02\/1487175020-auno760729.jpg?fit=799%2C533&ssl=1&resize=525%2C300 1.5x, https:\/\/i0.wp.com\/geekosas.com\/wp-content\/uploads\/2017\/02\/1487175020-auno760729.jpg?fit=799%2C533&ssl=1&resize=700%2C400 2x"},"classes":[]}],"_links":{"self":[{"href":"https:\/\/geekosas.com\/index.php\/wp-json\/wp\/v2\/posts\/2743","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/geekosas.com\/index.php\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/geekosas.com\/index.php\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/geekosas.com\/index.php\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/geekosas.com\/index.php\/wp-json\/wp\/v2\/comments?post=2743"}],"version-history":[{"count":9,"href":"https:\/\/geekosas.com\/index.php\/wp-json\/wp\/v2\/posts\/2743\/revisions"}],"predecessor-version":[{"id":2925,"href":"https:\/\/geekosas.com\/index.php\/wp-json\/wp\/v2\/posts\/2743\/revisions\/2925"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/geekosas.com\/index.php\/wp-json\/wp\/v2\/media\/2745"}],"wp:attachment":[{"href":"https:\/\/geekosas.com\/index.php\/wp-json\/wp\/v2\/media?parent=2743"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/geekosas.com\/index.php\/wp-json\/wp\/v2\/categories?post=2743"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/geekosas.com\/index.php\/wp-json\/wp\/v2\/tags?post=2743"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}