1.-Qué se entiende por calidad de datos y por qué es fundamental garantizarla antes de realizar cualquier análisis?
La calidad de los datos determina la calidad de los resultados; que cumplan con las expectativas en cuanto a exactitud, consistencia, relevancia, validez, precisión. esto garantiza la fiabilidad de la información para la toma de decisiones precisas e informadas.
¿Cómo se identifican los datos duplicados y por qué es importante eliminarlos para mantener la integridad del dataset?
Los datos duplicados se identifican al encontrar registros idénticos, identificar patrones y similitudes. Este proceso es crucial para evitar distorsionar el análisis, consumir recursos innecesarios y generar inconsistencia.
¿Qué son los outliers y qué métodos se pueden utilizar para detectarlos y evaluarlos en el contexto de un análisis de datos?
Son valores que se desvían significativamente de la tendencia general de un conjunto de datos, afectando directamente en la toma de decisiones. Uno de los métodos para detectar los outliers es métodos visuales: Boxplot: marcan los puntos fuera de los valores atípicos; los Scatter plots: para identifican outliers multivariados ya que muestran la relación entre dos variables; Histogramas: permite visualizar la distribución completa.
Los outliers pueden hacer que los mercados financieros se vuelvan inestables. Empresas con crecimientos mayores al 150% en tres años muestran cómo pueden afectar. Estos cambios bruscos modifican la estabilidad del mercado.
Se necesita usar modelos económicos y análisis predictivos para manejar el impacto de los outliers. Casi un tercio de los líderes financieros usan tecnología en la nube y análisis predictivo. Esto muestra la importancia de estos métodos para entender y disminuir los riesgos.