Muestra de Datasets para benchmarking y testeo
A veces sólo necesitamos algunos datos para cosas como pruebas de estrés. Sin embargo, los datos generados al azar son terribles – no tienen una distribución realista, y no es fácil de comprender si sus resultados son significativos y correctos. Los datos reales o cuasi-reales son lo mejor. Ya sea que estás buscando un par de megabytes o muchos terabytes, las siguientes fuentes de datos pueden ayudarte como punto de referencia y de ensayo en condiciones más realistas.
- La venerable base de datos de prueba Sakila: pequeña base de datos falsa de películas.
- La base de datos de prueba de empleados: pequeña base de datos falsa de empleados.
- La base de datos estadísticas de paginas vistas de Wikipedia : grande, datos de trafico real al website.
- La base de datos IMDB : moderadamente grande, base de datos real de películas.
- La base de datos de FlightStats: datos de tiempo de llegada de vuelos, fáciles de importar a MySQL.
- Las Estadísticas de la Oficina de Transporte: datos sobre el tiempo de las aerolíneas, se puede descargar de forma personalizable.
- Los datos en puntualidad y causas de los retrasos de las aerolíneas por data.gov : ídem.
- El análisis estadístico de la energía mundial por British Petroleum: datos reales de nuestro consumo de energía.
- El Datasets publico de Amazon AWS: una gran variedad de datos tales como el mapeo del genoma humano y los datos del Censo de EE.UU..
- El metro de datos meteorológicos del clima: personalizable y descargable en archivos CSV.
Publica tus favoritos en los comentarios!
Entradas relacionadas
Categories: Base de datos Amazon AWS, Azar, DataSets, Distribucion, Estres, IMDB, Pruebas, Reales, Sakila