miércoles, 3 de julio de 2013

Extracción, transformación y carga de datos en la línea de tiempo

Introduccion

La mejor base de datos disponible en internet proviene del sitio desaparecidos.org recopilada por el grupo Farenheit. La base de datos fue subida con una tecnología básica de publicación web que no permite la extracción automática de los datos, lo que nos obligó a elaborar un proceso de extracción automática que transforme la página html en un formato intermedio de forma de transformar los datos a una representación utiilizable por la aplicación de línea de tiempo.

Desarrollo

Para la etapa de extracción se utilizo un crawler de software libre denominado "wget" que extrajo las páginas relevantes a archivos html. Luego de esa etapa se programaron scripts en el lenguaje de programación Ruby que en tres etapas transformaron esa información.

  1. La primera etapa elimina toda la información redundante de los diferentes archivos, los encabezados, pies e información que no es de fechas de desaparición. A la vez que crea un gran archivo con estos datos.
  2. La segunda etapa toma este gran listado, extrae la información de fecha y de nombre. La información de fecha la transforma al formato año, dia y mes, y verifica que esté dentro de un rango válido. La información de nombre se sanitiza eliminando comillas, espacios en blanco y fin de línea. Teniendo como salida un archivo en formato Jsonp con los puntos temporales importantes.
  3. Por último se crea una linea de tiempo utilizando el código javascript de Timeline.js (el que utiliza Verite) y despliega la información contenida en el jsonp del archivo anterior.

Dificultades


Cantidad de registros

La cantidad de registros que se extrajeron supera los 8 mil. Esto genera problemas al visualizarlo con el software de línea de tiempo elegido. 
Utilizar la aplicación en la nube de verite.co resulta imposible con esta cantidad de registros. Tira un timeout al intentar bajar los datos desde google docs.
El utliizar aplicaciones en la nube para esta gran cantidad de volúmenes de datos se torna muy dificil actualmente. Por eso buscaremos un enfoque hosteado en servidores propios.

Enfoques

Se probaron otros softwares, como ser timeline-setter (http://propublica.github.io/timeline-setter/doc/twitter-demo.html) y SIMILE widgets http://www.simile-widgets.org/timeline/. El primero toma un enfoque diferente al realizar un sitio estático con preprocesamiento en lugar de construir la línea de tiempo dinamicamente. SIMILE, por su parte es similar a Timeline.JS. Ninguno de los dos permitio una mejora significativa en el rendimiento.

Solución

Por lo pronto se decidió utilizar Timeline.js tomando solo los datos del año 1976, a modo de experimento. A futuro el problema de los volúmenes de datos se puede resolver partiendo la información de forma que no se envie desde el servidor al cliente más información de la que se esta mostrando al usuario en ese momento. Esto requiere un cambio profundo en el código para incorporar un "paginador" de linea de tiempo del lado del servidor.

Storify de #chaugolpe

http://storify.com/chiqui_leon/linea-de-tiempo-chaugolpe

miércoles, 26 de junio de 2013

Grupo Farenheit

La información suministrada por el grupo Farenheit resultó de vital importancia para distintas publicaciones online que, siempre citando la fuente, utilizaron el listado original para detallar a los desaparecidos durante la dictadura militar.
Encontraremos entre estos: municipios, blog's, redes sociales, diarios y más. Aquí detallamos algunos:

Municipio de Lanús
Taringa (Red Social)
Yahoo! Grupos
Diario De León (España)



Selección

La mejor opción que encontramos hasta el momento para volcar los datos en la linea de tiempo es haciéndolo solo con los personajes que eligieron los compañeros para twittear. Tendríamos los personajes seleccionados y con un relevamiento de informacion (fechas, acontecimientos, desapariciones, etc) podriamos volcar esa informacion en el spreadshit de google. Esto acompañado de contenido multimedia, como los respectivos twitter de los personajes por ejemplo, que complemente y de color a la linea de tiempo. 
Esto abarcaria no solamente desapariciones sino distintos sucesos que ocurrieron entre 1976 y 1982, en los cuales se vean involucrados los personajes.

lunes, 24 de junio de 2013

Sobre el Grupo Farenheit y sus fuentes

Ya que del grupo Farenheit no hay datos publicados, y estamos esperando una respuesta a un mail que les enviamos, nos interesó saber cuales son las fuentes que ellos utilizaron para ese listado y aquí las citamos:

- "Suplemento Especial: Informe de la CONADEP" en "El Periodista de Buenos Aires" Nº8 del 3 al 9 de noviembre de 1984 (http://www.derechoshumanos.net/lesahumanidad/informes/argentina/informe-de-la-CONADEP-Nunca-mas.htm en ese link se puede leer el informe completo).

- "Como los nazis, como en Vietnam" de Alipio Paoletti
http://books.google.com.ar/books?id=ulkFAQAAIAAJ&dq=editions:ISBN9879961021&hl=es 

- Informe de la Asociación de Abogados de la Provincia de Tucumán.

- Informe de la Comisión de Derechos Humanos de la Cámara de Diputados de la provincia de Chaco (1984),

- Publicaciones de las organizaciones de derechos humanos como "692 culpables del Terrorismo de Estado" (http://books.google.com.ar/books/about/Terrorismo_de_estado_692_responsables.html?id=c-gwAAAAIAAJ&redir_esc=y) y "Culpables para la sociedad - Impunes por la ley" (http://books.google.com.ar/books/about/Culpables_para_la_sociedad_impunes_por_l.html?id=pQsVAQAAIAAJ&redir_esc=y)  

 

miércoles, 19 de junio de 2013

Timeline

Seria util encontrar una forma no tan tediosa de dejar volcada la cantidad de desaparecidos que tenemos en la historia de tiempo.

El tutorial de la pagina oficial de Timeline muestra como se hace uso de la herramienta de una manera muy clara pero no coincide con el tipo de lista que nosotros tenemos, ya que no es una sucesion corta de acontecimientos, sino que son las fechas de todas las desapariciones forzadas en dictadura.

Por este motivo pensamos que seria posible hacer una seleccion de las desapariciones que mas nos llamen la atencion o que consideremos mas relevantes por algun motivo, y volcar estas a la linea de tiempo, insertando contenido multimedia como ofrece Verite.

miércoles, 12 de junio de 2013

Presentación

En este espacio podrán encontrar una línea de tiempo con detalles de las personas desaparecidas en la última dictadura militar argentina entre el 76 y el 83, víctimas del terrorismo de Estado.
Las herramientas y fuentes que utilizamos para la recopilación de datos son las siguientes:
Verité
http://www.desaparecidos.org/
Como una segunda instancia geolocalizaremos las zonas donde desaparecieron.