Text Mining & Deep Learning

Descripción

Se estima que los datos no estructurados representan más del 90% del total. Gran parte de ellos en forma de texto. Comentarios en redes sociales, artículos de medios de comunicación y blogs y otras publicaciones digitales están haciendo que esta realidad sea cada vez mayor.

Entender la estructura que tienen las expresiones textuales no es trivial, dada la enorme variabilidad que tenemos los humanos a la hora de redactar contenidos. Por ello, se deben conocer las principales metodologías de tratamiento de datos textuales que existen, para poder adentrarse en este mundo tan prometedor.

Por otro lado, las técnicas de Deep Learning (Aprendizaje Profundo), están basadas en el aprendizaje de a través de la simulación de las redes neuronales. Estas técnicas se han puesto en boca de todos ahora porque el avance de la tecnología se ha orientado a dotar a las máquinas de mayores herramientas que le permitan analizar data y responder darle sentido a distintas series de datos provenientes de sonido, imágenes o texto. Así, con la ayuda de software y algoritmos, podemos reaccionar, ver, aprender y responder frente a distintos tipos de situaciones con cierto nivel de complejidad, igual o incluso mejor de lo que lo haría un ser humano. Se ha convertido en indispensable así que las organizaciones dispongan de un equipo altamente capacitado para aprovecharse de los beneficios de estas técnicas de Deep Learnning.

Utilizando el lenguaje R y sus librerías de procesamiento de lenguaje natural (NLP) y Deep Learning, combinaremos conceptos y técnicas de ciencias de la computación, inteligencia artificial, lingüística y algoritmia para entender el significado detrás de textos.

Objetivos

• Entender y utilizar los métodos de procesamiento de lenguaje natural para extraer significado y valor de textos.
• Entender y utilizar los métodos de aprendizaje profundo (Deep Learning) para extraer valor de los datos.
• Entender las distintas técnicas de tratamiento de texto y aprendizaje profundo que tenemos a nuestra disposición y cómo poder integrarlas en un proyecto real.
• Desarrollar varios casos reales poniendo en práctica lo aprendido durante el curso.

Contenidos

• Procesamiento de lenguaje natural en R
◦ Librerías en RStudio
◦ Instalando los paquetes necesarios
• Text Mining
◦ Expresiones regulares
▪ Utilidad en el contexto del Text Mining
◦ Algoritmos y su utilidad
▪ Document clustering
▪ Parts of speech tagging
▪ Sentence parsing
▪ Topic modeling
▪ Text classification
▪ Named-Entity Recognition
◦ Visualización de textos procesados
▪ Técnicas de visualización
▪ Eficiencia en la visualización
• Deep Learning
◦ Redes neuronales artificiales
◦ Aplicaciones de las redes neuronales artificiales
◦ El algoritmo de aprendizaje del perceptrón
◦ El algoritmo de propagación de errores: backpropagation
◦ Entrenamiento de redes neuronales
◦ Técnicas de regularización
◦ Técnicas de optimización
◦ Redes convolutivas
◦ Capas softmax
◦ Modelos estocásticos: máquinas de Boltzmann y DBNs

Evaluación

Participación en clase: 20%

Se evaluará tanto la asistencia a clase (10%), como la participación e intervenciones en clase (10%)

Test de lecturas y clases: 20%

Habrá dos tests de 20-30 minutos de duración aproximadamente, posiblemente al inicio de dos de las sesiones y que serán avisados con anterioridad. Cada uno valdrá 10%. En los mismos se preguntarán conceptos muy básicos sobre las lecturas o sobre lo visto en la clase (tanto si son explicaciones de las lecturas o sí son parte de los casos)

Casos grupales: 30%

Se asignarán casos grupales sobre la aplicación de los métodos de aprendizaje sobre distintos problemas con data real.

Caso final: 30%

Resolución de un caso en grupo.

Comentarios adicionales:

• En todos los casos, tests y ejercicios se podrá utilizar el material disponible y el que se crea conveniente. El objetivo es la aplicación de lo aprendido en situaciones reales.
• Los ejercicios se entregan en la fecha programada. Bajo ningún concepto se aceptará ejercicios o casos fuera de fecha.
• En caso de la ausencia del alumno en alguna sesión donde se hayan registrado notas por actividades hechas, estas NO podrán ser reemplazadas o recuperadas con otra nota.
• La evaluación se realiza por la solución de casos prácticos.