Mi vida como científico de datos
¿Alguna vez te has preguntado qué hace todo el día un científico de datos? ¿Qué le preocupa y hacia dónde lo lleva su trabajo? Niranjan Pedanekar nos da una idea de cómo es un día típico en la oficina y revela que no todo se trata de recopilar datos. Lo que hace mi equipo se podría clasificar como investigación académica y trabajo de industria, aunque también es una mezcla de entretenimiento, ciencias de datos y ciencia conductual.
Actualmente estamos trabajando con las aplicaciones de IA para las industrias de entretenimiento, medios y publicidad. Escribimos algoritmos que nos permiten marcar medios automáticamente de distintas formas.
Tomemos las películas como ejemplo. Estamos tratando de crear un algoritmo que pueda reconocer las diferentes intensidades emotivas dentro de una película. Así, una secuencia de acción es de alta intensidad, pero una escena donde la gente está sentada en una sala de juntas es de baja intensidad. Los datos que usamos para lograrlo son elementos como la paleta de colores, la música y la velocidad de la acción en una secuencia.
IA en las películas
Quizá te preguntes por qué hacemos esto. Bueno, existen varias aplicaciones para ello. Uno es la colocación de anuncios, los cuales algunas veces pueden no embonar bien con lo que está pasando en la película. Quizá estés viendo una escena realmente triste, seguida de un anuncio con gente bailando, para después volver a la lúgubre película.
Nuestra tecnología permitiría que los anuncios se acoplen con el tono de la película: un anuncio de una bebida después de una escena en el desierto o un anuncio de calzado deportivo después de una escena en la que hay gente corriendo.
También, estamos buscando cómo marcar películas según el ambiente. De esta forma, puedes distinguir entre una escena de persecución en un bosque y una escena de relajación en la playa. Esto podría ayudar a Netflix, Amazon, y otros servicios de streaming a dar una experiencia más personalizada a sus usuarios.
Digamos que eres fanático de Matrix y que has visto la película muchísimas veces, pero solo quieres ver las escenas de acción. Esto te permitiría hacer justo eso.
También hay beneficios sociales. En el futuro, y esto está en nuestra lista de cosas por hacer, podríamos marcar películas de violencia o contenido no apropiado para niños. Si la familia está viendo una película que todos disfrutan, pero hay una escena que podría alterar a los más pequeños, el algoritmo puede reconocerla. Gran parte de nuestro día lo pasamos analizando dichos datos y tratando de entrenar a los algoritmos para que aprendan de ellos.
Mantenerse al día
También necesitamos leer mucho sobre lo que está pasando en otros lugares. Gran parte de mi día lo paso leyendo artículos que otros escriben sobre sus investigaciones. Si eres científico de datos, no quieres quedarte atrás. También necesitas entender qué está pasando en el mundo, así que también leo muchos periódicos.
Las buenas investigaciones tienen lugar en la intersección de campos, por lo que también leo artículos de psicología o ciencias conductuales, así como de IA. Hay muchos aspectos conductuales en la publicidad, por lo que, si quieres integrar la IA en ella, tienes que entender cómo la gente reacciona a las cosas. También escribimos los resultados de nuestras propias investigaciones. Nuestro grupo escribe entre 5 y 10 artículos al año y asiste a muchas conferencias.
Nos reunimos cada semana para intercambiar ideas, pero de manera informal interactuamos casi diario a la hora de la comida o cuando pasamos por el escritorio de alguien más. Algunas veces, uno de nosotros quiere hacer algo que suena muy interesante, pero quizá no rinda frutos de inmediato. Así que es mi trabajo, como gerente del grupo, decidir qué investigación deberíamos seguir.
La importancia de la creatividad
Mi día es un continuo de entretenimiento, IA y arte convergiendo. A veces no puedo distinguirlas. Si me surge una idea para una obra y necesito escribir el argumento, lo hago de inmediato. Si estoy trabajando en una producción y me llega una idea sobre mi trabajo en IA, me enfoco en ella. Necesitas esa creatividad en la ciencia de datos. Cuando estás atorado con un problema, tienes que encontrar varias formas de salir del problema. Lo mismo pasa cuando estás dirigiendo obras: tienes que ver lo que está escrito e imaginar cinco formas distintas de interpretarlas.
Ser un “buen” científico de datos
Necesitas comprender bien el problema y entender qué producirá tu trabajo y cómo ayudará. Por ejemplo, si estoy trabajando en un algoritmo que puede detectar cáncer con base en las resonancias de los pacientes, necesito entender qué significa la precisión del algoritmo. Puedo escribir un artículo que diga que mejoré los resultados y que la precisión fue de 95% a 96.3%, pero ¿qué significa, en realidad, en términos de salvar vidas? ¿Se pueden salvar doscientas o trescientas vidas más?
Es realmente importante poder entender los números y las tendencias, y cómo las cosas se afectan, en vez de solo perderse en los algoritmos. Tenemos que darles un sentido. La nueva ola de algoritmos, que es el aprendizaje profundo, por lo general no viene con respuestas que se pueden explicar. Así que tenemos que entender si esto nos parece bien o no.
Lo anterior también forma parte de las consideraciones éticas sobre la ciencia de datos. En algunas formas podemos comparar la ciencia de datos con el fuego. En algún momento, alguien descubrió el fuego que se puede usar para cosas tanto buenas como malas. La mismo se puede decir de la IA: se puede usar para diagnosticar cáncer o para armamento.
Algunos dirán que no se preocupan por esas cosas porque la ciencia es lo que realmente les importa, pero alguien en algún lugar tiene que preocuparse. Incluso alguien como Elon Musk, que es gran fanático de la IA, también advierte a la gente sobre los efectos negativos que ésta puede tener en el futuro. Lo más importante es encontrar un equilibrio y encontrar la forma de usarla para una buena causa.
Niranjan Pedanekar, Científico Principal del Área de Investigación en Tata Consultancy Services (TCS).