La IA puede ser la respuesta a sus problemas de datos, pero no a todos ellos

Es importante utilizar la herramienta adecuada para el trabajo, teniendo en cuenta todo el revuelo que rodea a la IA generativa. “Mucha gente está intentando aprovechar esta tecnología, que parece que puede hacerlo todo”, dice, “pero eso no significa que debas usarla para todo”.

Así, por ejemplo, ABBYY ya tiene una herramienta que puede convertir una sola imagen en cientos de imágenes sintéticas para utilizarlas como datos de entrenamiento. Si hay registros duplicados, la tecnología de concordancia de lógica difusa es estupenda para comprobar si se trata de la misma persona. Pero si hay un artículo de Onion que recomienda comerse una piedra todos los días, o un post de Reddit sobre poner pegamento en la pizza, ¿son fuentes creíbles de información que deberían formar parte de un conjunto de datos de entrenamiento?

“En realidad, eso requiere que la tecnología razone sobre si la gente suele poner pegamento en la pizza”, dice Vermeir. “Es una tarea interesante para un gran modelo lingüístico, que debe razonar sobre una gran cantidad de información. Así que este caso de uso es bastante útil”. De hecho, ABBYY tiene algo parecido: averiguar si una información concreta, añadida a un conjunto de datos de entrenamiento, ayudará al rendimiento de un modelo que se está entrenando.



Source link