Cómo funciona MarIA, primer sistema de inteligencia artificial que comprende y escribe la lengua española

02/08/2021

0 2 minutos de lectura

Cómo funciona MarIA, primer sistema de inteligencia artificial que comprende y escribe la lengua española

El primer modelo de Inteligencia Artificial masivo de la lengua española es en realidad un “conjunto de modelos del lenguaje” o, como lo explican sus desarrolladores en un comunicado: “redes neuronales profundas que han sido entrenadas para adquirir una comprensión de la lengua, su léxico y sus mecanismos para expresar el significado y escribir a nivel experto”.

Se trata de redes que consiguen trabajar con interdependencias cortas y largas y son capaces de entender, no solo conceptos abstractos, sino también el contexto de los mismos.

El primer paso para crear un modelo de la lengua es elaborar un corpus de palabras y frases que será la base sobre la que se entrenará el sistema. Para crear el corpus de MarIA, se utilizó el equivalente a 59.000 gigabytes del archivo web de la Biblioteca Nacional (usando la tecnología del superordenador MareNostrum).

Posteriormente, estos archivos se procesaron para eliminar aquello que no fuera texto bien formado, y se guardaron solamente los textos bien formados en la lengua española. Para su posterior compilación fueron necesarias 6.910.000 horas de procesadores del superordenador MareNostrum y los resultados fueron 201.080.084 documentos limpios que ocupan un total de 570 gigabytes de texto limpio y sin duplicidades.

Según los desarrolladores: “supera en varias órdenes de magnitud el tamaño y la calidad de los corpus disponibles en la actualidad. Se trata de un corpus que enriquecerá el patrimonio digital del español y del propio archivo de la BNE y que podrá servir para múltiples aplicaciones en el futuro, como tener una imagen temporal que permita analizar la evolución de la lengua, comprender la sociedad digital en su conjunto y, por supuesto, el entreno de nuevos modelos”.

Luego de creado el corpus, los investigadores del BSC utilizaron una tecnología de redes neuronales (basada en la arquitectura Transformer), que ha demostrado buenos resultados en el inglés y que se entrenó para aprender a utilizar la lengua. Para realizar este entrenamiento se necesitaron 184.000 horas de procesador y más de 18.000 horas de GPU.

Tras lanzar los modelos generales, el equipo minería de textos del BSC está trabajando en la ampliación del corpus, con nuevas fuentes de archivos que aportarán textos con particularidades diferentes a los que se encuentran en los entornos web, como por ejemplo publicaciones científicas del CSIC. También está prevista la generación de modelos entrenados con textos de diferentes lenguas: castellano, catalán, gallego, euskera, portugués y español de Hispanoamérica.

Únete a nuestro canal de WhatsApp

Etiquetas

02/08/2021

0 2 minutos de lectura

David Villamarin
"De esa forma, hacia el 2025, 64% de las transacciones se ha...
Chris Heinze
Hola... un par de preguntas: - ¿Quién paga esa conectividad?...
Robots asistentes de Exotec - Parada Visual
[…] robots asistentes ya están presentes en varios alm...
Nuevas tecnologías: AfricInvest entra en la capital de CBI - Parada Visual
[…] internacional. CBI ha estado apoyando a empresas e...
Rastreator
¡Muchas gracias por la publicación! Muy orgullosos de nuestr...

David Villamarin
"De esa forma, hacia el 2025, 64% de las transacciones se ha...
Chris Heinze
Hola... un par de preguntas: - ¿Quién paga esa conectividad?...
Robots asistentes de Exotec - Parada Visual
[…] robots asistentes ya están presentes en varios alm...
Nuevas tecnologías: AfricInvest entra en la capital de CBI - Parada Visual
[…] internacional. CBI ha estado apoyando a empresas e...

Cómo funciona MarIA, primer sistema de inteligencia artificial que comprende y escribe la lengua española

Deja una respuesta Cancelar la respuesta

OkDiga – Contact Center Outsourcing

El Contact Center y su función

Jitsi Meet, aplicación de videollamadas de código abierto para las ruedas de prensa

Adelante Málaga se solidariza con teleoperadoras de Unicaja

¿Qué es un Webcast?

Revolución BPO: El modelo Hub & Spoke se impone en Europa del Este para frenar la rotación de personal

El reto del Nearshoring: Crisis de talento bilingüe en Centroamérica dispara los salarios de entrada un 15%

Claves y estrategias en el Encuentro de Directivos de la Asociación CEX: Desayuno de trabajo sobre absentismo y productividad

Review de HubSpot Service Hub: La mejor opción para integrar marketing y soporte en una sola suite y potenciar tu CX

OkDiga – Contact Center Outsourcing

SINUX – Soluciones Informáticas a su alcance

Quality must be – Contact Center Consulting Service

OkDiga – Contact Center Outsourcing

Cubriendo varios mercados: "Libghitout.ma", la nueva plataforma de servicios digitales

Operadores de centros de llamadas CallCare y alldayPA se fusionan

Deja una respuesta Cancelar la respuesta

Publicaciones relacionadas

El Contact Center y su función

Jitsi Meet, aplicación de videollamadas de código abierto para las ruedas de prensa

Adelante Málaga se solidariza con teleoperadoras de Unicaja

¿Qué es un Webcast?

Revolución BPO: El modelo Hub & Spoke se impone en Europa del Este para frenar la rotación de personal

El reto del Nearshoring: Crisis de talento bilingüe en Centroamérica dispara los salarios de entrada un 15%

Claves y estrategias en el Encuentro de Directivos de la Asociación CEX: Desayuno de trabajo sobre absentismo y productividad

Review de HubSpot Service Hub: La mejor opción para integrar marketing y soporte en una sola suite y potenciar tu CX