Cada día se producen más publicaciones científicas, lo que hace muy difícil, si no es que imposible, que los investigadores estén a la vanguardia, sobre todo en los campos de biomedicina y ciencias de la salud. Esta situación se ha complicado aún más con la irrupción de la pandemia de COVID-19, en donde además de incrementarse la generación de documentación científica de manera relevante, se da el caso de que muchas publicaciones son contradictorias entre sí.
Por tanto, es imprescindible desarrollar herramientas que permitan a la comunidad científica acceder de forma más rápida, efectiva y global a fuentes fiables de información, para lo cual un paso necesario es mejorar el trabajo previo de indización de los repositorios de documentación científica a fin de que estos puedan recuperar de manera adecuada la información de interés que se ajuste al tema de búsqueda.
Las vías para intentar conseguir este objetivo son múltiples, pero prácticamente la totalidad parte del uso de algoritmos de inteligencia artificial, y es precisamente este camino el que recorre el proyecto europeo Medical Semantic Indexing in Spanish Shared Task (MESINESP2), en el que por España participan el Instituto de Salud Carlos III (ISCIII), a través de su Biblioteca Nacional de Ciencias de la Salud, el Barcelona Supercomputing Center (BSC-CNS) y el Centro Latinoamericano y del Caribe de Información en Ciencias de la Salud (BIREME).[1]
MESINESP2, un proyecto muy peculiar
MESINESP2 es un proyecto incluido en el Plan de Impulso de las Tecnologías del Lenguaje (Plan TL), en donde se investiga el uso de la inteligencia artificial aplicada a la minería de textos y semántica del lenguaje para facilitar y acelerar la búsqueda y manejo de información científica.
Pero este no es un proyecto de investigación al uso, en realidad es una competición internacional de indexación semántica de literatura científica, ensayos clínicos y patentes, en idioma español, en donde participan 35 grupos de investigación de diversos países, siendo España el que más aporta con nueve de estos. El plazo de entrega de resultados comenzó el 7 de mayo y finalizó el 17 del mismo mes, por lo que en breve se conocerán las propuestas ganadoras.
La propuesta española, impulsada, organizada y coordinada por la unidad de Text Mining del BSC-CNS, busca fomentar el desarrollo de sistemas de indexación semántica basada en los últimos avances de inteligencia artificial y procesamiento del lenguaje natural.
La clave, la indización
Realizar búsquedas eficientes en los repositorios de documentación científica requiere de consultas complejas, cuyo éxito depende en parte de la asignación previa, por parte de expertos, de términos específicos para describir su contenido en un proceso conocido como indización. Al contrario de lo que muchos científicos podrían pensar, actualmente este proceso tan complejo continúa siendo una tarea manual. Por tanto, y debido al continuo crecimiento del número de publicaciones, es un procedimiento que corre un serio riesgo de colapso.
La indización de literatura científica es una tarea documental que consiste en asignar a un documento los términos (procedentes de los tesauros) que describen, de forma unívoca, el contenido de un documento. El hecho de que una base de datos tenga sus registros indizados es un plus de calidad, ya que permite al usuario realizar búsquedas a través de esos términos, que al ser controlados, evitan problemas propios del lenguaje natural, como las sinonimias y las polisemias.
Por tanto, para realizar una indización adecuada es necesario definir de manera correcta tesauros, listas de palabras o términos controlados de manera jerárquica que se emplean para representar los conceptos incluidos en un texto.
Por ejemplo, en una base de datos con tesauro, para buscar trabajos sobre VIH bastará con usar el descriptor aceptado para ello, para que el sistema devuelva toda la información existente; si la base de datos no cuenta con ese tesauro, el usuario debería buscar por todos los posibles sinónimos: HIV, VIH+, virus de inmunodeficiencia adquirida, etc. y, aun así no existiría la seguridad de haber localizado todos los datos.
En el área de las ciencias de la salud, el tesauro más utilizado en inglés es el Medical Subjects Headings (MeSH) elaborado por la National Library of Medicine de Estados Unidos. En castellano se utiliza el Descriptores en Ciencias de la Salud (DeCS), que es una traducción del MeSH impulsada por la Organización Mundial de la Salud, que se publica en versión trilingüe: inglés, español y portugués.
El objetivo que persigue MESINESP2 es catalizar la búsqueda de información biomédica a través de sistemas de indexación semántica basados en rigor científico y en las tecnologías más avanzadas de inteligencia artificial aplicadas a textos en español.
Los sistemas que participan en esta iniciativa acelerarán la recuperación de información biomédica y sanitaria, facilitando la localización de textos relevantes en la literatura médica, así como sobre patentes y ensayos clínicos. Los resultados de MESINESP2 también generarán "sistemas de indexación semántica que serán potencialmente útiles para procesar otro tipo de contenido, como historia clínica electrónica, guías de práctica clínica o patentes", explicaron a Univadis España Elena Primo y Cristina Bojo, de la Biblioteca Nacional de Ciencias del ISCIII.
La minería de datos y el aprendizaje automático, las herramientas para una correcta indización
MESINESP2 forma parte de una línea de proyectos del Plan TL basados en el desarrollo de tareas colaborativas y competitivas (shared tasks o challenge tasks/tracks). Cuando estas tareas están orientadas a participantes académicos, grupos de investigación y entorno empresarial, se articulan a través de campañas de evaluación de sistemas de procesamiento de lenguaje natural y minería de textos (proceso que permite buscar, extraer, analizar y derivar nueva información a partir de diversos textos o documentos).
A través de métodos científicos y usando conjuntos de datos bien definidos, estas tareas permiten evaluar de forma independiente la calidad de los resultados obtenidos por los sistemas y algoritmos predictivos que participan en estos análisis. En concreto, MESINESP2 forma parte del proyecto BioASQ de indexación de literatura biomédica.[2]
La tarea de indización es altamente compleja y costosa en tiempo, ya que requiere la lectura del documento y seleccionar los términos que mejor describen ese contenido. El principal objetivo de MESINESP2 es construir una herramienta (basada en sistemas de procesamiento de lenguaje natural, rama de la inteligencia artificial) que ayude y mejore la eficiencia de la indización manual, automatizando parte del proceso.
Para su desarrollo, estos sistemas de procesamiento de lenguaje natural, como muchos sistemas basados en la inteligencia artificial, requieren del aprendizaje automático, es decir, que el algoritmo sea capaz de aprender de manera autónoma a leer cada vez mejor los textos, con ayuda de un conjunto de fuentes, documentos y referencias, y ser capaz de funcionar de manera más eficiente según pasa el tiempo. En el caso de MESINESP2, esta información la obtienen de las bases de datos IBECS y LILACS, mantenidas por la Biblioteca Nacional de Ciencias de la Salud y el Centro Latinoamericano y del Caribe de Información en Ciencias de la Salud, respectivamente.[3,4] Pero no es suficiente con proporcionar los textos; para que la máquina aprenda a indizar necesita trabajar con textos previamente indizados. Esta guía también proviene de IBECS y LILACS.
El idioma: talón de Aquiles de MESINESP2
MESINESP2 busca ser capaz de ordenar y clasificar de manera correcta toda la documentación biomédica y del ámbito de la salud en español, pero de momento no contempla una segunda fase en donde pueda realizar las mismas tareas en inglés.
"Esto es una limitación muy fuerte, quizá no tanto en la práctica clínica diaria, donde la gran mayoría de los historiales clínicos que utilizamos está en español, pero sí en la labor de investigación que todo médico ha de realizar de manera continua para estar al día y pueda dar a sus pacientes los tratamientos más avanzados a sus padecimientos. Estas publicaciones científicas suelen estar en inglés, con lo cual MESINESP2 no sería útil", declaró a Univadis España el Dr. Alberto Mussetti, coordinador de la Unidad de Terapia Celular del Instituto Catalán de Oncología de Hospitalet del Llobregat.
“Por ello espero que en futuro desarrollen 'MESINENG', que facilitaría mucho nuestro trabajo y, lo que es más importante, nos posibilitaría dar una mejor atención a nuestros pacientes”, concluyó el Dr. Mussetti.
Este contenido fue originalmente publicado en Univadis, parte de la Red Profesional de Medscape.
Para más contenido siga a Medscape en Facebook, Twitter, Instagram y YouTube.
Medscape Noticias Médicas © 2021 WebMD, LLC
Citar este artículo: Inteligencia artificial: ¿la solución para la búsqueda y manejo masivo de información científica? - Medscape - 27 de mayo de 2021.
Comentario