Servicio líder en España

El etiquetado de noticias de Classora es el servicio más utilizado entre los medios de comunicación españoles. Compruébalo aquí.

50+

Periódicos digitales

6.000+

Contenidos diarios

43 millones

Llamadas mensuales al API

74%

Cuota de mercado

100%

Clientes satisfechos

Características del servicio de etiquetado

El etiquetado de noticias presenta diferentes ventajas para una compañía de prensa:

  • Reduce la carga de trabajo de los periodistas
  • Implanta un criterio unificado en toda la redacción para clasificar los contenidos
  • Permite al usuario consultar noticias de un tema publicadas en distintos momentos
  • Fomenta la reutilización de contenidos archivados en la hemeroteca digital

Y la más importante de todas: aporta una nueva forma de organizar los contenidos generados por los periódicos, para así mejorar la explotación de los mismos. Por ejemplo, una correcta clasificación de las noticias en temas es la base para perfeccionar la analítica interna del medio y conocer sobre qué asuntos resulta más conveniente centrar los esfuerzos editoriales en un momento dado.

Classora utiliza últimas tecnologías basadas en Procesamiento de Lenguaje Natural (NLP). De esta forma el resultado final devuelto por nuestro servicio es similar al realizado por un ser humano.

La clasificación temática de Classora tiene las siguientes características:

  • Puede usar como base el tesauro actual de tags de un medio de comunicación.
  • Mantendrá un tesauro de temas de calidad para cada medio, eliminando si es necesario temas duplicados y renombrando temas ambiguos.
  • Classora realizará un importante trabajo a medida para cargar datos sobre municipios y otras entidades locales de las zonas donde el cliente tiene periódicos. De esta manera se potencia el etiquetado de contenidos hiperlocales.
  • Los tags hiperlocales pueden tener una marca especial para diferenciarlos de los demás tags, lo cual permite un tratamiento específico para los mismos.
  • Si por actualidad informativa surgen nuevos temas susceptibles de ser incorporados al diccionario de temas de un periódico, Classora sugerirá automáticamente estos temas.
  • Cada periódico mantendrá el control completo sobre sus tesauros de temas, pudiendo crear nuevos temas, eliminarlos o renombrarlos manualmente.

Precisión y exhaustividad del servicio

Para poder medir y comparar el rendimiento de sistemas de clasificación basados en redes neuronales, o machine learning, se suelen utilizar tres métricas estadísticas básicas: precision, exhaustividad (recall) y f-score (valor f). Para calcularlas es necesario hacer una batería de pruebas con un tesauro definido y con un conjunto limitado de noticias, previamente etiquetadas de forma manual por documentalistas expertos.

Estos indicadores se sustentan en cuatro valores clave:

Verdaderos positivos (VP)
Tags obtenidos y deseados
Falsos positivos (FP)
Tags obtenidos, pero no deseados
Verdaderos negativos (VN)
Tags no obtenidos y no deseados
Falsos negativos (FN)
Tags no obtenidos, pero deseados

(En verde aciertos, en rojo fallos)

Precisión

Probabilidad de que un tag
obtenido sea deseado

Precisión

Exhaustividad

Probabilidad de que un tag
deseado sea obtenido

Recall

F-score

Nivel de ajuste de las dos anteriores,
calculado con la media armónica

f-score

Estas métricas (precisión, exhaustividad y f-score) se calculan a nivel de clase (tag) o bien a nivel de instancia (noticia), no a nivel global. Es decir, es necesario calcular su valor promedio. Para ello tenemos dos estrategias:

  • El macro-promedio se calcula como el cociente de las sumas.
  • El micro-promedio es la media de todos los valores.

El micro le da el mismo valor a cada instancia, y es útil cuándo todas tienen el mismo peso aproximadamente (apropiado para ver la precisión a nivel de noticia), mientras que el macro vale para que cada clase tenga el valor acorde a su peso (apropiado para ver la precisión a nivel de tag, ya que unos tags pueden tener muchas noticias y otros no, por tanto no se les puede otorgar el mismo peso a todos). En las cifras que se presentan a continuación hemos utilizado el micro-promedio.

Es importante recalcar que, lamentablemente, suele resultar imposible maximizar a la vez la precisión y la exhaustividad. Esto quiere decir que, al mejorar la precisión, generalmente se reduce la exhaustividad, y viceversa. Por tanto, al llegar al límite de entrenamiento de un modelo, se hace patente la necesidad de llegar a un compromiso entre ambas.

Métricas para Classora (en castellano, catalán y gallego)

Realizamos pruebas de manera periódica para no bajar la guardia y mantener la alta calidad de los resultados.
Contacta con nosotros para que te desvelemos las cifras reales.

[Top]

Precisión

[Max]

Exhaustividad

[Best]

F-Score

20.000+

Tamaño muestra (noticias)

5.000+

Tamaño tesauro (tags)

La "magia" detrás del servicio

La magia de los resultados de Classora se basa en la conjunción de cuatro aproximaciones técnicas diferentes:

  • Machine Learning: es la vía principal para detección de tags. Se trata de un sistema basado en aprendizaje automático, que se entrena con noticias ya etiquetadas, de forma que el sistema aprende a asociar contenidos de texto (noticias) con categorías predefinas (tags del tesauro). Entre otros, se emplean algoritmos NER (Named-Entity Recognition), POST (Part-Of-Speech Tagging) y LDA (Latent Dirichlet Allocation).
  • Sistemas expertos: es una vía alternativa para detectar tags, en la cual podemos influir de manera manual. Se basa fundamentalmente en que cada tag puede tener asociados un conjunto de "disparadores" (triggers) que no son más que palabras en la noticia que lo activan. De esta forma, si por ejemplo en una noticia se menciona a la "ciudad olívica" se le asocia la correspondencia con el tag "Vigo".
  • Base de conocimiento: Classora tiene su propia ontología, poblada de fuentes de datos abiertos como DBPedia y Geonames, que permite filtrar entidades y conocer de antemano la relación entre ellas. Esta base de conocimiento es uno de los pilares de nuestra lingüística computacional.
  • Inferencias: es una vía complementaria que se apoya en la base de conocimiento, buscando relaciones "a priori" entre tags. Por ejemplo, si en una noticia se detecta el tag "Messi", se pueden inferir con gran facilidad los tags "fútbol" o "FC Barcelona".

Classora ha logrado combinar estos cuatro métodos para crear una tecnología patentada única, que se puede optimizar para cada sector hasta sintetizar un servicio capaz de competir con el resultado propuesto por un ser humano.

Retos en el Procesado de Lenguaje Natural

El PLN, Procesado de Lenguaje Natural, es una de las piedras angulares tempranas de la Inteligencia Artificial (IA). La traducción automática, por ejemplo, nació a finales de la década de los cuarenta, antes de que se acuñara la propia expresión «Inteligencia Artificial». En términos generales, el PLN se ocupa de la formulación e investigación de mecanismos eficaces computacionalmente para la comunicación entre personas y máquinas por medio de lenguajes naturales.

No obstante, a día de hoy los algoritmos de interpretación del lenguaje natural todavía no han llegado a un estado de madurez definitivo. El principal problema es la ambigüedad del lenguaje humano. Esta ambigüedad se hace patente a diferentes niveles:

  • A nivel léxico, una misma palabra puede tener varios significados, y la selección del apropiado se debe deducir a partir del contexto. Muchas investigaciones en el campo del procesamiento de lenguajes naturales han estudiado métodos de resolver las ambigüedades léxicas mediante diccionarios, gramáticas, bases de conocimiento y correlaciones estadísticas. Pero las soluciones actuales aún no son definitivas.
  • A nivel referencial, la resolución de anáforas y catáforas implica determinar la entidad lingüística previa o posterior a que hacen referencia.
  • A nivel estructural, se requiere de la semántica para desambiguar la dependencia de los sintagmas preposicionales que conducen a la construcción de distintos árboles sintácticos. Por ejemplo, en la frase «Rompió el dibujo de un ataque de nervios».
  • A nivel pragmático, una oración, a menudo, no significa lo que realmente se está diciendo. Elementos tales como la ironía o el sarcasmo tienen un papel importante en la interpretación del mensaje.

Para resolver estos tipos de ambigüedades y otros, el problema central en el PLN es la traducción de entradas en lenguaje natural a una representación interna sin ambigüedad, como árboles de análisis. Esta es precisamente la solución por la que hemos optado desde Classora, aunque complementándola con nuestra aportación de software propietario.

¿Dispuesto a automatizar la clasificación de textos? Contacta con nosotros para que te informemos con más detalle.

Formulario de contacto


«Es difícil derrotar a una persona que nunca se rinde»

(Babe Ruth)

«Es difícil superar a un servicio que nunca falla y a un equipo que siempre responde»

(Classora Technologies)