Inicio
Empresa Alianzas SolucionesProductos Innovación Noticias Contacto
Acerca de iSOCO Lab Web Semantica Aplicaciones Soluciones Culturales Proyectos Nacionales Proyectos Internacionales Publicaciones Seleccionadas Eventos
     
  XS4ME  
  Semantic Search Engine  
  Knowledge Parser  
  SSOA  
  KPONTOLOGY  



 

¿Cómo funciona?
Descripción de las fuentes
El Knowledge Parser utiliza una descripción semántica del dominio y del sitio del que debe extraer la información online. Esta descripción semántica permite definir qué datos son importantes y dónde y cómo almacenarlos. Cada descripción es muy fácil de asignar en un corto periodo de tiempo utilizando una herramienta especializada.
Procesamiento de las fuentes
Para ofrecer un proceso robusto, que no sea sensible a cada pequeño cambio, cada fuente es procesada utilizando diferentes técnicas. De esta forma, hay varias formas de identificar y extraer la información combinando la potencia de cada aproximación.
El sistema actual cuenta con las siguientes técnicas de procesamiento:

  • Procesamiento de la estructura del HTML: identificación de formularios, enlaces, tablas; navegación a través de documentos, etc.
  • Procesamiento de lenguaje natural: relaciones semánticas básicas como sinónimos, homónimos, procesado superficial para frases simples, etc.
  • Renderizado del formato del documento: las páginas onlines son procesadas y renderizadas en un modelo de formato para el procesamiento visual.
  • El código HTML es procesado utilizando técnicas basadas en expresiones regulares tradicionales.

Estrategias de extracción
El framework permite seleccionar y/o añadir las estrategias de selección que mejor se adecúen al dominio.
Para dominios con altos requerimientos en velocidad de extracción (cambios frecuentes en datos reales como mercados de acciones, densidad de tráfico, etc.) el framework ofrece algoritmos muy eficientes basados en heurísticas. Para dominios con alto nivel de ambigüedad en el proceso de extracción (p.e. fuentes que incluyen grandes documentos de texto) el framework incluye algoritmos de búsqueda exhaustiva.
Almacenamiento de la información
La información extraida y 'comprendida' puede ser almacenada de forma estructurada. El framework incluye casi todos los formatos de ontologías conocidos, bases de datos relacionales utilizando drivers ODBC y JDBC y está preparado para otros mecanismos de exportación como ficheros XML, bases de datos orientadas a objetos, etc.

VolverSiguiente


 
Copyright © 2008 iSOCO S.A. Todos los derechos reservados
Inicio |
Contáctenos |
Mapa del Sitio |
Aviso legal
·