Fénix 28-29, 5-70
LITERATURA SOBRE DESCRIPTORES Y TESAUROS y, de ser necesario, definir su localización en el tesairro. Esto es literalmen- te. rodearlo de sus términos más amplios: más eqecíficos y relacionados. El computador deduce automáticamente las relaciones reversas de la información prevista por el indizador y completa todas las referen,' cru- zadas necesarias. Por lo tanto, este sistema podrá producir en ccalquier momento un tesauro completamente estructurado que cubrirá todos los términos usados para indizar los documentos de la colección. Este tesaura puede imprimirse en cudqiiier momento, aunque cbvia- mente su costo os muy alto. La disponibilidad del tesauro impreso y es- tructurado es fundamental para que el indizador pueda definir la ubicación de nueves términos. Además tiene abstracts para niostrarlc e! ro~~tcxto dentro del cual se usa el término. En el Proyecto .Quobird del 1al;oratorio ds computadoras y dcl de- partamento de Ciencias de la Computación de la Quecn's University of Belfast, se descubre una técnica actualizada para la elaboi-ación de un dic- cionario en línea. Un programa de indización lee a través del texto de los abstracts (o a través de los encabezamienfos de los capítulos de un libro) procesando nuevos registros para que las palabras que figuren por primera vez puedan añadirse al tesauro. El indizador debe considerar primero, si la palabra es significativa o no. Si se juzga que una palabra no es significa- tiva, no será usada como palabra clave para la recuperación. Tan pronto una palabra se declare significativa, ci indizador debe deci- dir si se desglosa o no. Una palabra puede ser desglosada, de manera que todas las incidencias de palabras de igual rama o raíz sean agregadas a la misma lista. En la etapa siguiente del progrsmrt el indizador dcbc sugerir sinónimos para la palabra, a los cuales se le dará la mima entrada que a la primera paiabra. No se debe relacionar palabias que son sinónimos sólo en algíin contexto, si no lo son en todos los casos. E.stos incluyen los de ortografía diferente y los símbolos de elementos químicos. Los símbolos que son pa- J:ihras de poca significación, deben evitarse. El sistema SLC-11 (Simulated Linguistic Computer) facilita la constritc- ción de un tesauro. Es un paquete de datos y lenguaje de programación generalizado, para el procesamiento en lenguaje natural. El procedimiento de construir el tesauro requiere: Una gramática que represente las fuentes del tcxto; Un diccionario de fuentes morfológicas del lenguaje; Una colección de textos representativos a nivel estadístico. - El proceso de la construcción automática del tesauro se subdivide en los siguientes ciclos: Detección de palabras no halladas en el diccionario. La detección de homógrafos durante la búsqueda en el diccionario. Fénix: Revista de la Biblioteca Nacional del Perú. N.28-29, 1983
Made with FlippingBook
RkJQdWJsaXNoZXIy MjgwMjMx