IV. SISTEMA DE ARCHIVO Y BÚSQUEDA DE INFORMACIÓN

Por qué viene el recuerdo
éste y no otro
si nada nunca
lo llama lo repite lo convoca
éste y no otro
éste
BENEDETTI

CON EL desarrollo de la sociedad aparece la necesidad de guardar cada día más cantidad de información. Así tenemos que en la actualidad una de las funciones más importantes de las computadoras es ayudar a la organización de la sociedad y al control de varios aspectos de ésta, mediante el almacenamiento y manejo de grandes bancos de datos.

Hace ya algunos años, la aparición de las máquinas de oficina aceleró la rapidez del trabajo, pero trajo consigo problemas de carácter diferente: se empezó a producir un número de documentos cada vez mayor, de manera que se necesitaron más archiveros para almacenarlos. La gran cantidad de documentos hizo necesario idear un sistema de archivo adecuado al tipo de empresa u organización en cuestión. Por ejemplo, en una oficina se podría clasificar conforme a alguno de los siguientes criterios: por orden alfabético del nombre de las personas, por fechas de inicio de operaciones, por número de registro, por orden cronológico de los sucesos, por temas, etcétera, y la manera óptima de organizar la información depende de los objetivos de la o las personas interesadas en el manejo de dicha información.

En un principio, esta información se guardaba "físicamente" en archiveros. Más adelante muchas empresas utilizaron, por ejemplo, el sistema de microfichas, esto es, fotografías de tamaño reducido cuyos negativos sirven como archivo permanente; de esta manera era posible almacenar un archivo de 2 600 tarjetas de 7.5 cm x 12.5 cm en un rollo de 30 m de película de 16 milímetros.

Posteriormente, con la aparición de las computadoras modernas, gran parte de la información extraída de los documentos se pudo grabar en cintas o discos magnéticos de acuerdo con un código binario. En estas computadoras, la organización de la información se lleva a cabo de una manera muy similar a la requerida para archivar en gavetas. El tiempo de acceso a la información, y el espacio físico que ocupan, son en la práctica las principales diferencias entre ambos medios de almacenamiento. Es por esto que, teniendo claras estas diferencias, en ocasiones hablaremos de manera indistinta de ambas formas de almacenar.

Las computadoras como nuevo medio de almacenamiento de datos, no sustituyen del todo a los sistemas de microfichas y archivos en papel. Sin embargo, han permitido un importante ahorro de espacio y una disminución considerable en el tiempo de acceso a la información, con respecto a los medios utilizados anteriormente. Pero existe un problema: conforme aumenta la cantidad de información almacenada, se vuelve más difícil el acceso a ésta. La situación se agrava cuando, debido a la naturaleza de la información requerida, no existen métodos eficientes para encontrar los datos requeridos en un tiempo corto. Por ejemplo, algunas corporaciones han invertido millones de dólares en bases de datos de proporciones inmensas. Sin embargo, aunque los ejecutivos saben que esos enormes almacenes de información contienen todos los datos necesarios para tomar cierta decisión, en términos prácticos es imposible tener acceso a éstos. A continuación explicaremos a que nos referimos con esto.

ALMACENAMIENTO POR CONTENIDO

Y POR DIRECCIÓN

Para las computadoras es sumamente fácil buscar en listas ordenadas de datos, y ésta es por tanto una tarea que llevan a cabo en fracciones de segundo. Sin embargo, hay veces que es necesario obtener información de otro tipo. Por ejemplo, supongamos que un centro hospitalario cuenta con un archivo en el cual la información se encuentra almacenada en orden alfabético del apellido de los pacientes. De esta manera, cuando un médico requiere el expediente de un paciente, éste es encontrado de inmediato con sólo proporcionar su apellido. A este tipo de almacenamiento se le denomina por dirección, ya que al conocer el apellido del paciente sabemos exactamente la localización, o dirección, del expediente con respecto a los demás. Empero, si por ejemplo, en un momento dado surgiera la necesidad de saber los datos de todas las personas que recibieron transfusiones de sangre durante la semana 23 del año, debido a una sospecha de que hubo sangre contaminada con el virus del SIDA, o si se quisiera obtener la lista de todas las personas a las cuales se les aplicó algún tratamiento o se les administró cierto medicamento, o si se quisiera localizar grupos de alto riesgo para alguna enfermedad con base en el sobrepeso, tipo de vivienda, antecedentes hereditarios, hábitos alimenticios, consumo de tabaco o alcohol, etcétera, entonces sería necesario analizar, uno a uno, todos los expedientes para poder encontrar a los grupos de personas de interés. Esto es, para localizar información con base en su contenido, la persona encargada del archivo tendría que hacer una búsqueda secuencial. Si la información estuviese almacenada en una computadora, esta búsqueda tomaría un tiempo bastante largo. Pero si estuviese en gavetas el trabajo sería prácticamente irrealizable.

Al organizar un archivo o base de datos que será almacenado en una computadora, es posible dar varias vías de acceso a la información. Esto se hace definiendo ciertas palabras claves que funcionarán como etiquetas o "banderas" que indiquen el contenido del archivo, lo cual equivaldría al uso de tarjeteros para los archiveros. Estas palabras claves podrían ser sexo, ocupación, nivel socioeconómico, grupo de edad, apellido, clave del Registro Federal de Causantes, o cualquiera otra. De esta manera, la computadora formula una lista ordenada, para cada una de estas palabras claves, en la cual se incluye la dirección para tener acceso a la información requerida. Entonces, se podría pedir a la computadora, por ejemplo, que hiciese un listado con base en las palabras claves que incluyera a todas las mujeres entre los 30 y los 40 años de edad. Sin embargo, existen complicaciones, ya que, por un lado, es imposible introducir como palabras claves toda la información que pudiera llegar a ser importante o pertinente en un momento dado, y por otro, en el momento de organizar la base de datos es necesario decidir cuáles serán estas palabras claves, pues la inclusión posterior de una palabra clave implicaría la revisión, uno a uno, de todos los archivos, con el objeto de actualizar las banderas de salida de la información almacenada.

Este procedimiento de organización es igual al utilizado en los diccionarios enciclopédicos, ya que se ha encontrado que proporciona la forma más fácil de efectuar consultas. En estos libros, la información está ordenada alfabéticamente por temas, y se incluye un índice alfabético de las palabras claves en una sección especial. En dicho índice se incluyen los tomos y páginas donde aparece la información relacionada (esto es, su dirección). De esta manera, si quisiéramos, por ejemplo, encontrar el nombre de los satélites del planeta Júpiter, o el significado de alguna palabra, podríamos encontrarlos con suma rapidez. Sin embargo, si quisiéramos encontrar un dato como la duración más corta de un reinado, o el nombre de la persona que escribió cierta novela, entonces tendríamos que contar con otra información adicional que nos permitiera escoger ciertas palabras claves. Por ejemplo, conocer los nombres de los países en que ha habido monarquías, o para el segundo ejemplo, conocer el idioma o época en que la novela fue escrita. Las otras alternativas serían revisar, palabra por palabra, una gran parte de la enciclopedia, o mejor aún, preguntar a alguna persona que supiese de historia y de literatura.

Esta última solución es la más fácil, debido a que este tipo de búsqueda de información es mucho más eficiente en la mente humana. Podríamos decir que nosotros tenemos una infinidad de palabras claves que nos permiten tener acceso a la información de muchas maneras diferentes y en un tiempo muy corto. Esto es, nosotros somos capaces de almacenar información directamente por contenido y recordamos con base en asociaciones de ideas. Muchas veces un olor, una palabra, algún sonido, etcétera, bastan para hacernos recordar algo. Somos capaces inclusive de recordar información al azar, sin que aparentemente haya habido ninguna idea o estímulo que propiciara algún recuerdo en particular.

Otra característica importante de nuestra memoria es que ésta tolera errores, y que a su vez, es capaz de cometerlos. También tenemos la capacidad para establecer analogías entre cosas similares con base en diferentes criterios. Podemos reconstruir imágenes, o situaciones con base en información incompleta. Podemos leer "entre líneas", esto es, al leer un texto podemos intuir su significado real (cuando éste es diferente al consignado), si es que tenemos información adicional relativa a los factores que intervienen en la situación. También podemos captar un "doble sentido" en las expresiones que escuchamos; podemos "intuir" el estado de ánimo de una persona con tan solo observar sus actitudes, etcétera. En el proceso de reconocimiento de imágenes, si únicamente fuésemos capaces de reconocer imágenes "idénticas" a las que tenemos memorizadas, seríamos muy poco eficientes, siendo que, por ejemplo, nunca percibiremos a una persona de la misma manera que en otro momento anterior: variará el peinado, la expresión, habrá cambios causados por el tiempo, inclusive la cantidad y color de la luz variarán de un momento a otro produciendo un efecto diferente en la apariencia del sujeto, etc. Sin embargo, si la imagen que se nos presenta es lo suficientemente "cercana" a la información que tenemos almacenada, esto es, al recuerdo que tenemos de dicha persona, no tendremos dificultad alguna en reconocerla. Esta característica se extiende a otros tipos de identificación: si dentro de un texto nos encontramos con una palabra escrita con un error ortográfico, somos capaces de saber el significado correcto de esta palabra únicamente por el contexto. De igual modo, podemos reconocer de manera auditiva una misma palabra pronunciada con diferentes acentos y timbres de voz, o incluso en diferentes idiomas (suponiendo que los conozcamos). Todas las características anteriores son características naturales de la mente humana y no tienen paralelo en las computadoras convencionales.

Se han creado programas para estas computadoras cuyo objetivo es llevar a cabo tareas específicas de reconocimiento de algún tipo. Sin embargo, estos programas son de poca eficiencia y versatilidad comparados con el desempeño humano. Por ejemplo, las ambigüedades inherentes a cualquier lenguaje han hecho difícil el desarrollo de "programas" destinados a la lectura de textos "en voz alta", ya que este trabajo implica una cierta comprensión de las frases con el objeto de darles el énfasis correspondiente. Una computadora, en caso de encontrarse con una palabra escrita con un error ortográfico, le atribuiría a esta palabra el significado consignado en su diccionario (en caso de que existiese tal palabra), aunque la frase resultante careciese de significado. 1

Regresemos, al ejemplo utilizado en el capítulo I para definir los problemas complejos. Dicho ejemplo corresponde a una tarea muy sencilla desde nuestro punto de vista. Si le presentamos a un niño de tres años una serie de fotografías de personas, escogidas al azar entre la población, y le pedimos que identifique si se trata de hombres o mujeres, nos encontraremos con que no tendrá ningún problema de reconocer a la mayoría de ellas. Si repetimos la prueba de un niño un poco mayor veremos que el porcentaje de error se reducirá, aunque la posibilidad de error siempre existirá (por pequeña que sea). Esto es debido a que, según el criterio del niño, algunos individuos no tendrán exclusivamente características típicas de uno u otro sexo (con características típicas nos referimos a rasgos ya sea de carácter biológico o social). Por otro lado, la probabilidad de error dependerá de la experiencia previa del niño, esto es, del medio en que se desenvuelve, de su nivel socioeconómico y del tipo de información que recibe: televisión, revistas, escuela, amistades de los padres, etcétera. Esto se debe a que los humanos aprendemos a través de la experiencia. Es de esperarse que si al niño se le presentaran imágenes de personas vestidas a la usanza del siglo XVII (¡o XVIII!), el porcentaje de aciertos no sería el mismo que el obtenido con imágenes de personas propias de su tiempo y de su medio. Ya que debemos recordar que en el hombre el desempeño de diferentes habilidades es producto, primordialmente, del entrenamiento obtenido.

Si ahora quisiéramos programar una computadora convencional para que llevara a cabo este mismo trabajo, indispensable darle instrucciones precisas para que efectuara dicha identificación. Por ejemplo, podríamos decirle que el pelo largo se da preferentemente en mujeres (lo cual es más cierto ahora que en los años setenta y completamente falso en otras épocas o culturas), o que la gran mayoría de las personas que usan aretes son mujeres, o que las mujeres tienen en general rasgos más suaves que los hombres. Como puede apreciarse, definir estos criterios no es tarea fácil, ya que no siempre es verdad que el hombre sea feo, fuerte y formal, y un gran número de personas no corresponde a los estereotipos. Además sería necesario determinar qué tan importante son unos criterios con respecto a otros. Por otro lado, habría que dar a la computadora las definiciones de las definiciones: ¿qué es el pelo?, ¿cómo distinguirlo de sombras?, ¿qué son las orejas, los aretes, la nariz, la manzana de Adán?, ¿qué significa tener rasgos finos, boca grande, pestañas largas, mirada dulce?, ¿con respecto a qué? Por otro lado, para complicar más la situación, todas estas definiciones no podrían darse en palabras, ya que éstas no tienen ningún significado para la computadora, sino que habrían de darse en un lenguaje apropiado para la máquina. 2 Dados los mecanismos de funcionamiento de las computadoras actuales, es fácil darse cuenta de por qué un niño pequeño será capaz de llevar a cabo este trabajo con mucho más éxito que una gran computadora que trabaja con programas muy elaborados.

Es común escuchar que las computadoras tienen una capacidad para almacenar y procesar información muy superior a la del hombre. Nosotros creemos que esta información carece de sentido, ya que no es correcto comparar habilidades diferentes. Por un lado, la capacidad de almacenamiento de las computadoras es prácticamente ilimitada, ya que siempre es posible aumentarla mediante el uso de discos o cintas magnéticas; aunque la rapidez para localizar esta información se ve seriamente mermada cuando se trata de obtener información por contenido. Por otro lado, la cantidad de información que puede almacenar un hombre en su memoria es inmensa, e imposible de cuantificar, aunque éste no siempre sea capaz de recordarla. Algunas personas podrían calificar la mayor parte de la información que almacenamos como inútil en términos prácticos; sin embargo ésta constituye gran parte de lo que son nuestro carácter, personalidad, sentido común, tacto, intuición, capacidad para manejar situaciones, percepción de signos de peligro y de situaciones anormales, etcétera. Esto dejando de lado todo el conocimiento necesario para efectuar con destreza el movimiento de las diversas partes de nuestro cuerpo, indispensable para conservar el equilibrio, caminar, comer, escribir, correr, rascarnos, sentarnos, etcétera. Tareas todas que debemos aprender a efectuar.

Casi todos hemos visto en el cine una u otra historia basada en la famosa novela acerca de Frankestein escrita por Mary W. Shelley. Dicha novela trata de la historia del doctor Frankestein, quien construye un ser a partir de restos de cadáveres humanos y es capaz de darle vida. Más adelante, esta criatura empieza a aprender los conocimientos necesarios para desempeñarse como un ser humano. Si nos ponemos a pensar tan solo un momento en la cantidad de información que necesitaría aprender para logran este objetivo, podremos darnos cuenta de lo ambicioso de este proyecto, pues sería necesaria toda una vida para lograrlo. No es casual que los niños sean ingenuos, poco maliciosos, espontáneos y que manifiesten sus estados de ánimo en forma más directa, esto es, que carezcan de cierta "sofisticación" presente en los adultos, además de poseer menos datos, o información cuantificable en su memoria (como lo que comúnmente se denomina "cultura general").

Para finalizar, quisiéramos mencionar otra característica que diferencia a las memorias de las computadoras de las de los seres humanos. A una computadora se le puede programar para que haga una lista en la que incluya "toda" la información que tiene almacenada. Esta tarea es realizable, en principio, independientemente de la cantidad de información almacenada. Por el contrario, los seres humanos somos incapaces de hacer una relación de "todos" nuestros conocimientos; 3 y esta limitación no es sólo de carácter práctico, sino de índole fundamental. Esto se debe a que el procedimiento mediante el cual almacenamos y recordamos la información no es compatible con esta tarea. Esperamos que esto sea claro para el lector al finalizar la lectura de este libro.

Esperamos también que a estas alturas se haya logrado despertar en el lector un interés por encontrar la respuesta a preguntas como: ¿de qué manera consigue la mente humana recordar información en el momento en que la necesita?, ¿cuáles son los mecanismos de almacenamiento y remembranza?, ¿en dónde es que se almacena dicha información?, ¿cómo se procesa ésta? Aunque aún no podemos dar una respuesta a la mayoría de estas preguntas, creemos tener una idea clara acerca de cuáles son los principios fundamentales que intervienen en el proceso de almacenamiento de información. Los avances en este terreno, además de ser de un gran interés desde el punto de vista de nuestra necesidad de conocernos a nosotros mismos, tienen un gran potencial tecnológico, pues de conocerse las respuestas a estas preguntas, salvo limitaciones de carácter tecnológico, podrían utilizarse estos mismos mecanismos en la construcción de computadoras.

Aunque pueden diseñarse algoritmos que superen este problema, la complejidad de los programas aumenta mucho más que su eficiencia.
Esto se debería hacer a través del planteamiento del problema en términos de lógica simbólica. Pero el problema es precisamente que los problemas complejos no son expresables de esta forma.
Por "todos" nos referimos a "todos y cada uno de ellos".