XXI. EL CAOS ORDENA LA LING��STICA. LA LEY DE ZIPF

EN TODO texto escrito hay palabras que se repiten. Por ejemplo, la preposici�n "de". As�, en un texto se puede contar cu�ntas veces aparece "de" y se encuentra un n�mero. Si �ste se divide entre el n�mero total de palabras del texto, se obtiene su frecuencia y, de esta manera, la frecuencia de cada palabra que aparece en un escrito.

Ahora se enlistan las palabras del texto colocando en primer lugar la palabra que aparece con mayor frecuencia; en segundo la palabra con segundo valor de frecuencia, y as� sucesivamente. Al lugar que ocupa una palabra en ese texto se denominar� rango de la palabra. Supongamos que en un texto la palabra de m�s frecuencia es "de"; en la lista ocupar� el primer lugar y por tanto tendr� el primer rango. Si el art�culo "el" tiene segundo valor de la frecuencia ocupar� el segundo lugar en la lista y tendr� rango dos, etc�tera.

Del estudio de diferentes textos en varios idiomas se encuentra que existe una relaci�n entre la frecuencia de una palabra y su rango. En efecto, mientras mayor sea el rango de una palabra, menor ser� la frecuencia con la que aparece en el texto. Esto es claro, ya que mientras mayor sea su rango, m�s abajo estar� la palabra en la lista, lo que significa que menor ser� su frecuencia. �C�mo depende la frecuencia del rango? Pues resulta que depende en forma inversa (porque disminuye a medida que el rango aumenta) de la primera potencia del rango. Si denotamos con la letra f la frecuencia y con la letra r al rango, entonces la relaci�n matem�tica es que f depende de r como (1/r) (v�anse los cap�tulos XIV y XV). Este resultado se llama la ley de Zipf.

Nos damos cuenta de que esta dependencia es precisamente la misma que se obtiene para otros fen�menos que ya estudiamos y que recibe el nombre de dependencia (1/f). Como ya se vio, esta dependencia es la de una ley de potencias; en este caso la potencia -1, matem�ticamente hablando. Y ya Sabemos que esta ley de potencias implica un comportamiento autosimilar.

La ley de Zipf tambi�n da la dependencia de la frecuencia de ocurrencia de una palabra con respecto al n�mero de palabras que se usen, o sea, a la amplitud del vocabulario utilizado. Mientras menor sea el vocabulario, mayor ser� la frecuencia de las palabras en los primeros rangos. As� por ejemplo, en un texto en espa�ol con un vocabulario de alrededor de 10 000 palabras, las frecuencias de las palabras de mayor rango, como "de", "el", "y", son 0.11, 0.06, 0.33, respectivamente.

La dependencia que indica la ley de Zipf se encuentra no solamente en muchos de los idiomas modernos, sino tambi�n en lenguajes especiales como la hagioantroponom�a, que estudia el empleo del nombre de los santos como sobrenombres o apodos de personas; tambi�n lo estudia en su uso relativo a los apellidos de familias.

La ley de Zipf tiene vigencia no solamente en el lenguaje en general sino en la obra de escritores en particular. Por ejemplo, en el caso de un buen escritor cuyo vocabulario activo sea de, digamos, unas 100 000 palabras, las palabras que ocupan los primeros 10 lugares en la lista llenan alrededor de 25% del texto, es decir, la frecuencia total de estas 10 palabras es de 0.25. En contraste, en un texto en el que se usara una d�cima parte de aquel vocabulario (unas 10 000 palabras), como el de un peri�dico, el porcentaje apenas crece a 30%. Esto se debe principalmente a que el escritor no podr�a evitar el uso de palabras como "de", "el", "y", "a", etc., las que generalmente ocupan los primeros rangos en cualquier texto.

Una de las formas de entender el origen de la ley de Zipf ha sido considerada con razonamientos como los que siguen: es cierto que los lenguajes han sido producidos por el cerebro humano que genera su estructura; se ha hecho el an�lisis de modelos din�micos de ling��stica acerca de los cuales existe mucho material que ha sido descubierto por la psicolog�a cognoscitiva, lo que ha permitido hacerse algunas ideas acerca de la forma como procesa la informaci�n un agente biol�gico, como el cerebro humano.

Se ha descubierto que esta din�mica presenta comportamientos ca�ticos como los que describimos en el cap�tulo VIII. Esto no deber�a extra�arnos ya que, como vimos, una de las caracter�sticas de un r�gimen ca�tico es que puede generar variedad, mientras que cuando est� dentro del r�gimen peri�dico, o sea regular, se produce la confiabilidad, ambas caracter�sticas necesarias en el lenguaje. La variedad permite que haya innovaci�n, mientras que la confiabilidad permite que haya orden.

Consecuencia de construir el lenguaje con una din�mica que produzca un r�gimen ca�tico es que la estad�stica que resulta con respecto a las palabras sigue la ley de Zipf.

De hecho, este resultado se puede ver de manera m�s general. En vista de que muchos tejidos, �rganos y sistemas biol�gicos son fractales, dan lugar a comportamientos ca�ticos que producen una ley, la de Zipf en el caso ling��stico, que tiene estructura fractal.

InicioAnteriorPrevioSiguiente