Madrid, España
Granada, España
El presente artículo recoge y analiza en 459 lenguas del mundo el número de palabras (tokens) y el número de sonidos y fonemas (unidades fónicas convencionales de token o UFCT) que emplean dichas lenguas para expresar una misma información (en el análisis central de nuestro estudio el texto fuente empleado, en concreto, son los 10 primeros artículos de la Declaración Universal de los Derechos Humanos). Asimismo, estudia las correlaciones matemáticas existentes entre tokens, unidades fónicas convencionales de token y contenido informativo; correlaciones que dan lugar a los denominados índice de relatividad informativa (coeficiente resultante de dividir el número de tokens entre el número de UFCT), índice de densidad informativa (coeficiente resultante de dividir el número de UFCT entre el número de tokens), índice de eficiencia informativa léxica (coeficiente resultante de dividir 100 entre el número de tokens) e índice de eficiencia informativa fónica (coeficiente resultante de dividir 100 entre el número de UFCT). El objetivo del análisis es aportar algo más de luz a los principios matemáticos del lenguaje, a la denominada economía del lenguaje y al conocimiento sobre las características de las distintas lenguas según su tipología morfológica. La investigación se centra en analizar la relación existente entre estos índices y la tipología morfológica predominante de cada lengua. El resultado es una gran cantidad de datos y estadísticas de las que extraemos una serie de conclusiones referidas al uso de recursos léxicos y fónicos en las lenguas: 1) los índices de relatividad informativa y de densidad informativa tienen una relación directa con el tipo morfológico; 2) el número total de UFCT empleadas para expresar un mismo contenido de información no depende del tipo morfológico; 3) la diferencia entre el número total de UFCT empleadas por distintas lenguas puede ser muy elevada; 4) la correlación entre número de tokens y valor medio de UFCT por token muestra una relación lineal negativa (es decir, a mayor número de palabras, las longitudes de las palabras disminuyen); 5) a mayor número de tokens totales empleado para expresar una misma información corresponde por regla general un mayor número de UFCT totales (a mayor número de palabras totales, mayor número de fonemas totales); 6) la denominada economía del lenguaje no parece funcionar de igual manera en todas las lenguas, al menos en lo que a uso de recursos (fonemas) se refiere. El presente trabajo introduce como nuevos factores de estudio y descripción de las lenguas los citados índices, así como una serie de herramientas de estudio que podrían ser aplicadas en el futuro a otras investigaciones lingüísticas.
This article compiles and analyses, in 459 world languages, the number of words (tokens) and the number of sounds and phonemes (token conventional phonemic units or TCPU) that these languages use to express the same information (the source text used in the main analysis of our study is, specifically, the first 10 articles of the Universal Declaration of Human Rights). Additionally, it studies the mathematical correlations existing between tokens, token conventional phonemic units and informative content; correlations which result in the so-called index of informative relativity (coefficient resulting from dividing the number of tokens by the number of TCPU’s), index of informative density (coefficient resulting from dividing the number of TCPU’s by the number of tokens), lexical informative efficiency index (coefficient resulting from dividing 100 by the number of tokens) and phonetic informative efficiency index (coefficient resulting from dividing 100 by the number of TCPU’s). The objective of the analysis is to shed more light on the mathematical principles of language, the so-called economy of language and knowledge of the characteristics of different languages based on their morphological typology. The research is focused on analysing the relationship existing between these indices and the predominant morphological typology of each language. The result is a large quantity of data and statistics from which we draw a series of conclusions regarding the use of lexical and phonetic resources in languages: 1) the index of informative relativity and the index of informative density depend on the morphological type; 2) the total number of TCPUs used to express the same information does not depend on the morphological type; 3) the difference between the total number of TCPUs used by different languages may be very large; 4) the correlation between the number of tokens and average TCPU value per token has a negative linear relationship (that is, the larger the number of words, the shorter the lengths of words); 5) a larger number of total tokens used to express the same information corresponds to a larger number of total TCPUs (the greater the total number of words, the greater the total number of phonemes); 6) the so-called economy of language does not seem to work in the same way in all languages, at least with regard to use of resources (phonemes). The present article introduces the aforementioned indices as new factors of study and description of languages, as well as a series of study tools that could be applied in the future to other linguistic research.