Вставьте сюда текст:   Результат анализа:  
 
 
   

Анализатор текста считает статистику по русскоязычным буквосочетаниям.

Первоначальный алгоритм был взят у ЖЖ-юзера vchk. Далее слово автору:

Нижеприведённая программка делает очень простую вещь - считает, сколько в тексте есть разных буквосочетаний. Из соображений скорости и простоты она учитывает только 512 наиболее распространённых в русском языке буквосочетаний. На выходе получаем простой список из 512 относительных величин в экспоненциальном формате - количество буквосочетаний одного типа отнесённое к общему количеству буквосочетаний. Теперь остаётся только загнать этот список в какую-нибудь программку для построения графиков, чтобы она нарисовала нам спектр текста.

А главное, и самое интересное, что этот самый спектр текста будет почти одинаков для разных текстов одного автора и будет отличаться для текстов разных авторов. Нарисовав в одном графике спектры для двух текстов, мы без особого труда можем определить, принадлежат ли тексты разным людям, или они были написаны одним человеком (ну или нелюдем). Тексты, правда, должны быть достаточно длинными, чтобы дать спектр действительно характерный для изучаемого автора - книга, например, или собранные в один файл сотни комментариев.

Данная программа представляет из себя адаптацию для JavaScript. Полученный результат можно скопировать в Excel, где и предлагается построить график.

Весь исходный JS-код находится в HTML-коде этой страницы. Вы можете свободно ее сохранять, копировать, распространять и модифицировать.

Код тестировался под IE 6 и Mozilla (начиная с Firebird 0.7). За работоспособность в других браузерах ответственности не несу.

Последнее предупреждение: программист я ламоватый, так что никаких претензий к красоте кода не принимается. Тем не менее, я буду рад услышать пожелания по оптимизации и коррекции программы по адресу designot at inbox.ru

Искренне ваш, dr_estet

2004