Получение статистики и уровня читаемости документа. Как написать текст, чтобы его поняли Индекс читаемости сложный что значит

Копирайтинг играет значительную роль в продвижении сайтов. Проблема заключается в том, что тексты все чаще пишутся исключительно для поисковых систем, а не для людей. Учитывая новую роль поведенческих факторов, SEO-специалисты стали искать способы «заставить» людей проводить больше времени на страницах сайта. И в ход идут все методы: улучшается юзабилити , уменьшается время загрузки страницы, но многие забывают о самом главном — о контенте. О том, насколько легко читать тексты на сайтах. Для того, чтобы что-либо улучшить, нужно проанализировать текущее состояние. Если мы говорим о текстах — существует понятие: индекс читабельности («удобочитаемость» или «ридабилити»).

Удобочитаемость («читабельность») — свойство текстового материала, характеризующее лёгкость восприятия его человеком.

Наиболее популярная метрика для оценки читабельности — индекс Флеша . Рудольф Флеш предложил семь рекомендаций, соблюдение которых позволит сделать текст читабельным, понятным и интересным. Эти правила часто называют афоризмами Флеша:

1. Используйте допустимые сокращения.

2. По возможности составляйте предложения без использования слова «что».

3 . Используйте местоимения «я», «мы», «они» и «вы».

4. Ссылаясь на какое-то понятие, выраженное существительным, повторите само слово или используйте соответствующее местоимение; не стоит искать красочную замену.

5. Используйте краткие, ясные предложения.

6. В параграфе должен освещаться только один вопрос.

7. Пишите на языке, понятном читателю. Индекс ридабилити англоязычных SEO-текстов можно вычислить по формуле:

Где: ASL — средняя длина предложения в словах; ASW — средняя длина слова в слогах.

В связи с тем, что в русском языке средняя длина предложения меньше, а слова в среднем длиннее, была принята следующая формула:

Для корректной работы формулы необходимо анализировать не менее ста слов. Интересно, что по этому индексу можно узнать, на какую аудиторию ориентирован тот или иной текст:

до 80 — примитивный уровень, усваивается даже детьми; 60-65 — лёгкое чтиво, уровень газет и журналов; 50-55 — уровень деловой литературы, профессиональных и отраслевых изданий, качественной художественной литературы; 30 и ниже — уровень научных трактатов.

Еще одна метрика, которую можно использовать — Индекс Фога . Она, кстати, активно используется в американской журналистике.

Fi = (Nws + Nwt) х 0,4

Где: Nws — среднее число слов в предложении текста; Nwt — среднее число слов с длиной 3 и более слогов (приходящихся на одно предложение текста). Есть также и много других метрик, но, увы, они неприменимы для русского языка. Проверить англоязычный текст на читабельность можно с помощью многочисленных онлайн инструментов, например, этим или этим . Есть подобный сервис и для проверки на читабельность русскоязычных текстов (в стиле web 1.0). Более подробно об этом и других малоизвестных метриках в SEO я расскажу в докладе на конференции «8P».

Подробности Создано: 12.04.2014 20:02 Обновлено: 10.03.2019 18:32 Опубликовано: 12.04.2014 20:02

В последнее время многие студенты столкнулись с проблемой о которой хотелось бы сегодня поговорить. Проблема эта связанна с проверкой работ на уникальность в самом распространенном в России сервисе проверки студенческих работ – сайте antiplagiat.ru.

В настоящее время сайт antiplagiat.ru внес ряд дополнений после которых некоторые документы отображаются в системе проверки как «Подозрительный документ». Вроде и процент уникальности может быть высокий, но файл светится красным и возле названия работы отображается восклицательный знак который и сигнализирует по мнению авторов данного новшества преподавателю что с документом что-то не так.

Если нажать на значек "Подозрительный документ" то откроется информация о документе в которой можно увидеть причину того почему сайт распознает документ подозрительным, по факту их четыре:

Причин связанных с этим на самом деле может быть очень много, но разве преподаватель будет заморачиваться и разбираться какая именно у Вас причина появления данного значка.

Вот что нам ответили создатели данного ресурса:

«Появление данного знака говорит о том, что нужно более внимательно отнестись к данному документу. Возможно, были попытки обхода системы. Возможно в тексте присутствует слишком много иностранных слов, либо слов, где превышена средняя длина слова. Такое возможно в работах, где используется много терминов (работы по химии, юриспруденции, например). В отчете ВУЗа есть текстовые статистики, на основе которых и появляется этот знак (индекс читаемости, максимальная длина слова и пр.). Появление данного знака и выделение документа всего лишь дает сигнал преподавателю более внимательно отнестись к данному тексту. Однако не факт, что работа действительно сделана так, чтобы обойти систему. Отбор работ проводится на основании определённых показателей-индикаторов в текстовых статистиках, которые можно увидеть, открыв отчет в ВУЗе. Однако все эти индикаторы не дают точного «приказа» забраковать этот текст. Они просто дают повод преподавателю более внимательно и серьезно отнестись к проверке данной работы. Если преподаватель этого не знает, он может написать нам письмо и мы ему об этом расскажем. Преподаватель не должен ориентироваться только на проценты и появление данного знака, он также должен открывать отчет и просматривать его».

Вот что пишут недовольные данным новшеством люди:

Давайте теперь попытаемся разобраться с чем это может быть связанно и как с этим бороться, как убрать этот «Подозрительный знак» и сделать наш файл обычным.

Чаще всего это бывает из-за того что в тексте встречаются длинные, сложные или иностранные слова, например, "социометриия", "либерализированный", GlobalFinance и прочие, которые не распознает автоматическая проверка орфографии.

Все слова которые ворд подчеркивает красным, типа с ошибкой. Как показывает практика так же это и все слова которые длиннее 10 букв, в общем все очень длинные слова нам и нужно будет менять на синонимы или разделять на 2-3 слова для того чтобы в конце наш текст стал понятным программе проверки и он перестал выделяться «Подозрительным документом».

Итак подведем итог, что нам делать чтобы файл стал нормальным и прошел проверку.

В современной журналистике для определения уровня читаемости используют показатель Fog Index (Фог-индекс):

Fi = (X + Y) х 0,4,

где Х – среднее количество слов в предложении текста,

Y – среднее количество слов с длиной три и более слогов в предложении текста (будем обозначать их «слова 3+»).

При подсчете количества слов необходимо учитывать следующее:

1. цифры не считаем, так как они не снижают восприятие;

2. сложные слова через дефис считаем как одно слово.

Значение Fi оценивается следующим образом:

· от 0 до 4 – высокая читаемость,

· от 4 до 7 – средняя читаемость,

· выше 7 – низкая читаемость.

Для примера проанализируем читаемость трех небольших (для упрощения задачи) рекламных текстов.

Все, как в элитарном клубе. Джентльмены говорят о хобби. Здесь в атмосфере роскоши и комфорта Вы сможете забыть о делах. Посвятите свое время часам. Уникальным часам, достойным истинного ценителя. Ведь Cassaforte – клуб избранных.

6 предложений,

Х = 33: 6 = 5,5 ;

Y = 14: 6= 2,33

Fi = (5,5 + 2,33) х 0,4= 3,13.

Вывод: читаемость высокая.

Проанализируем читаемость данного текста по уровням. Анализ представлен в таблице 3.2.

Таблица 3.2

Уровень читаемости	Характеристика	Оценка характеристик	Оценка читаемости	Общая оценка уровня
Лексический		7 (21,2 %)	средняя	средняя
	много	низкая
		высокая
	мало	высокая
Морфологический	1. количество глаголов	4 на 33 слова (12%)	высокая	средняя
	4 на 33 слов (12%)	средняя
3. количество аффиксов	среднее	среднее
Синтаксический	1. длина предложения	5,5	высокая	высокая
2. уровень сложности	из 6 предложений – 6 простых (100%)	высокая
3. осложняющие элементы	2: 6 предложений (33%)	высокая

Общий вывод по уровням: читаемость средняя.

Как мы видим, показатель читаемости Fog Index высокий, а по уровням – средний. Такое расхождение связано с тем, что при расчете Fog Index учитываются только две характеристики – длина слов и длина предложений. Анализ по уровням учитывает гораздо большее число факторов. Поэтому эти две части анализа читаемости дополняют друг друга.

Яркий дизайн влюбляет в себя с первого взгляда. Мощь и динамика завораживают. Выразительная внешность и спортивный характер - вот в чем сила Mazda. Один взгляд - и сердце забьется чаще. Ведь это мистическая сила.

5 предложений,

Х = 32: 5 = 6,4 ;

Y = 9: 5= 1,8;

Fi = (6,4 + 1,8) х 0,4= 3,28.

Вывод: читаемость высокая.

Проанализируем читаемость данного текста по уровням. Анализ представлен в таблице 3.3

Таблица 3.3

Уровень читаемости	Характеристика	Оценка характеристик	Оценка читаемости	Общая оценка
Лексический	1. количество длинных слов (4+)	4 (12,5 %)	средняя	средняя
2. количество абстрактных слов	среднее количество	средняя
3. количество иноязычных слов		высокая
4. количество редко употребляемых слов	мало	высокая
Морфологический	1. количество глаголов	3 на 32 слова (9,3%)	средняя	средняя
2. количество предлогов и частиц	3 на 32 слова (9,3)	высокая
3. количество аффиксов	среднее	средняя
Синтаксический	1. длина предложения	6,4	высокая	высокая
2. уровень сложности	из 5 предложений – 5 простых	высокая
3. осложняющие элементы	2:5 предложений (40%)	средняя

Когда в Microsoft Word заканчивается проверка правописания, можно вывести на экран сведения об уровне удобочитаемости документа, включая показатели удобочитаемости по следующим тестам:

По умолчанию опция вывода статистики отключена. Чтобы включить ее:

Откройте в Word вкладку Файл и выберите пункт Параметры .
Выберите пункт Правописание .
Убедитесь, что в разделе При исправлении правописания в Word установлен флажок Во время проверки орфографии также проверять грамматику .
Установите флажок Показывать статистику удобочитаемости (рис. 1).

Скачать заметку в формате или

Если после этого в документе запустить проверку правописания (вкладка Рецензирование , кнопка Правописание ), то после окончания проверки орфографии появится окно Статистика удобочитаемости (рис. 2). Результаты проверки на удобочитаемость основаны на величине среднего числа слогов в слове и слов в предложении.

Формула расчета показателя удобочитаемости по Флешу:

К = 206,835 – 1,015 x ASL – 84,6 x ASW

где: К – оценка трудности текста, ASL – средняя число слов в предложении; ASW – среднее число слогов в слове.

С целью уточнения коэффициентов в формуле Флеша Оборнева провела исследование средней длины слова в английском и русском языках. Для обеспечения представительности выборки были взяты словарь русского языка под редакцией Ожегова (39 174 слова), и англо-русский словарь под редакцией Мюллера (41 977 слов). Адаптированная для русского языка формула Флеша в интерпретации Оборневой выглядит так:

К = 206,835 – 1,3 x ASL – 60,1 x ASW

К сожалению, напрямую воспользоваться формулой невозможно, так как Word не сообщает число слогов в слове. А формулу, основанную на среднем числе символов в слове, в Интернете найти не удалось. Не известна она и Ирине Владимировне.

Я решил исхитриться, и воспользоваться тем, что формула Флеша является линейным уравнением. Проверка в Word англоязычного текста выводит на экран три параметра: количество слов в предложении, количество слогов в слове и значение удобочитаемости по Флешу. Можно протестировать три текста на английском языке, и в результате получить систему из трех уравнений относительно параметров (a, b, c) формулы Флеша:

К 1 = а – b*ССП 1 – c*ССС 1

К 2 = а – b*ССП 2 – c*ССС 2

К 3 = а – b*ССП 3 – c*ССС 3

где К – оценка трудности текста по Флешу, ССП – среднее число слов в предложении (в тестах 1, 2 и 3), ССС – среднее число символов в слове (также в тестах 1, 2 и 3).

Результат получился неутешительным (абсурдным). Можно предположить, что Word использует нелинейную зависимость, или использование в формуле показателя числа символов вместо числа слогов является некорректным…

И всё же проверить русские тексты на удобочитаемость по Флешу возможно. Рекомендую воспользоваться онлайновыми ресурсами. Например,

Индекс удобочитаемости - мера определения сложности восприятия текста читателем. Индекс удобочитаемости может вычисляться на основе нескольких параметров: длины предложений, слов, удельного количества наиболее частотных (или редких) слов и т. д.

Индекс удобочитаемости Флеша

Наиболее популярная мера была создана Рудольфом Флешем, изначально для английского языка . Она оценивает сложность текста по следующей формуле:

F R E = 206.835 − 1.015 (total words total sentences) − 84.6 (total syllables total words) {\displaystyle FRE=206.835-1.015\left({\frac {\mbox{total words}}{\mbox{total sentences}}}\right)-84.6\left({\frac {\mbox{total syllables}}{\mbox{total words}}}\right)}

FRE = 206.835 − (1.015 × ASL) − (84.6 × ASW)

Индекс по шкале FRES (Flesch Reading Ease Scale) распределяется таким образом:

100 : Очень легко читается. Средняя длина предложения составляет 12 или менее слов. Нет слов из более чем двух слогов. 65 : простой английский язык. Средняя длина предложения составляет от 15 до 20 слов. В среднем слова имеют 2 слога. 30 : Немного трудно читать. Предложения содержат до 25-ти слов. Обычно, двусложные слова. 0 : Очень трудно читать. B среднем предложение имеет 37 слов. Слово имеет в среднем более 2-х слогов

Для английского яз. значение 90-100 соответствует легкому тексту для младших школьников, 60-70 - тексту, который могут читать выпускники школы, тексты с индексом 0-30 предназначены для людей с высшим образованием.

FRE = 206.835 − (1.3 × ASL) − (60.1 × ASW)

В целом, большинство методов оценки сложности текста на основе индексов удобочитаемости для информационно-аналитических документов на русском языке дают оценки, выходящие как за интерпретируемый диапазон значений, так и за референсные значения. При этом получаемые результаты характеризуются высокой степенью корреляции, так как разработчики используют одну математическую модель линейной регрессии, а также однообразные параметры текста (средняя длина слова, средняя длина предложения). При этом индексы удобочитаемости не адаптированы к тестам для взрослых. У профессионала не должно возникать затруднений с пониманием многосложных слов. В конечном итоге фактором сложности выступает семантика текста и абстрактность его изложения. Индикаторы на основе индексов удобочитаемости недостаточно хорошо интерпретируются, поскольку не могут напрямую быть использованы для прогнозирования времени обработки текста тем или иным человеком.