Копирайтинг играет значительную роль в продвижении сайтов. Проблема заключается в том, что тексты все чаще пишутся исключительно для поисковых систем, а не для людей. Учитывая новую роль поведенческих факторов, SEO-специалисты стали искать способы «заставить» людей проводить больше времени на страницах сайта. И в ход идут все методы: улучшается юзабилити , уменьшается время загрузки страницы, но многие забывают о самом главном — о контенте. О том, насколько легко читать тексты на сайтах. Для того, чтобы что-либо улучшить, нужно проанализировать текущее состояние. Если мы говорим о текстах — существует понятие: индекс читабельности («удобочитаемость» или «ридабилити»).
Удобочитаемость («читабельность») — свойство текстового материала, характеризующее лёгкость восприятия его человеком.
Наиболее популярная метрика для оценки читабельности — индекс Флеша . Рудольф Флеш предложил семь рекомендаций, соблюдение которых позволит сделать текст читабельным, понятным и интересным. Эти правила часто называют афоризмами Флеша:
1. Используйте допустимые сокращения.
2. По возможности составляйте предложения без использования слова «что».
3 . Используйте местоимения «я», «мы», «они» и «вы».
4. Ссылаясь на какое-то понятие, выраженное существительным, повторите само слово или используйте соответствующее местоимение; не стоит искать красочную замену.
5. Используйте краткие, ясные предложения.
6. В параграфе должен освещаться только один вопрос.
7. Пишите на языке, понятном читателю. Индекс ридабилити англоязычных SEO-текстов можно вычислить по формуле:
Где: ASL — средняя длина предложения в словах; ASW — средняя длина слова в слогах.
В связи с тем, что в русском языке средняя длина предложения меньше, а слова в среднем длиннее, была принята следующая формула:
Для корректной работы формулы необходимо анализировать не менее ста слов. Интересно, что по этому индексу можно узнать, на какую аудиторию ориентирован тот или иной текст:
до 80 — примитивный уровень, усваивается даже детьми; 60-65 — лёгкое чтиво, уровень газет и журналов; 50-55 — уровень деловой литературы, профессиональных и отраслевых изданий, качественной художественной литературы; 30 и ниже — уровень научных трактатов.
Еще одна метрика, которую можно использовать — Индекс Фога . Она, кстати, активно используется в американской журналистике.
Fi = (Nws + Nwt) х 0,4
Где: Nws — среднее число слов в предложении текста; Nwt — среднее число слов с длиной 3 и более слогов (приходящихся на одно предложение текста). Есть также и много других метрик, но, увы, они неприменимы для русского языка. Проверить англоязычный текст на читабельность можно с помощью многочисленных онлайн инструментов, например, этим или этим . Есть подобный сервис и для проверки на читабельность русскоязычных текстов (в стиле web 1.0). Более подробно об этом и других малоизвестных метриках в SEO я расскажу в докладе на конференции «8P».
Подробности Создано: 12.04.2014 20:02 Обновлено: 10.03.2019 18:32 Опубликовано: 12.04.2014 20:02
В последнее время многие студенты столкнулись с проблемой о которой хотелось бы сегодня поговорить. Проблема эта связанна с проверкой работ на уникальность в самом распространенном в России сервисе проверки студенческих работ – сайте antiplagiat.ru.
В настоящее время сайт antiplagiat.ru внес ряд дополнений после которых некоторые документы отображаются в системе проверки как «Подозрительный документ». Вроде и процент уникальности может быть высокий, но файл светится красным и возле названия работы отображается восклицательный знак который и сигнализирует по мнению авторов данного новшества преподавателю что с документом что-то не так.
Если нажать на значек "Подозрительный документ" то откроется информация о документе в которой можно увидеть причину того почему сайт распознает документ подозрительным, по факту их четыре:
Причин связанных с этим на самом деле может быть очень много, но разве преподаватель будет заморачиваться и разбираться какая именно у Вас причина появления данного значка.
Вот что нам ответили создатели данного ресурса:
«Появление данного знака говорит о том, что нужно более внимательно отнестись к данному документу. Возможно, были попытки обхода системы. Возможно в тексте присутствует слишком много иностранных слов, либо слов, где превышена средняя длина слова. Такое возможно в работах, где используется много терминов (работы по химии, юриспруденции, например). В отчете ВУЗа есть текстовые статистики, на основе которых и появляется этот знак (индекс читаемости, максимальная длина слова и пр.). Появление данного знака и выделение документа всего лишь дает сигнал преподавателю более внимательно отнестись к данному тексту. Однако не факт, что работа действительно сделана так, чтобы обойти систему. Отбор работ проводится на основании определённых показателей-индикаторов в текстовых статистиках, которые можно увидеть, открыв отчет в ВУЗе. Однако все эти индикаторы не дают точного «приказа» забраковать этот текст. Они просто дают повод преподавателю более внимательно и серьезно отнестись к проверке данной работы. Если преподаватель этого не знает, он может написать нам письмо и мы ему об этом расскажем. Преподаватель не должен ориентироваться только на проценты и появление данного знака, он также должен открывать отчет и просматривать его».
Вот что пишут недовольные данным новшеством люди:
Давайте теперь попытаемся разобраться с чем это может быть связанно и как с этим бороться, как убрать этот «Подозрительный знак» и сделать наш файл обычным.
Чаще всего это бывает из-за того что в тексте встречаются длинные, сложные или иностранные слова, например, "социометриия", "либерализированный", GlobalFinance и прочие, которые не распознает автоматическая проверка орфографии.
Все слова которые ворд подчеркивает красным, типа с ошибкой. Как показывает практика так же это и все слова которые длиннее 10 букв, в общем все очень длинные слова нам и нужно будет менять на синонимы или разделять на 2-3 слова для того чтобы в конце наш текст стал понятным программе проверки и он перестал выделяться «Подозрительным документом».
Итак подведем итог, что нам делать чтобы файл стал нормальным и прошел проверку.
В современной журналистике для определения уровня читаемости используют показатель Fog Index (Фог-индекс):
Fi = (X + Y) х 0,4,
где Х – среднее количество слов в предложении текста,
Y – среднее количество слов с длиной три и более слогов в предложении текста (будем обозначать их «слова 3+»).
При подсчете количества слов необходимо учитывать следующее:
1. цифры не считаем, так как они не снижают восприятие;
2. сложные слова через дефис считаем как одно слово.
Значение Fi оценивается следующим образом:
· от 0 до 4 – высокая читаемость,
· от 4 до 7 – средняя читаемость,
· выше 7 – низкая читаемость.
Для примера проанализируем читаемость трех небольших (для упрощения задачи) рекламных текстов.
Все, как в элитарном клубе. Джентльмены говорят о хобби. Здесь в атмосфере роскоши и комфорта Вы сможете забыть о делах. Посвятите свое время часам. Уникальным часам, достойным истинного ценителя. Ведь Cassaforte – клуб избранных.
6 предложений,
Х = 33: 6 = 5,5 ;
Y = 14: 6= 2,33
Fi = (5,5 + 2,33) х 0,4= 3,13.
Вывод: читаемость высокая.
Проанализируем читаемость данного текста по уровням. Анализ представлен в таблице 3.2.
Таблица 3.2
Уровень читаемости | Характеристика | Оценка характеристик | Оценка читаемости | Общая оценка уровня |
Лексический | 7 (21,2 %) | средняя | средняя | |
много | низкая | |||
высокая | ||||
мало | высокая | |||
Морфологический | 1. количество глаголов | 4 на 33 слова (12%) | высокая | средняя |
4 на 33 слов (12%) | средняя | |||
3. количество аффиксов | среднее | среднее | ||
Синтаксический | 1. длина предложения | 5,5 | высокая | высокая |
2. уровень сложности | из 6 предложений – 6 простых (100%) | высокая | ||
3. осложняющие элементы | 2: 6 предложений (33%) | высокая |
Общий вывод по уровням: читаемость средняя.
Как мы видим, показатель читаемости Fog Index высокий, а по уровням – средний. Такое расхождение связано с тем, что при расчете Fog Index учитываются только две характеристики – длина слов и длина предложений. Анализ по уровням учитывает гораздо большее число факторов. Поэтому эти две части анализа читаемости дополняют друг друга.
Яркий дизайн влюбляет в себя с первого взгляда. Мощь и динамика завораживают. Выразительная внешность и спортивный характер - вот в чем сила Mazda. Один взгляд - и сердце забьется чаще. Ведь это мистическая сила.
5 предложений,
Х = 32: 5 = 6,4 ;
Y = 9: 5= 1,8;
Fi = (6,4 + 1,8) х 0,4= 3,28.
Вывод: читаемость высокая.
Проанализируем читаемость данного текста по уровням. Анализ представлен в таблице 3.3
Таблица 3.3
Уровень читаемости | Характеристика | Оценка характеристик | Оценка читаемости | Общая оценка |
Лексический | 1. количество длинных слов (4+) | 4 (12,5 %) | средняя | средняя |
2. количество абстрактных слов | среднее количество | средняя | ||
3. количество иноязычных слов | высокая | |||
4. количество редко употребляемых слов | мало | высокая | ||
Морфологический | 1. количество глаголов | 3 на 32 слова (9,3%) | средняя | средняя |
2. количество предлогов и частиц | 3 на 32 слова (9,3) | высокая | ||
3. количество аффиксов | среднее | средняя | ||
Синтаксический | 1. длина предложения | 6,4 | высокая | высокая |
2. уровень сложности | из 5 предложений – 5 простых | высокая | ||
3. осложняющие элементы | 2:5 предложений (40%) | средняя |
Когда в Microsoft Word заканчивается проверка правописания, можно вывести на экран сведения об уровне удобочитаемости документа, включая показатели удобочитаемости по следующим тестам:
По умолчанию опция вывода статистики отключена. Чтобы включить ее:
Скачать заметку в формате или
Если после этого в документе запустить проверку правописания (вкладка Рецензирование , кнопка Правописание ), то после окончания проверки орфографии появится окно Статистика удобочитаемости (рис. 2). Результаты проверки на удобочитаемость основаны на величине среднего числа слогов в слове и слов в предложении.
Формула расчета показателя удобочитаемости по Флешу:
К = 206,835 – 1,015 x ASL – 84,6 x ASW
где: К – оценка трудности текста, ASL – средняя число слов в предложении; ASW – среднее число слогов в слове.
С целью уточнения коэффициентов в формуле Флеша Оборнева провела исследование средней длины слова в английском и русском языках. Для обеспечения представительности выборки были взяты словарь русского языка под редакцией Ожегова (39 174 слова), и англо-русский словарь под редакцией Мюллера (41 977 слов). Адаптированная для русского языка формула Флеша в интерпретации Оборневой выглядит так:
К = 206,835 – 1,3 x ASL – 60,1 x ASW
К сожалению, напрямую воспользоваться формулой невозможно, так как Word не сообщает число слогов в слове. А формулу, основанную на среднем числе символов в слове, в Интернете найти не удалось. Не известна она и Ирине Владимировне.
Я решил исхитриться, и воспользоваться тем, что формула Флеша является линейным уравнением. Проверка в Word англоязычного текста выводит на экран три параметра: количество слов в предложении, количество слогов в слове и значение удобочитаемости по Флешу. Можно протестировать три текста на английском языке, и в результате получить систему из трех уравнений относительно параметров (a, b, c) формулы Флеша:
К 1 = а – b*ССП 1 – c*ССС 1
К 2 = а – b*ССП 2 – c*ССС 2
К 3 = а – b*ССП 3 – c*ССС 3
где К – оценка трудности текста по Флешу, ССП – среднее число слов в предложении (в тестах 1, 2 и 3), ССС – среднее число символов в слове (также в тестах 1, 2 и 3).
Результат получился неутешительным (абсурдным). Можно предположить, что Word использует нелинейную зависимость, или использование в формуле показателя числа символов вместо числа слогов является некорректным…
И всё же проверить русские тексты на удобочитаемость по Флешу возможно. Рекомендую воспользоваться онлайновыми ресурсами. Например,
Индекс удобочитаемости - мера определения сложности восприятия текста читателем. Индекс удобочитаемости может вычисляться на основе нескольких параметров: длины предложений, слов, удельного количества наиболее частотных (или редких) слов и т. д.
Наиболее популярная мера была создана Рудольфом Флешем, изначально для английского языка . Она оценивает сложность текста по следующей формуле:
F R E = 206.835 − 1.015 (total words total sentences) − 84.6 (total syllables total words) {\displaystyle FRE=206.835-1.015\left({\frac {\mbox{total words}}{\mbox{total sentences}}}\right)-84.6\left({\frac {\mbox{total syllables}}{\mbox{total words}}}\right)}FRE = 206.835 − (1.015 × ASL) − (84.6 × ASW)
Индекс по шкале FRES (Flesch Reading Ease Scale) распределяется таким образом:
100 : Очень легко читается. Средняя длина предложения составляет 12 или менее слов. Нет слов из более чем двух слогов. 65 : простой английский язык. Средняя длина предложения составляет от 15 до 20 слов. В среднем слова имеют 2 слога. 30 : Немного трудно читать. Предложения содержат до 25-ти слов. Обычно, двусложные слова. 0 : Очень трудно читать. B среднем предложение имеет 37 слов. Слово имеет в среднем более 2-х слоговДля английского яз. значение 90-100 соответствует легкому тексту для младших школьников, 60-70 - тексту, который могут читать выпускники школы, тексты с индексом 0-30 предназначены для людей с высшим образованием.
FRE = 206.835 − (1.3 × ASL) − (60.1 × ASW)
В целом, большинство методов оценки сложности текста на основе индексов удобочитаемости для информационно-аналитических документов на русском языке дают оценки, выходящие как за интерпретируемый диапазон значений, так и за референсные значения. При этом получаемые результаты характеризуются высокой степенью корреляции, так как разработчики используют одну математическую модель линейной регрессии, а также однообразные параметры текста (средняя длина слова, средняя длина предложения). При этом индексы удобочитаемости не адаптированы к тестам для взрослых. У профессионала не должно возникать затруднений с пониманием многосложных слов. В конечном итоге фактором сложности выступает семантика текста и абстрактность его изложения. Индикаторы на основе индексов удобочитаемости недостаточно хорошо интерпретируются, поскольку не могут напрямую быть использованы для прогнозирования времени обработки текста тем или иным человеком.