Цель проекта - оценить сложность чтения самого популярного классического произведения Мухтара Ауезова "Абай жолы" на новой версии алфавита.


Техническое описание:

- Язык
R

- Платформа
R Studio 1.1.419

- Ресурс
4 тома книги "Абай жолы" на кириллице
Версия алфавита


Анализ был сделан на языке R. Использованы библиотеки - tokenizers, stringr, data.table и ggplot2.


Подготовка данных.

Все 4 тома романа "Абай жолы" в формате .txt превратила в строчные буквы и разделила по пробелам, чтобы определить количество слов.

Получилось 873.540 слов (были погрешности). Каждое слово поменяла в латиницу и сохранила таблицу.


Анализ.

Сложность прочтения решила оценить по новым буквам, которые глаза обычного читателя еще не привыкли видеть. А именно как часто в одном слове встречаются необычные буквы á, ǵ, ı, ń, ó, ú, ý. Количество букв в слове тоже были одним из критериев.


Общее количество изменений в каждом из 873.540 слов:


Как видно на графике, 449.677 слов остались без изменений. То есть, половина входного текста на латинице выглядит так же, как если бы мы делали привычный перевод.
Как пример, Алматы - Almaty.


Самое большое количество изменений в 7-и словах:


Как оказалось, количество новых букв в слове и длина самого слова не так сильно влияют на сложность прочтения. Вышеуказанные слова с легкостью прочтет любой человек. А если учесть годы написания произведения, то в письменной речи они практически не используются.


Поэтому я взяла простые, но одновременно сложные для чтения слова, где в каждом по 4 изменений. Посмотрите ниже в таблице и попробуйте быстро прочесть каждое из слов.


В таблице указаны такие слова как - тұңғиығы, әруағыңды, үшеуіңнің, ыңғайланғанда, шығаруыңызға, айғағың и другие.


Далее пример слов, которых нововедение коснулось минимальным образом. Сколько времени потребуется вам, чтобы прочесть слова указанные снизу?



Вывод такой, что новый алфавит, возможно для многих, по началу будет непривычным, сложным и непонятным. Но глаза быстро привыкают.