Выпускники 3 потока “Анализа данных в R” проанализировали тексты песен известных казахстанских исполнителей, чтобы выяснить кто использует больше всего уникальных слов.

Как проходило исследование?

Студенты курса взяли 40 певцов, групп и других отечественных исполнителей, чтобы узнать их словарный запас.

Для анализа взяты топ-5 песен каждого артиста. Причиной такого ограничения оказались репертуары некоторых исполнителей всего из 5-и песен. Для максимально честного анализа, остановились на этой цифре.

Базу текстов авторы проекта собирали сами используя интернет ресурсы. Анализ делался на языке программирования R. Написали небольшой скрипт для удаления повторяющихся слов и знаков препинания. Посчитали общее количество слов для каждого артиста.

И вуаля!

Наведите на исполнителя, чтобы узнать количество уникальных слов.


В диаграмме выше по размеру пузыря, видно что именно реперы возглавляют турнирную таблицу.

Самый большой уникальный запас оказался у Jah Khalib - 1370 слов.

На втором месте расположился Скриптонит - 1218 уникальных слов.

Третьими в таблице стоит группа Ninety One - 1146 слов.

Чаще всего в песнях исполнители используют такие слова как - "сен", "мен" и "ты".




Авторы проекта: Динислам Ораз, Ардак Бакирова, Данияр Оралбаев, Алибек Аширали, Маржан Кантарбаева


Приходите на наши курсы по Анализу Данных в R , будем с вами делать и не такие проекты ;)