§ 2. Введение в визуализацию данных
Как правило, использование списков данных - не самый лучший способ представить данные в вашей работе потому что мы не можем получить много информации о них просто взглянув на список. Есть и более удобные способы и в этой статье мы рассмотрим 3 из них на примере следующей выборки:
30 студентов СПбГАУ набрали на интернет-тестировании следующее количество баллов:
Листостебельная диаграмма
Одним из простейших способов как-то визуализировать данные являются листостебельные диаграммы (stem and leaf diagrams). Для нашего примера мы можем построить такую диаграмму:
Эта диаграмма состоит из стебля - чисел, стоящих слева от вертикальной линии, которые представляют собой десятки и листьев - соответствующих чисел справа от линии, которые являются единицами. В общем случае, стебель строят из редко меняющихся разрядов (десятков в нашем случае), а листья - из тех разрядов, которые меняются часто (в нашем случае это единицы). Из такой диаграммы мы сможем быстро получить некую информацию, например, мы видим что 2 студента набрали максимальное количество баллов, а 3 написали тест меньше, чем на 60 баллов.
Мы также можем построить сортированную листостебельную диаграмму (sorted stem and leaf diagram) - она строится точно так же как и обычная, но её листья отсортированны в проядке возрастания. Для нашего примера:
Такие диаграммы могут быть довольно гибкими: например мы можем разбить элементы стебля на более мелкие диапазоны. Так, разобьём значение 80 на два (80-84 и 85-89):
Как построить листостебельную диаграмму по шагам:
- Определите часто и редко меняющиеся разряды в ваших данных
- Выпишите редко меняющиеся разряды слева от линии
- Выпишите часто меняющиеся разряды справа от линии
Гистограмма частот
Листостебельная диаграмма непрактична для большой выборки, поэтому можно использовать гистограмму частот (frequency histogram). Сначала мы выделяем группы каких-либо значений, например значения из примера выше мы можем сгруппировать так:
Затем подсчитываем частоту для каждой группы (то есть строим таблицу частот для групп):
И строим диаграмму частот, отмечая группы по оси , а их частоты - по оси :
Этот способ может быть применён к любому количественному набору данных. Вы можете создавать группы на своё усмотрение, например, разделить группу 80 на две: 80 и 85.
Как построить гистограмму частот по шагам:
- Сгруппируйте данные
- Постройте таблицу частот для групп
- Постройте гистограмму, отметив по оси группы, а по оси частоты
Гистограмма относительных частот
До этого момента мы работали с абсолютными частотами (absolute frequency) то есть количеством вхождений элемента в набор данных (в случае с частотами группы - количеством значений, входящих в группу), но мы также можем работать и с относительными частотами.
Относительная частота (relative frequency), - отношение частоты элемента к размеру выборки или генеральной совокупности
Мы можем построить таблицу относительных частот для нашего примера:
И строим гистограмму, на этот раз отмечая по оси y уже относительные частоты:
Как вы можете заметить, пропорции столбиков и общий вид гистограммы не отличается от гистограммы абсолютных частот - изменяются лишь числа на оси . Тем не менее, гистограмма относительных частот позволяет нам моментально оценить какую часть данных занимает та или иная группа. Также как и при построении гистограммы частот, при построении гистограммы относительных частот выбор количества групп обычно зависит от размера выборки или генеральной совокупности. Чем больше размер, тем больше групп мы можем выделить.
Как построить гистограмму относительных частот по шагам:
- Сгруппируйте данные
- Постройте таблицу частот для групп
- Постройте таблицу относительных частот для групп
- Постройте гистограмму, отметив по оси группы, а по оси - относительные частоты