Гистограмма: визуализация статистических данных
Гистограмма — это столбчатая диаграмма, которая показывает, как часто встречаются значения из определённых интервалов в наборе данных. В отличие от обычной столбчатой диаграммы, столбики гистограммы стоят вплотную друг к другу, так как она отображает непрерывный ряд чисел (например, рост, вес, время, оценки).
Чтобы построить гистограмму, нужно разбить все данные на равные интервалы (карманы), посчитать количество значений в каждом и начертить столбики соответствующей высоты. Это позволяет мгновенно оценить форму распределения: где значений больше всего, а где их мало.
Главное отличие: В гистограмме по горизонтальной оси отложены не отдельные категории (как «яблоки» или «груши»), а числовые промежутки (например, «от 140 до 150 см»). Поэтому столбики соприкасаются.
Что такое гистограмма и зачем она нужна
В курсе «Вероятность и статистика» 7 класса гистограмма служит основным инструментом для анализа больших массивов данных. Если у вас есть список из 30–100 чисел, понять общую картину, просто глядя на них, сложно. Гистограмма превращает этот хаос в наглядный график.
Она помогает ответить на вопросы:
- Какое значение встречается чаще всего (мода)?
- Симметричны ли данные или есть перекос?
- Есть ли необычные выбросы (слишком маленькие или большие значения)?
Алгоритм построения гистограммы
Построение диаграммы состоит из нескольких логических шагов. Рассмотрим их на конкретном примере.
Шаг 1. Сбор и упорядочивание данных
Допустим, мы измерили время (в минутах), которое 20 учеников тратят на дорогу до школы:
15, 22, 18, 25, 30, 12, 19, 21, 24, 28, 16, 20, 23, 27, 35, 14, 17, 22, 26, 29.
Найдём минимум и максимум:
- Минимум ($min$) = 12
- Максимум ($max$) = 35
Шаг 2. Выбор количества интервалов и их ширины
Для школьных задач обычно выбирают от 5 до 10 интервалов. Формула ширины интервала ($h$): $$ h = \frac{max - min}{k} $$ где $k$ — количество интервалов.
Попробуем взять 5 интервалов: $$ h = \frac{35 - 12}{5} = \frac{23}{5} = 4.6 $$
Неудобное число. Округлим ширину до удобного целого числа, например, 5 минут. Тогда интервалы будут выглядеть так:
- 10–15
- 15–20
- 20–25
- 25–30
- 30–35 (Примечание: граница 15 входит во второй интервал, если мы договорились, что левая граница включена, а правая нет, или наоборот. Важно зафиксировать правило заранее. Обычно используют запись $[10; 15)$, где 15 не входит, или $(10; 15]$, где 15 входит. Для простоты в 7 классе часто договариваются: «от 10 до 15 включительно», но тогда границы не должны пересекаться. Лучше использовать непересекающиеся группы: 10–14, 15–19, 20–24 и т.д., если данные целые).
Давайте перегруппируем для целых чисел (ширина 5):
- 10–14
- 15–19
- 20–24
- 25–29
- 30–34
- 35–39 (добавим, чтобы вместить максимум 35)
Шаг 3. Подсчёт частот
Теперь распределим наши данные по группам:
| Интервал (мин) | Данные из списка | Частота (кол-во учеников) |
|---|---|---|
| 10 – 14 | 12, 14 | 2 |
| 15 – 19 | 15, 18, 19, 16, 17 | 5 |
| 20 – 24 | 22, 21, 24, 20, 23, 22 | 6 |
| 25 – 29 | 25, 28, 27, 26, 29 | 5 |
| 30 – 34 | 30 | 1 |
| 35 – 39 | 35 | 1 |
Проверка: $2+5+6+5+1+1 = 20$. Всё верно.
Шаг 4. Построение графика
- Начертите две оси.
- Горизонтальная ось (X): отметьте интервалы времени (10–14, 15–19 и т.д.).
- Вертикальная ось (Y): отметьте частоту (количество учеников). Шкала должна начинаться с 0 и заканчиваться чуть больше максимальной частоты (в нашем случае макс. 6, значит, шкалу можно вести до 7 или 10).
- Нарисуйте прямоугольники над каждым интервалом. Высота прямоугольника равна частоте.
- Важно: Столбики должны соприкасаться боковыми сторонами!
Как читать и анализировать гистограмму
Когда график готов, его нужно «прочитать». Вот на что обращать внимание:
- Пик (Мода): Самый высокий столбец показывает интервал, где данных больше всего. В нашем примере это 20–24 минуты. Значит, большинству учеников требуется около 20–24 минут на дорогу.
- Форма распределения:
- Симметричная (колокол): данные равномерно спадают от центра к краям.
- Скошенная вправо: длинный «хвост» в сторону больших значений (как в нашем примере: есть несколько учеников, которые идут очень долго).
- Скошенная влево: длинный «хвост» в сторону малых значений.
- Разброс: Ширина основания гистограммы показывает, насколько сильно различаются данные. Узкая гистограмма — данные похожи друг на друга. Широкая — большой разброс.
Совет для анализа: Если гистограмма имеет два явных пика (бимодальное распределение), это может означать, что вы смешали две разные группы. Например, если строить рост учеников 7 класса вместе с учителями, получится два горба: один для детей, другой для взрослых.
Частые ошибки при построении
| Ошибка | Почему это неправильно | Как исправить |
|---|---|---|
| Разная ширина столбцов | Искажает восприятие площади. Читатель может подумать, что широкий столбец «важнее». | Все интервалы должны быть одинаковой ширины. |
| Пропуски между столбцами | Это превращает гистограмму в обычную столбчатую диаграмму категорий. | Убирайте зазоры между прямоугольниками. |
| Начало оси Y не с нуля | Визуально преувеличивает различия между маленькими значениями. | Всегда начинайте вертикальную ось с 0. |
| Пересечение границ | Неясно, куда отнести число, попадающее на границу (например, 20 в группах 15–20 и 20–25). | Чётко определяйте границы: [15; 20) и [20; 25), где 20 входит только во вторую группу. |
Практическое задание
Попробуйте самостоятельно построить гистограмму по следующим данным:
Тема: Количество прочитанных книг за лето.
Данные (30 учеников):
0, 1, 2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5, 5, 5, 5, 6, 6, 6, 7, 7, 8, 8, 9, 10, 10, 12, 15, 18, 20.
- Разбейте данные на интервалы шириной 5 книг:
0–4,5–9,10–14,15–19,20–24. - Посчитайте частоты.
- Сделайте вывод: большинство учеников прочитали мало книг или много?
FAQ
В чём разница между гистограммой и столбчатой диаграммой? В столбчатой диаграмме сравниваются разные категории (яблоки, груши, сливы), и между столбцами есть промежутки. В гистограмме показывается распределение одного непрерывного признака (вес, рост, время), и столбцы стоят вплотную.
Что делать, если число попадает точно на границу интервала? Принято включать нижнюю границу в интервал, а верхнюю — исключать. Например, интервал $[10; 20)$ включает число 10, но не включает 20. Число 20 будет отнесено к следующему интервалу $[20; 30)$.
Можно ли строить гистограмму для качественных данных (цвета, имена)? Нет. Для качественных данных используется обычная столбчатая диаграмма или круговая диаграмма. Гистограмма требует числовой оси, где есть порядок и расстояние между значениями.