Гистограмма: визуализация статистических данных

Иван Корнев·03.05.2026·5 мин

Гистограмма — это столбчатая диаграмма, которая показывает, как часто встречаются значения из определённых интервалов в наборе данных. В отличие от обычной столбчатой диаграммы, столбики гистограммы стоят вплотную друг к другу, так как она отображает непрерывный ряд чисел (например, рост, вес, время, оценки).

Чтобы построить гистограмму, нужно разбить все данные на равные интервалы (карманы), посчитать количество значений в каждом и начертить столбики соответствующей высоты. Это позволяет мгновенно оценить форму распределения: где значений больше всего, а где их мало.

Главное отличие: В гистограмме по горизонтальной оси отложены не отдельные категории (как «яблоки» или «груши»), а числовые промежутки (например, «от 140 до 150 см»). Поэтому столбики соприкасаются.

Что такое гистограмма и зачем она нужна

В курсе «Вероятность и статистика» 7 класса гистограмма служит основным инструментом для анализа больших массивов данных. Если у вас есть список из 30–100 чисел, понять общую картину, просто глядя на них, сложно. Гистограмма превращает этот хаос в наглядный график.

Она помогает ответить на вопросы:

  • Какое значение встречается чаще всего (мода)?
  • Симметричны ли данные или есть перекос?
  • Есть ли необычные выбросы (слишком маленькие или большие значения)?

Алгоритм построения гистограммы

Построение диаграммы состоит из нескольких логических шагов. Рассмотрим их на конкретном примере.

Шаг 1. Сбор и упорядочивание данных

Допустим, мы измерили время (в минутах), которое 20 учеников тратят на дорогу до школы: 15, 22, 18, 25, 30, 12, 19, 21, 24, 28, 16, 20, 23, 27, 35, 14, 17, 22, 26, 29.

Найдём минимум и максимум:

  • Минимум ($min$) = 12
  • Максимум ($max$) = 35

Шаг 2. Выбор количества интервалов и их ширины

Для школьных задач обычно выбирают от 5 до 10 интервалов. Формула ширины интервала ($h$): $$ h = \frac{max - min}{k} $$ где $k$ — количество интервалов.

Попробуем взять 5 интервалов: $$ h = \frac{35 - 12}{5} = \frac{23}{5} = 4.6 $$

Неудобное число. Округлим ширину до удобного целого числа, например, 5 минут. Тогда интервалы будут выглядеть так:

  1. 10–15
  2. 15–20
  3. 20–25
  4. 25–30
  5. 30–35 (Примечание: граница 15 входит во второй интервал, если мы договорились, что левая граница включена, а правая нет, или наоборот. Важно зафиксировать правило заранее. Обычно используют запись $[10; 15)$, где 15 не входит, или $(10; 15]$, где 15 входит. Для простоты в 7 классе часто договариваются: «от 10 до 15 включительно», но тогда границы не должны пересекаться. Лучше использовать непересекающиеся группы: 10–14, 15–19, 20–24 и т.д., если данные целые).

Давайте перегруппируем для целых чисел (ширина 5):

  • 10–14
  • 15–19
  • 20–24
  • 25–29
  • 30–34
  • 35–39 (добавим, чтобы вместить максимум 35)

Шаг 3. Подсчёт частот

Теперь распределим наши данные по группам:

Интервал (мин)Данные из спискаЧастота (кол-во учеников)
10 – 1412, 142
15 – 1915, 18, 19, 16, 175
20 – 2422, 21, 24, 20, 23, 226
25 – 2925, 28, 27, 26, 295
30 – 34301
35 – 39351

Проверка: $2+5+6+5+1+1 = 20$. Всё верно.

Шаг 4. Построение графика

  1. Начертите две оси.
  2. Горизонтальная ось (X): отметьте интервалы времени (10–14, 15–19 и т.д.).
  3. Вертикальная ось (Y): отметьте частоту (количество учеников). Шкала должна начинаться с 0 и заканчиваться чуть больше максимальной частоты (в нашем случае макс. 6, значит, шкалу можно вести до 7 или 10).
  4. Нарисуйте прямоугольники над каждым интервалом. Высота прямоугольника равна частоте.
  5. Важно: Столбики должны соприкасаться боковыми сторонами!

Как читать и анализировать гистограмму

Когда график готов, его нужно «прочитать». Вот на что обращать внимание:

  1. Пик (Мода): Самый высокий столбец показывает интервал, где данных больше всего. В нашем примере это 20–24 минуты. Значит, большинству учеников требуется около 20–24 минут на дорогу.
  2. Форма распределения:
    • Симметричная (колокол): данные равномерно спадают от центра к краям.
    • Скошенная вправо: длинный «хвост» в сторону больших значений (как в нашем примере: есть несколько учеников, которые идут очень долго).
    • Скошенная влево: длинный «хвост» в сторону малых значений.
  3. Разброс: Ширина основания гистограммы показывает, насколько сильно различаются данные. Узкая гистограмма — данные похожи друг на друга. Широкая — большой разброс.

Совет для анализа: Если гистограмма имеет два явных пика (бимодальное распределение), это может означать, что вы смешали две разные группы. Например, если строить рост учеников 7 класса вместе с учителями, получится два горба: один для детей, другой для взрослых.

Частые ошибки при построении

ОшибкаПочему это неправильноКак исправить
Разная ширина столбцовИскажает восприятие площади. Читатель может подумать, что широкий столбец «важнее».Все интервалы должны быть одинаковой ширины.
Пропуски между столбцамиЭто превращает гистограмму в обычную столбчатую диаграмму категорий.Убирайте зазоры между прямоугольниками.
Начало оси Y не с нуляВизуально преувеличивает различия между маленькими значениями.Всегда начинайте вертикальную ось с 0.
Пересечение границНеясно, куда отнести число, попадающее на границу (например, 20 в группах 15–20 и 20–25).Чётко определяйте границы: [15; 20) и [20; 25), где 20 входит только во вторую группу.

Практическое задание

Попробуйте самостоятельно построить гистограмму по следующим данным: Тема: Количество прочитанных книг за лето. Данные (30 учеников): 0, 1, 2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5, 5, 5, 5, 6, 6, 6, 7, 7, 8, 8, 9, 10, 10, 12, 15, 18, 20.

  1. Разбейте данные на интервалы шириной 5 книг: 0–4, 5–9, 10–14, 15–19, 20–24.
  2. Посчитайте частоты.
  3. Сделайте вывод: большинство учеников прочитали мало книг или много?

FAQ

В чём разница между гистограммой и столбчатой диаграммой? В столбчатой диаграмме сравниваются разные категории (яблоки, груши, сливы), и между столбцами есть промежутки. В гистограмме показывается распределение одного непрерывного признака (вес, рост, время), и столбцы стоят вплотную.

Что делать, если число попадает точно на границу интервала? Принято включать нижнюю границу в интервал, а верхнюю — исключать. Например, интервал $[10; 20)$ включает число 10, но не включает 20. Число 20 будет отнесено к следующему интервалу $[20; 30)$.

Можно ли строить гистограмму для качественных данных (цвета, имена)? Нет. Для качественных данных используется обычная столбчатая диаграмма или круговая диаграмма. Гистограмма требует числовой оси, где есть порядок и расстояние между значениями.