Xiaozhi.me: платформа для создания своих голосовых роботов
Xiaozhi.me — это веб-консоль и облачная платформа для управления открытым проектом «Маленький Мудрец» (XiaoZhi AI), позволяющая превратить микроконтроллеры (например, ESP32) в полноценных голосовых собеседников с искусственным интеллектом. Сервис выступает связующим звеном между «железом» и большими языковыми моделями, давая пользователю возможность настраивать характер бота, выбирать голоса и управлять устройствами без глубоких знаний программирования .
Проект изначально создан китайским разработчиком (известным как «Брат Креветка») как открытая альтернатива дорогим коммерческим ассистентам, поддерживая широкий спектр чипов от Espressif, Beken и других производителей . Ниже разберем, как работает экосистема, кому она подойдет и с чего начать сборку своего первого умного устройства.
Ключевая особенность: В отличие от готовых колонок вроде Алисы или Сири, здесь вы сами собираете устройство из доступных компонентов, а сайт xiaozhi.me служит панелью управления для настройки его «мозгов» и поведения .
Что такое экосистема XiaoZhi AI
Проект делится на две части: прошивка для устройства (которую вы загружаете в микроконтроллер) и веб-сервис для управления. Сам по себе сайт xiaozhi.me не является чат-ботом, с которым вы общаетесь напрямую в браузере. Это панель администратора, где вы регистрируете свои физические устройства, выбираете модели ИИ и настраиваете сценарии общения .
Основные компоненты системы
- Аппаратная часть: Микроконтроллеры с поддержкой Wi-Fi и аудио (микрофон + динамик). Самые популярные базы — ESP32-S3, но поддерживаются и другие чипы .
- Прошивка: Открытый код, который обрабатывает запись голоса, отправку данных в облако и воспроизведение ответа.
- Облачный шлюз (Xiaozhi.me): Сервер, который маршрутизирует запрос от вашего устройства к выбранной нейросети (LLM) и обратно, обеспечивая низкую задержку ответа .
Такая архитектура позволяет создавать устройства с экраном для отображения эмоций, кнопки для вызова функций или простые «брелоки» для голосового управления умным домом .
Для кого предназначен сервис
Платформа ориентирована на три основные группы пользователей, каждая из которых находит здесь свои преимущества:
- Любители электроники (DIY-энтузиасты): Идеальный полигон для экспериментов. Вы можете собрать устройство стоимостью $10–15, которое по функционалу не уступает коммерческим аналогам, и полностью контролировать его начинку .
- Разработчики умного дома: Возможность создать локального или гибридного ассистента, который управляет светом, климатом и другими устройствами через Home Assistant или прямые команды, сохраняя приватность данных лучше, чем у крупных корпораций .
- Образовательные проекты: Простота настройки делает платформу отличным инструментом для обучения детей и студентов основам работы с ИИ, микроконтроллерами и сетевыми протоколами .
Совет для старта: Если вы новичок, начните с готовых наборов (KIT) на базе ESP32-S3 с экраном. Они часто уже имеют предустановленную совместимость с Xiaozhi и требуют только подключения к Wi-Fi и ввода кода активации .
Как начать работу: пошаговая инструкция
Процесс запуска собственного ассистента занимает от 30 минут до часа, в зависимости от наличия оборудования.
Шаг 1. Регистрация и создание агента
Перейдите на сайт xiaozhi.me и создайте аккаунт. В личном кабинете нажмите «Добавить устройство». Система сгенерирует уникальный ключ активации (Activation Code), который понадобится при первой прошивке железа .
Здесь же вы настраиваете «Личность» бота:
- Имя и аватар: Как устройство будет представляться.
- Системный промпт: Инструкция для ИИ (например, «ты вредный пират» или «ты вежливый помощник по дому»).
- Голос: Выбор синтезатора речи (TTS) из доступных вариантов (часто доступны женские, мужские и детские голоса) .
Шаг 2. Подготовка оборудования
Вам потребуется плата разработки (например, ESP32-S3 с микрофоном и динамиком).
- Скачайте актуальную версию прошивки с официального репозитория проекта на GitHub .
- Используйте инструменты вроде Flash Download Tools или PlatformIO для записи бинарного файла в память чипа.
- При первом включении устройство перейдет в режим настройки (обычно создает свою Wi-Fi точку доступа или ждет ввода кода через последовательный порт).
Шаг 3. Привязка и тест
Введите полученный на сайте код активации в устройство. После успешного соединения статус в личном кабинете изменится на «Онлайн». Теперь можно говорить с устройством: оно отправит ваш голос в облако, обработает его через выбранную модель и ответит голосом .
Возможности кастомизации и интеграции
Главная сила Xiaozhi.me — гибкость. Вы не ограничены стандартными сценариями.
- Выбор моделей ИИ: Платформа поддерживает подключение различных больших языковых моделей. Вы можете переключаться между быстрыми легкими моделями для простых команд и мощными моделями для сложных рассуждений .
- Эмоциональный отклик: Если ваше устройство оснащено экраном, прошивка может отображать анимацию глаз или эмоции в зависимости от тональности ответа бота, создавая эффект живого общения .
- Управление умным домом: Через настройку промптов или использование плагинов бот может отдавать команды другим устройствам в сети, выступая голосовым пультом управления .
| Функция | Описание | Где настраивается |
|---|---|---|
| Character (Характер) | Определение роли, стиля общения и ограничений бота | Веб-консоль (Prompt) |
| Voice (Голос) | Выбор тембра и скорости речи | Веб-консоль (TTS settings) |
| Memory (Память) | Краткосрочное запоминание контекста беседы | Автоматически / Настройки агента |
| Hardware (Железо) | Поддержка экранов, кнопок, светодиодов | Прошивка (config) |
Частые ошибки и ограничения
Несмотря на открытость, проект имеет свои нюансы, о которых стоит знать заранее:
- Языковой барьер интерфейса: Веб-консоль и часть документации могут быть преимущественно на китайском языке. Однако само общение с ботом отлично поддерживается на русском и английском, если правильно настроить системный промпт .
- Зависимость от интернета: Базовая версия архитектуры требует постоянного соединения с облаком Xiaozhi для обработки запросов. Полностью оффлайн-режим возможен, но требует установки тяжелых моделей прямо на чип, что сложно реализовать на бюджетном железе .
- Сложность сборки «с нуля»: Если у вас нет готового набора, самостоятельная пайка микрофона и динамика к плате может вызвать трудности у новичков. Ошибки в схеме приводят к тому, что бот «не слышит» или «не говорит» .
Важно: Проект развивается очень быстро. Версии прошивок и адресация функций в веб-интерфейсе могут меняться. Всегда сверяйтесь с актуальной документацией на GitHub или в сообществе перед прошивкой дорогих устройств .
FAQ
Нужно ли платить за использование Xiaozhi.me? Сам сервис и прошивка распространяются бесплатно (Open Source, лицензия MIT). Однако, если вы используете платные сторонние API для нейросетей (например, некоторые режимы работы с мощными LLM), расходы могут возникнуть со стороны провайдера моделей, но базовый функционал обычно бесплатен .
Можно ли использовать устройство без экрана? Да, наличие экрана не обязательно. Устройство может работать как «умная колонка», отвечая только голосом. Экран нужен лишь для визуализации эмоций или вывода текстовой информации .
Работает ли русский язык? Да, современные модели, подключаемые через платформу, отлично понимают и говорят по-русски. Главное — указать в настройках личности (System Prompt), что бот должен отвечать на русском языке .
Какие чипы поддерживаются кроме ESP32? Помимо популярной серии ESP32 (особенно S3), проект заявляет поддержку чипов от Beken, Realtek и других производителей, но сообщество и готовые примеры кода наиболее обширны именно для экосистемы Espressif .
Где брать готовые устройства? Готовые наборы продаются на маркетплейсах (AliExpress, Amazon) по запросу «Xiaozhi AI ESP32». Также многие энтузиасты публикуют схемы для самостоятельной сборки на печатных платах .