Самомониторинг

Самомониторинг

Когда Dynatrace становится частью большой продуктивной системы — в отношении его в части администрирования также часто ставятся вопросы: «А как работают Dynatrace и его компоненты?», «Достаточно ли мощны серверы, на которых развернуты Dynatrace и его компоненты?», «Сколько агентов и модулей кода сейчас на мониторинге?»

Начиная с версии кластера 1.230 в инсталляциях Dynatrace Managed процесс самомониторинга сильно упрощается и позволяет детально и полно контролировать всю инсталляцию. Теперь в списке появляется отдельный Local-self Monitoring Environment, который объединяет информацию со всех других Environments. Данная среда появится автоматически, и ее невозможно будет удалить. В нее нельзя добавить OneAgents, ActiveGate, расширения (Extensions) или настроить синтетические тесты. Особенно важно, что все собираемые метрики самоконтроля не потребляют лицензий.

Метрики самомониторинга

Все новые показатели здоровья кластера доступны в виде метрик в самой системе, на основании которых, так же как с другими данными, можно создавать дашборды, алерты, оповещения.

Все эти метрики доступны по префиксу «dsfm:».

Итак, давайте рассмотрим детальнее эти показатели и разберем их на примерах:

dsfm:cluster.oneagent.agent_modules — это одна из самых важных метрик, она показывает число отслеживаемых хостов и как это число меняется во времени.

Пример запроса в Data Explorer:

dsfm:cluster.oneagent.agent_modules:filter(and(eq(«dt.oneagent.agent_type»,os))):merge(«dt.entity.apm_tenant»,»dt.tenant.uuid»):avg:splitBy():sum:auto:sort(value(max,descending)):limit(10)

dsfm:cluster.oneagent.agent_modules — эта метрика показывает, сколько различных модулей кода анализируют установленные агенты. Число показывает количество сервисов, которые были обнаружены автоматически или добавлены на мониторинг вручную.

Пример запроса в Data Explorer:

dsfm:cluster.oneagent.agent_modules:filter(not(or(eq(«dt.oneagent.agent_type»,os),eq(«dt.oneagent.agent_type»,log_analytics),eq(«dt.oneagent.agent_type»,remote_plugin)))):merge(«dt.entity.apm_tenant»,»dt.tenant.uuid»):avg:splitBy():sum:auto:limit(10)

Для того чтобы оценить количество обработанных вызовов от сервисов, которые стоят на мониторинге, можно использовать метрику dsfm:server.service_calls.received

Пример запроса в Data Explorer:

dsfm:server.service_calls.received:default(0):splitBy():sum:rate(1m)

Когда на мониторинг устанавливается система, использующая формат для трассировок вызовов Opentracing, метрика dsfm:server.spans.received покажет, сколько span было получено.

Для оценки пользовательского опыта можно использовать две различные метрики — количество пользовательских сессий (dsfm:server.rum.user_session_count) и количество пользовательских действий (dsfm:server.rum.action_count).

Примеры этих запросов в Data Explorer:

dsfm:server.rum.user_session_count:default(0):splitBy():sum:rate(1m)

dsfm:server.rum.action_count:default(0):splitBy():sum:rate(1m)

На скриншоте ниже показан дашборд, который использует указанные выше показатели для мониторинга работы среды Dynatrace с течением времени.

Значительное падение этих показателей может указывать на проблему, и в этом случае вам следует связаться с технической поддержкой Dynatrace, чтобы определить основную причину такого падения.

Самомониторинг

Метрики здоровья Active Gate:

Одним из важнейших компонентов инсталляции Dynatrace является Active Gate. Именно он может проксировать запросы от агентов на кластер, принимать мобильные данные, выполнять синтетические проверки, запускать расширения мониторинга.

Все метрики по Active Gate можно найти по префиксу dsfm:active_gate

Active Gate — JVM — CPU Usage

Active Gate — JVM — Heap Memory Used

Active Gate — JVM — Heap Memory Available

Ниже пример настройки метрик в системе.

Самомониторинг

Дашборд самомониторинга

Для удобства использования метрик самомониторинга мы также создали отдельный дашборд, который можно загрузить через Dynatrace HUB. Для Managed-версий достаточно перейти на вкладку Dynatrace HUB и выбрать там Dynatrace Self-Monitoring (Managed), после чего его можно добавить в среду. 

Самомониторинг

Также дашборд для самомониторинга можно скачать с веб-страницы

Он предназначенен для пользователей, которые отвечают за мониторинг состояния и размера кластера Dynatrace. 

Это позволяет:

  • получить обзор текущего использования кластера Dynatrace;
  • убедиться, что размер кластера Dynatrace соответствует текущей нагрузке;
  • просмотреть текущую и прошлую загрузку данных в кластер Dynatrace, например, вызовы службы или сеансы/действия пользователей;
  • просмотреть количество подключенных агентов OneAgent к кластеру Dynatrace с течением времени.

Дашборд самомониторинга включает в себя:

  • информацию о текущем использовании вашего управляемого кластера и сервера Dynatrace;
  • обзор различных каналов приема данных и текущей скорости захвата;
  • обзор подключенных агентов Dynatrace OneAgent.

На дашборде будет доступна следующая информация:

—  Cluster Utilization — данный раздел дает общее представление о работе кластера Dynatrace. Он рассчитывается как совокупность наиболее важных системных ресурсов, включая память и процессор. Загрузка кластера на 100 % означает, что кластер достиг своей максимальной пропускной способности и больше нет места для добавления дополнительной нагрузки (например, дополнительных агентов). Учитывая нагрузку на системный процессор, использование кластера также дает представление об использовании ресурсов баз данных, работающих на узлах Dynatrace.

Самомониторинг

— PurePath Processing. Количество Service Calls per Minute напрямую показывает количество вызовов, которые обрабатывают агенты мониторинга в минуту. 

— Service Calls Received показывает динамику запросов, количество полученных сервисных вызовов (service calls) за последние 7 дней. Устойчивый рост трафика PurePath может, например, быть показателем необходимости масштабирования кластера. 

— Capture Rate показывает, какую часть принятого трафика PurePath кластер смог успешно обработать и сохранить.

— «Важно». Из-за естественной задержки обработки между приемом полученных данных PurePath и хранением Service Calls это число иногда может быть ниже 100. Таким образом, небольшие отклонения от 100 не являются поводом для беспокойства и не указывают на перегрузку кластера.

Самомониторинг

— Также на этом дашборде доступна для анализа информация Real User Monitoring, которая подсчитывает количество уникальных пользовательских сессий и действий, а также определяет, сколько данных было отброшено по причинам производительности кластера. 

— Agent Deployment status показывает число хостов, которые стоят на мониторинге, количество код-модулей и дает представление о текущем объеме мониторинга. 

Закрыть меню