Как настроить командную работу и сохранять спокойствие в чатах Телеграма, если всё горит, и все в аду

Habrahabr

У нас беспокойная работа — с сайтами, которые мы поддерживаем, постоянно что-то происходит, и на любую аварию мы должны среагировать за 15 минут — все это в режиме 24/7, семь дней в неделю. Задачи для админов невозможно запланировать — сложно представить себе такой план на неделю: случится 25 аварий, и мы их устраним одну за другой. О том, как мы пытаемся с этим жить, я и хочу рассказать.

image Что такое авария? Может закончиться место на диске (или похоже, скоро закончится), может увеличиться время ответа. Если мы говорим, что среагируем за 15 минут, это означает, что дежурный администратор должен сделать это за 7-8 минут. За это время он получает оповещение, подтверждает, что принял, расследует его и в случае необходимости начинает чинить.

image

Сейчас таких оповещений от 100 до 500 в час на человека. Днем их бывает больше, ночью меньше, в «черную пятницу» их безумно много, потому что интернет-магазины почему-то любят начать «черную пятницу» на день раньше каждый год, и не всегда это планируется заранее (каждый раз они говорят, что не будут вообще в ней участвовать; один наш клиент как-то запустил рассылку на 300 тыс. человек через полчаса после того, как сказал, что в этой «черной пятнице» не участвует, и мы получили в итоге порядка 900 алертов в час на трех дежурных админов).

Основная работа по поддержке у нас идет через чаты (в среднем за десять минут могут прийти уведомления в десять чатов). Ни тикетная система, ни клиент не должен говорить, что что-то упало, это мы должны заметить первыми и сказать клиенту. Это выглядит так: image или так: image

В таких чатах у нас получается до 50 сообщений каждые 10 минут. До восьми задач ставится через каждый чат одновременно. Это ускоряет работу — если попросить клиента написать задачу в тикете, клиент долго будет ее формулировать, и потом еще какое-то количество времени уйдет на то, чтобы сформулировать эту задачу для исполнителей правильно. Если клиент начинает разговаривать в чате, то это можно обсудить немедленно, а потом уже как-то перенести в систему управления проектами. Клиенту проще поставить задачу в диалоге, нам проще попытаться уточнить, что он имеет в виду, но возникают определенные проблемы, связанные с тем, что задача в чате не выглядит как полноценная задача для администратора. Таких задач у сотрудника возникает около пяти в час — это может быть какое-то изменение конфигурации на сервере, установка какого-нибудь софта, создание дополнительного бэкапа и т.д.

Сейчас у нас в среднем 90 активных чатов каждый день, и общение в них неравномерно по времени: image

В чатах возникает много задач, и за ними трудно уследить, их очень просто потерять. Оповещений очень много, на них надо реагировать вовремя — иначе мы нарушим SLA. Ну и в конце концов, когда у вас получается порядка 500 алертов в час, вы немножко устаете, потому что нужно с этим как-то жить.

Мы долго жили в скайпе. Сначала было очень плохо, потом стало очень-очень плохо, потом стало совсем плохо. В какой-то момент все, и наши клиенты тоже, стали переходить на Телеграм. И поскольку нас было довольно большая экспертиза в разработке, мы решили попробовать переписать его для себя так, чтобы это решало наши проблемы.

Почему нас не устроил Телеграм, или любой другой мессенджер, как он есть? Никто из разработчиков не думает, что у человека может быть 80 чатов одновременно. Слева в окне мессенджера показывается малое количество чатов — не то, которое нам нужно для нашей работы. В обычной жизни, по сравнению с нами, человек пишет довольно редко. У нас же в пики постоянно меняется очередность чатов, между ними как минимум неудобно переключаться (ну легко что-то потерять). По списку часто непонятно, где мы не успели ответить или еще не отвечали, и где приближается время, что нужно срочно ответить.

В своем клиенте Телеграма мы уменьшили высоту каждого чата в отдельности. image

Стали отслеживать SLA по тому, где в чате последним написал клиент, и стали подсвечивать чаты, где нужно ответить нам. image

Сгруппировали чаты по необходимости ответа, добавили функцию отметить все чаты как прочитанные. Зачем это сделали? У нас за день накапливается, если сотрудник не дежурил, порядка 150 чатов, в которых что-то писали — это уже неактуально.

image Специально для меня сделали в настройках чата техсаппорта запрет для моих сообщений. Потому что иногда я туда прихожу, пытаюсь что-то решать, они нажимают галочку, и я больше такой возможности не имею.

Если клиент просит сделать что-то в чате, дежурный по чатам правым кликом создает из этого диалога таск в Битрикс24 (его мы тоже переписали для себя — взяли за основу «Битрикс 24 в коробке», он написан на php, у него есть тикеты, API). image

Клиент может внести в тикет какие-то дополнительные данные, отслеживать выполнение, там же ведется дальнейшая работа. image

У дежурного по смене есть список тасков, которые есть сейчас в работе. В течение суток по нашему SLA мы должны сказать клиенту, когда мы этот таск выполним.

Что еще сделали:

  • «звездочку»: если хочется не забыть про чат (например, в нем есть какая-то информация, к которой надо вернуться), то можно пометить его звездочкой, и позже заметить и вернуться;
  • настройку «отключить создание preview» для ссылок (для того, чтобы не засорять чат превьюшками);
  • несколько настроек, которые позже сделал сам Телеграм — закрепленные чаты, настройку «не уведомлять, когда я печатаю».
Скачать наш клиент Телеграма для Mac OS можно тут, а для Windows — тут.

image

От безумного ритма работы люди устают, поэтому с 2010 года (момента, когда поддержка сайтов стала нашей основной услугой) и до оптимизации рабочих коммуникаций в Телеграме мы сделали много шагов, облегчивших сотрудникам жизнь, и не дающих забыть, что вместе мы делаем важное дело:

  • наняли больше людей и ввели восьмичасовые смены, чтобы все успевали поспать (а были времена, когда не успевали);
  • начали вести базу знаний и ретроспективу по инцидентам, чтобы передавать знания новичкам;
  • формализовали работу поддержки (сделали расписание дежурств, правила постановки задач, чеклисты);
  • открыли офисы в других часовых поясах (главный находится в Иркутске, еще два — в Москве и Санкт-Петербурге)
  • переключаем сотрудников на разные задачи, если они устали и хотят развития — есть дежурные админы, которые работают с горящими задачами, админы для более долгосрочных и сложных задач, админы в бэк-офисе, которые делают наши внутренние задачи (у нас есть собственная система мониторинга, системы бэкапов, Isolate и т.д.), а с недавних пор и R&D отдел — скоро расскажем, чем он занимается.
А еще у нас в штате есть директор по здравому смыслу. Серьезно, в трудовой книжке так и написано — «директор по здравому смыслу». Когда кто-то что пытается сделать не что-то то, все приходят к Вите и говорят: «Витя, нам нужен здравый смысл». Кстати, Витю на самом деле зовут Андрей, но все его зовут Витя.