Резервное копирование служб факультета ВМК

Введение

Защита данных пользователей от потерь делается на нескольких уровнях, т.к. данные можно потерять (или данные станут надолго недоступны) при:
  • выходе из строя жесткого диска
  • выходе из строя RAID-контроллера (особенно если сломалось не сразу и возникла проблема write-hole)
  • выходе из строя сервера (материнская плата, память, ...)
  • подключили сервер к неправильному питанию и все сгорело (был случай на факультете, не в нашей службе)
  • пользователь удалил один файл, а думал, что удаляет другой
  • пользователь не заблокировал рабочую станцию и злоумышленник удалил ему письмо (например, ребенок)
  • злоумышленник подобрал пароль пользователя и скомпрометировал его данные (удалил, подменил, ...)
От разных опасностей надо применять разные средства.

Локальное копирование

Делается через снимки файловой системы (snapshot).

Периодичность:
  • три раза в час, хранится трое суток;
  • раз в три часа, хранится две недели;
  • раз в день, хранится месяц;
  • раз в неделю, хранится 6 месяцев.

Спасает от проблем пользовательского уровня:
  • Удалили по ошибке письмо/файл/...
  • Восстановили базу данных не из той копии/удалили базу данных
  • Злоумышленник подобрал пароль к почте/сайту/... и изменил/удалил данные
  • и других подобных
Т.е. оборудование все в полном порядке, не аппаратный сбой.

Использование RAID на серверах

Спасает от выхода из строя одного жесткого диска на сервере и дает время на восстановление работоспособности сервиса.

Увеличивает количество экземпляров данных пользователя локально.

Копирование на удаленный сервер

Спасает от потери всего сервера (сгорела материнская плата, контроллер, пожар в серверной ...)

Производится с периодичностью самого частого бекапа, поэтому отдельный сервер хранит достаточно релевантные данные.

На сервере хранятся те же копии (снимки), что и на основной системе, что позволяет закрыть и такой сложный сценарий:
  • администратор сайта сделал неправильное обновление (например, перед новогодними праздниками)
  • во время новогодних каникул сервер потеряли (например, переносили и уронили на пол)
  • несмотря на это все данные (состояние системы) вполне можно восстановить

Статистика

В процессе жизни сервисы Факультета пережили:

  • «потерю» пользователем писем в мае 2021г:
    • Данные были полностью восстановлены.
    • Обратились в течение недели.
  • «потерю» пользователем писем в сентябре 2019г:
    • Данные были полностью восстановлены.
    • Обратились на следующий день.
  • «потерю» пользователем базы данных в сентябре 2018г (неудачные действия при обновлении drupal):
    • Данные были полностью восстановлены.
    • Восстановлено на утро перед потерей (данные не менялись, поэтому это состояние перед удалением).
  • зависание (аппаратная поломка) сервера в августе 2018г:
    • В течении часа был поднят резервный вариант с помощью резервной копии (отставание не больше 30 минут, данные за это время не менялись).
    • Исходный сервер был запущен позднее.
  • «потерю» пользователем писем в декабре 2017г. (пользователь оптимизировал ящик):
    • Данные были полностью восстановлены.
    • Обратились на третий день.
  • выход из строя сервера в январские выходные 2017:
    • потерь данных не было
    • работоспособность 8ми виртуальных машин была восстановлена в течении часа удаленно.
    • актуальность данных: расхождение бекапа и работающего сервера составила меньше 15 минут, после восстановления доступа к данным расхождение было устранено.
  • «потерю» пользователем писем в ноябре 2016г. (подключились POP3-клиентом):
    • Данные были полностью восстановлены.
    • «потерю» обнаружили спустя более двух недель
  • поломку диска на сервере резервного копирования в августе 2016г (отказ диска):
    • Была произведена замена диска и восстановление RAID-избыточности
    • Перерыв в работе сервера составил лишь 10 минут
  • поломку сервера резервного копирования в июле 2016г (отказ трех дисков, два безвозвратно):
    • Сервер был пересобран на меньший объем хранимых данных
    • На время пересборки копия данных оставалась на самих серверах (т.е. сервера хранят историю изменений).
  • Удаление профилей пользователей в июне 2016г:
    • неверно было определено, что они не используются.
    • Данные были полностью восстановлены.
  • восстановление данных для еще одного виртуального сервера в августе 2015г:
    • Данные были полностью восстановлены.
  • новую "потерю" данных на предыдущем сайте в августе 2015г. (рекомендации выполнены не были, их взломали еще раз):
    • Данные были полностью восстановлены.
  • "потерю" данных одном из сайтов в июле 2015г. (взлом, обратились спустя неделю):
    • Данные были полностью восстановлены.
  • "потерю" пользователем писем в июле 2015г. (радикально удаляли и удалили лишнее):
    • Данные были полностью восстановлены.
  • "потерю" пользователем писем в мае 2015г. (подключились POP3-клиентом):
    • Данные были полностью восстановлены.
    • Как позднее оказалось, "удаление" почты было и раньше, исчезнувшая в более ранний период почта тоже восстановлена.
  • "потерю" пользователем писем в феврале 2015г. (радикально удаляли и удалили лишнее):
    • Данные были полностью восстановлены.
  • выход из строя на бекап-сервере (август 2014г.) еще трех дисков:
    • в том числе тот, который был снова введен в эксплуатацию
    • ввиду нехватки дисков сервер был переделан на 6-дисковое хранилище (было 8-дисковое)
  • восстановление виртуальной машины для одной из кафедр (17.07.2014 попросили восстановить на 03.07.2014).
  • выход из строя на бекап-сервере (июнь 2014) трех жестких дисков:
    • два безвозвратно
    • один частично (данные удалось считать)
    • данные не пропали (RAID6), частично вышедший из стоя диск прошел проверку и был заново введен в эксплуатацию.
  • выход из строя сервера в январе 2014:
    • потерь данных не было
    • работоспособность 7ми виртуальных машин была восстановлена в течении часа.
    • актуальность данных: расхождение бекапа и работающего сервера составила меньше 25 минут (сервер уникальный, его диски подключить некуда).
  • "потерю" пользователем папки сайта в 2013 (радикально удаляли и удалили лишнее):
    • Данные были полностью восстановлены.
  • "потерю" папки с письмами (2 разных пользователя) в 2013:
    • Данные были полностью восстановлены (оба пользователя обратились почти сразу после своей ошибки).
  • "потерю" еще одной из кафедр данных за 9 месяцев (ошибочный откат базы, 2013):
    • Обратились спустя 11 дней
    • Данные были полностью восстановлены (на утро проблемного дня).
  • проблема с сайтом компьютерных курсов (март 2013), администратор обнаружил, что сайт ведет себя иначе:
    • скорее всего либо ошибка администратора (или его действий по безопасности)
    • Данные (файлы и база) были полностью восстановлены.
  • "потерю" одной из кафедр почты из-за простого пароля (после этого все завели более сложные пароли, 2013):
    • Обратились спустя 4 дня после потери данных
    • Почта была полностью восстановлена (за пять минут до изменения)
  • выход из строя 5 серверов в течении года (2011-2012):
    • потерь данных не было
    • простой в сервисах не превышал двух-трех часов на каждый случай
Topic revision: r27 - 03 Jun 2021, RomanKondakov
This site is powered by FoswikiCopyright © by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding WikiCMC? Send feedback