Архівація даних. Резервне копіювання. Захист інформації

Стиснення даних – алгоритмічне перетворення даних, вироблене з метою зменшення їх обсягу. Застосовується для більш раціонального використання пристроїв зберігання і передачі даних. Зворотна процедура називається відновленням даних (розпакуванням, декомпресією).

Якщо методи стиснення інформації застосовують до готових документів, то нерідко термін стиснення даних підміняють терміном архівація даних, а програмні засоби, що виконують ці операції, називають архіваторами.

Стиснення засноване на усуненні надлишків, що міститься у вихідних даних. Найпростішим прикладом надлишків є повторення в тексті фрагментів (наприклад, слів природної або машинної мови). Подібний надлишок зазвичай усувається заміною повторюваної послідовності посиланням на вже закодований фрагмент із зазначенням його довжини. Інший вид надшку пов’язаний з тим, що деякі значення в даних, що стискуються зустрічаються частіше інших. Скорочення обсягу даних досягається за рахунок заміни часто повторюваних даних короткими кодовими словами, а рідких – довгими (ентропійне кодування). Стиснення даних, що не володіють властивістю надлишку (наприклад, випадковий сигнал чи шум, зашифровані повідомлення), принципово неможливе без втрат.

В залежності від того, в якому об’єкті розміщені дані, що піддаються стисненню, розрізнюють:

  • архівацію файлів;
  • архівацію папок;
  • архівацію дисків.

Архівацію файлів застосовують для зменшення їх розмірів при підготовці до передачі по каналах електронних мереж або до транспортування на зовнішньому носії малої місткості, наприклад на гнучкому диску.

Архівацію папок використовують як засіб стиснення даних перед тривалим зберіганням, зокрема, при резервному копіюванні.

Архівація дисків служить цілям підвищення ефективності використання їх робочого простору і, як правило, застосовується до дисків, що мають недостатню місткість.

Незважаючи на достаток алгоритмів стиснення даних, теоретично є тільки три способи зменшення їх надлишку:

  • Зміна вмісту даних;
  • Зміна структури даних;
  • Зміна змісту і структури даних.

Якщо при стисненні даних відбувається зміна їх вмісту, метод стиснення безповоротний і при відновленні даних з стиснутого файлу не відбувається повного відновлення початкової послідовності. Такі методи називають також методами стиснення з регульованою втратою інформації. Вони застосовні тільки для тих типів даних, для яких формальна втрата частини змісту не приводить до значного зниження споживчих властивостей. Насамперед, це відноситься до мультимедійних даних: відео-рядів, музичних записів, звукозаписів і малюнків. Методи стиснення з втратою інформації звичайно забезпечують набагато більш високу ступінь стиснення, ніж оборотні методи, але їх не можна застосовувати до текстових документів, баз даних і, тим більше, до програмного коду.

Характерними форматами стиснення з втратою інформації є:

  • .JPG для графічних даних;
  • .MPG для відео-даних;
  • .МР3 ля звукових даних.

Якщо при стисненні даних відбувається тільки зміна їх структури, то метод стиснення оборотний. З результуючого коду можна відновити початковий масив шляхом застосування зворотного методу. Оборотні методи застосовують для стиснення будь-яких типів даних. Характерними форматами стиснення без втрати інформації є:

  • .GIF, .TIF, .PCX та ін (графічні дані);
  • .AVI для відеоданих;
  • .ZIP, RJ, .RAR, .LZH, .LH, .CAB та ін (будь-які дані).

Алгоритми стиснення даних

В основу алгоритмів RLE встановлений принцип виявлення послідовностей даних, що повторюються і заміни їх простою структурою, в якій вказується код даних і коефіцієнт повтору.

Наприклад, для послідовності: 0; 0; 0; 127; 127; 0; 255; 255; 255; 255 (усього, 10 байтів) утвориться наступний вектор:

Значення Коефіцієнт повтору
0
3
127
2
0
1
255
4

При записі в рядок він має вигляд: 0; 3; 127; 2; 0; 1; 255; 4 (всього 8 байтів). У даному прикладі коефіцієнт стиснення рівний 8/10 (80 %).

Програмні реалізації алгоритмів RLE відрізняються простотою, високою швидкістю роботи, але в середньому забезпечують недостатнє стиснення. Найкращими об’єктами для даного алгоритму є графічні файли, в яких великі однокольорові ділянки зображення кодуються довгими послідовностями однакових байтів. Цей метод також може давати помітний виграш на деяких типах файлів баз даних, що мають таблиці з фіксованою довжиною полів. Для текстових даних методи RLE, як правило, неефективні.


Приклад стиснення зображення за алгоритмом RLE

В основу алгоритмів кодування за ключовим словами (Keyword Encoding) покладено кодування лексичних одиниць початкового документа групами байтів фіксованої довжини. Прикладом лексичної одиниці може служити слово. Результат кодування зводиться в таблицю, яка прикладається до результуючого коду і являє собою словник. Звичайно для англомовних текстів прийнято використати двобайтне кодування слів. Пари байтів, що утворюються при цьому, називають токенами.

Ефективність даного методу істотно залежить від довжини документа, оскільки через необхідність прикладати до архіву словник довжина коротких документів не тільки не зменшується, але навіть зростає. Даний алгоритм найбільш ефективний для англомовних текстових документів і файлів баз даних. Для російськомовних документів, відмінних збільшеною довжиною слів і великою кількістю префіксів, суфіксів і закінчень, не завжди вдається обмежитися двобайтними токенами, і ефективність методу помітно знижується.

В основі алгоритму Хафмана лежить кодування не байтами, а бітовими групами.

  • Перед початком кодування проводиться частотний аналіз коду документа і виявляється частота повтору кожного з символів, що зустрічаються.
  • Чим частіше зустрічається той або інший символ, тим меншою кількістю бітів він кодується (відповідно, чим рідше зустрічається символ, тим довше його кодова бітова послідовність).
  • Ієрархічна структура, що утворюється внаслідок кодування, прикладається до стиснутого документа як таблиця відповідності.

До базових функцій, які виконують більшість сучасних диспетчерів архівів, відносяться:

  • розархівування;
  • створення нових архівів;
  • додання файлів в архів, що вже існує;
  • створення  архівів, що саморозпаковуються;
  • створення розподілених архівів на носіях малої місткості;
  • тестування цілісності структури архівів;
  • повне або часткове відновлення пошкоджених архівів;
  • захист архівів від перегляду і несанкціонованої модифікації.


Саморозпаковуваний архів

Резервне копіювання

Резервне копіювання (backup) – процес створення копії даних на носії, призначеному для відновлення даних в оригінальному місці їх розташування в разі їх пошкодження або руйнування, відповідними програмами – резервними дублікаторами даних.

Резервне копіювання необхідне для можливості швидкого і недорогого відновлення інформації (документів, програм, настройок і т.д.) у разі втрати робочої копії інформації з якої-небудь причини.

Крім цього вирішуються суміжні проблеми:

  • дублювання даних
  • передача даних і робота з загальними документами

Вимоги до системи резервного копіювання:

  • Надійність зберігання інформації – забезпечується використанням відмовостійкого обладнання систем зберігання, дублюванням інформації і заміною втраченої копії іншою у разі знищення однієї з копій (у тому числі як частина відмовостійкості).
  • Простота в експлуатації – автоматизація (по можливості мінімізувати участь людини: як користувача, так і адміністратора).
  • Швидке впровадження – проста установки і налаштування програм, швидке навчання користувачів.

Види резервного копіювання:

  • Повне резервування (Full backup). Зазвичай зачіпає всю систему і всі файли. Повне резервування слід проводити, принаймні, щотижня.
  • Диференціальне резервування (Differential backup). При цьому резервуванні кожен файл, який був змінений з моменту останнього повного резервування, копіюється щоразу заново.
  • Додаткове резервування (Incremental backup). При додатковому резервуванні відбувається копіювання тільки тих файлів, які були змінені з тих пір, як в останній раз виконувалося повне або додаткове резервне копіювання.
  • Пофайловий метод. Система пофайлового резервування запитує кожен індивідуальний файл і записує його на носій. Завжди слід використовувати пропоновану опцію верифікації.
  • Блочне інкрементальне копіювання (Block level incremental).


Програма для резервного копіювання Acronis True Image

Зберігання резервної копії:

  • «Хмарний» бекап – запис резервних даних по «хмарній» технології через онлайн-служби спеціальних провайдерів;
  • DVD чи CD – запис резервних даних на компактні диски;
  • HDD – запис резервних даних на жорсткий диск комп’ютера;
  • LAN – запис резервних даних на будь-яку машину всередині локальної мережі;
  • FTP – запис резервних даних на FTP-сервери;
  • USB – запис резервних даних на будь-який USB-сумісний пристрій (таке, як флеш-карта або зовнішній жорсткий диск).

Причини втрати інформації

Експлуатаційні поломки носіїв інформації.

Опис: випадкові поломки в межах статистики відмов, пов’язані з необережністю або виробленням ресурсу.


Запобігання
: зберігати всю інформацію (кожен файл) мінімум у двох примірниках (причому кожен екземпляр на своєму носії даних).

Стихійні та техногенні лиха.

Опис: шторм, землетрус, крадіжка, пожежа, прорив водопроводу – все це призводить до втрати всіх носіїв даних, розташованих на певній території.


Запобігання: єдиний спосіб захисту від стихійних лих – тримати частину резервних копій в іншому приміщенні.

Шкідливі програми.

Опис: в цю категорію входить випадково занесене ПЗ, яке навмисно псує інформацію – віруси, хробаки, «троянські коні». Іноді факт зараження виявляється, коли чимала частина інформації перекручена або знищена.

Запобігання:

  • Установка антивірусних програм на робочі станції.
  • Тримати копії в такому місці, до якого вірус не добереться – виділений сервер або знімні носії.
  • Якщо копіювання йде на сервер: забезпечити захист сервера від вірусів. Зберігати версії достатньої давності, щоб існувала копія, що не контактувала з зараженим комп’ютером.
  • Якщо копіювання йде на знімні носії: частину носіїв зберігати (без дописування на них) досить довго, щоб існувала копія, що не контактувала з зараженим комп’ютером.

Людський фактор

Опис: навмисне або ненавмисне знищення важливої ??інформації людиною, спеціально написаною шкідливою програмою або збійним ПЗ.

Запобігання:

  • Ретельно розставляються права на всі ресурси, щоб інші користувачі не могли модифіковані чужі файли.
  • Забезпечити працюючу систему резервного копіювання – тобто, систему, якою люди реально користуються і яка досить стійка до помилок оператора.
  • Зберігати версії достатньої давності, щоб при виявленні зіпсованих даних файл можна було відновити.
  • Перед перевстановлення ОС слід обов’язково копіювати весь вміст розділу, на якій буде встановлена ??ОС, на сервер, на інший розділ або на CD/DVD.
  • Оперативно обновляти ПЗ, яке запідозрено у втраті даних.

Захист інформації

Інформаційна безпека – діяльність, спрямована на забезпечення захищеного стану об’єкта.

Захист інформації являє собою діяльність щодо запобігання витоку інформації, що захищається, несанкціонованих і ненавмисних впливів на захищену інформацію, тобто процес, спрямований на досягнення цього стану.

У якості стандартної моделі безпеки часто приводять модель з трьох категорій:

  • конфіденційність – стан інформації, при якому доступ до неї здійснюють тільки суб’єкти, що мають на неї право;
  • цілісність – уникнення несанкціонованої модифікації інформації;
  • доступність – уникнення тимчасового або постійного приховання інформації від користувачів, що отримали права доступу.

Виділяють і інші не завжди обов’язкові категорії моделі безпеки:

  • неспростованість або апелюємість – неможливість відмови від авторства;
  • підзвітність – забезпечення ідентифікації суб’єкта доступу та реєстрації його дій;
  • достовірність – властивість відповідності передбаченому поводженню чи результату;
  • автентичність або справжність – властивість, що гарантує, що суб’єкт або ресурс ідентичний заявленим.

У літературі пропонується наступна класифікація засобів захисту інформації.

  • Засоби захисту від несанкціонованого доступу (НСД):
    • Засоби авторизації;
    • Мандатне управління доступом;
    • Вибіркове управління доступом;
    • Управління доступом на основі ролей;
    • Журналювання (аудит).
  • Системи моніторингу мереж:
    • Системи виявлення та запобігання вторгнень (IDS/IPS).
    • Системи запобігання витоків конфіденційної інформації (DLP-системи).
  • Антивірусні засоби.
  • Міжмережеві екрани.
  • Криптографічні засоби:
    • Шифрування;
    • Цифровий підпис.
  • Системи резервного копіювання.
  • Системи аутентифікації:
    • Пароль;
    • Ключ доступу (фізичний або електронний);
    • Сертифікат;
    • Біометрія.
  • Засоби запобігання злому корпусів і крадіжок устаткування.
  • Засоби контролю доступу в приміщення.

Авторизація – надання особі можливостей відповідно до дозволених йому прав або перевірка наявності прав при спробі виконати будь-яку дію.

Авторизацію не слід плутати з аутентифікацією: аутентифікація – це лише процедура перевірки достовірності даних, наприклад, перевірка відповідності введеного користувачем пароля до облікового запису паролю в базі даних, або перевірка цифрового підпису листа по ключу шифрування, або перевірка контрольної суми файлу на відповідність заявленої автором цього файлу.


Систем авторизації сайту

Мандатне управління доступом – розмежування доступу суб’єктів до об’єктів, засноване на призначенні мітки конфіденційність інформації, що міститься в об’єктах, та видачу офіційних дозволів (допусків) суб’єктам на звернення до інформації такого рівня конфіденційності.

Це спосіб, що поєднує захист і обмеження прав, що застосовується по відношенню до комп’ютерних процесів, даних і системних пристроях та призначений для запобігання їх небажаного використання. Дана модель доступу практично не використовується «в чистому вигляді», зазвичай на практиці вона доповнюється елементами інших моделей доступу.

В SUSE Linux і Ubuntu є архітектура мандатного контролю доступу під назвою AppArmor.


Система мандатного управління доступом AppArmor

Вибіркове управління доступом – управління доступом суб’єктів до об’єктів на основі списків керування доступом або матриці доступу.

Для кожної пари (суб’єкт – об’єкт) повинно бути задано явне і недвозначне перерахування допустимих типів доступу (читати, писати і т.д.), тобто тих типів доступу, які є санкціонованими для даного суб’єкта (індивіда чи групи індивідів) до даного ресурсу (об’єкту).

Існує кілька підходів до побудови дискреційного управління доступом:

  • Кожен об’єкт системи має прив’язаного до нього суб’єкта, власника. Саме власник встановлює права доступу до об’єкта.
  • Система має одного виділеного суб’єкта – суперкористувача, який має право встановлювати права володіння для всіх інших суб’єктів системи.
  • Суб’єкт з певним правом доступу може передати це право будь-якого іншого суб’єкту.

Можливі й змішані варіанти побудови, коли одночасно в системі присутні як власники, що встановлюють права доступу до своїх об’єктів, так і суперкористувач, що має можливість зміни прав для будь-якого об’єкта та/або зміни його власника. Саме такий змішаний варіант реалізований в більшості операційних систем, наприклад Unix або Windows NT.


Інтерфейс налаштування вибіркових прав доступу

Управління доступом на основі ролей – розвиток політики вибіркового управління доступом, при цьому права доступу суб’єктів системи на об’єкти групуються з урахуванням специфіки їх застосування, утворюючи ролі.

Формування ролей покликане визначити чіткі і зрозумілі для користувачів комп’ютерної системи правила розмежування доступу. Рольове розмежування доступу дозволяє реалізувати гнучкі правила розмежування доступу, що змінюються динамічно в процесі функціонування комп’ютерної системи.

Таке розмежування доступу є складовою багатьох сучасних комп’ютерних систем. Як правило, даний підхід застосовується в системах захисту СУБД, а окремі елементи реалізуються в мережевих операційних системах.


Менеджер керування доступом на основі ролей

Журналювання – процес запису інформації про події з якимось об’єктом (або в рамках якогось процесу) події в журнал (наприклад, у файл). Також часто називається аудит.

Стосовно до комп’ютерної пам’яті журнал це запис у хронологічному порядку операцій обробки даних, які можуть бути використані для того, щоб відтворити існуючу або альтернативну версію комп’ютерного файлу. У системах управління базами даних журнал – це записи про всі дані, змінених певним процесом.


Журнал системних подій в веб-додатках

Система виявлення вторгнень – програмний або апаратний засіб, призначений для виявлення фактів несанкціонованого доступу в комп’ютерну систему або мережу або несанкціонованого управління ними в основному через Інтернет. Відповідний англійський термін – Intrusion Detection System (IDS). Системи виявлення вторгнень забезпечують додатковий рівень захисту комп’ютерних систем.


Система виявлення вторгнень McAfee IPS

Запобігання витоків (Data Leak Prevention, DLP) – технології запобігання витоків конфіденційної інформації з інформаційної системи зовні, а також технічні пристрої (програмні або програмно-апаратні) для такого запобігання витоків.

DLP-системи будуються на аналізі потоків даних, що перетинають периметр захищуваної інформаційної системи. При детектуванні в цьому потоці конфіденційної інформації спрацьовує активна компонента системи, і передача повідомлення (пакета, потоку, сесії) блокується.


Система запопігання витоків інформації Ideco ICS

Міжмережевий екран або мережевий екран – комплекс апаратних чи програмних засобів, здійснює контроль і фільтрацію мережевих пакетів, що проходять через нього, відповідно до заданих правил.

Основним завданням мережевого екрану є захист комп’ютерних мереж або окремих вузлів від несанкціонованого доступу. Також мережеві екрани часто називають фільтрами, так як їх основне завдання – не пропускати (фільтрувати) пакети, не підходять під критерії, визначені в конфігурації. Інші назви – брандмауер, файрвол (Firewall).


Мережевий екран (файрвол) Kerio

Шифрування – спосіб перетворення відкритої інформації в закриту, і назад. Застосовується для зберігання важливої інформації в ненадійних джерелах або передачі її по незахищених каналах зв’язку. Шифрування підрозділяється на процес зашифровування і розшифрування.

Електронний підпис – інформація в електронній формі, приєднана до іншої інформації в електронній формі (електронний документ) чи іншим чином пов’язана з такою інформацією. Використовується для визначення особи, яка підписала інформацію (електронний документ).

Електронний підпис призначений для ідентифікації особи, яка підписала електронний документ і є повноцінною заміною (аналогом) власноручного підпису у випадках, передбачених законом.

Пароль – це секретне слово або набір символів, призначений для підтвердження особи або повноважень. Паролі часто використовуються для захисту інформації від несанкціонованого доступу. У більшості обчислювальних систем комбінація «ім’я користувача – пароль» використовується для підтвердження користувача.

Електронний ключ (ключ доступу) – апаратний засіб, призначений для захисту програмного забезпечення (ПО) і даних від копіювання, нелегального використання та несанкціонованого розповсюдження.

Основою цієї технології є спеціалізована мікросхема, або захищений від зчитування мікроконтроллер, що мають унікальні для кожного ключа алгоритми роботи. Ключ також мають захищену енергонезалежну пам’ять невеликого обсягу, більш складні пристрої можуть мати вбудований криптопроцесор (для апаратної реалізації шифрувальних алгоритмів), годинник реального часу. Апаратні ключі можуть мати різні форм-фактори, але найчастіше вони підключаються до комп’ютера через USB. Також зустрічаються з LPT-або PCMCIA-інтерфейсами.


Сучасні електронні ключі

Цифровий сертифікат – випущений центром сертифікації електронний або друкований документ, що підтверджує приналежність власнику відкритого ключа або будь-яких атрибутів.


Цифровий сертифікат елекронного підпису

Біометрія передбачає систему розпізнавання людей за одною або кількома фізичними або поведінковими рисами. В області інформаційних технологій біометричні дані використовуються як форми управління ідентифікаторами доступу і контролю доступу. Також біометричний аналіз використовується для виявлення людей, які перебувають під наглядом (відбитки пальців).

Біометричні дані можна розділити на два основні класи:

  • Фізіологічні – відносяться до форми тіла. Як приклад можна навести: відбитки пальців, розпізнавання особи, ДНК, долоня руки, сітківка ока, запах/аромат.
  • Поведінкові пов’язані з поведінкою людини. Наприклад, хода і голос. Часом використовується термін behaviometrics для цього класу біометрії.


Система розпізнавання сітківки ока