Глибока мережа переконань

У машинному навчанні глибо́ка мере́жа перекона́нь (ГМП, англ. deep belief network, DBN, також іноді глиби́нна мере́жа перекона́нь) — це породжувальна графова модель або, інакше, клас глибоких нейронних мереж, що складено з кількох шарів латентних змінних («прихованих вузлів»), зі з'єднаннями між шарами, але не між вузлами всередині кожного шару.

При тренуванні на наборі прикладів без керування ГМП може навчатися ймовірнісно відбудовувати свої входи. Шари тоді діють як виявлячі ознак. Після цього етапу навчання ГМП можливо тренувати далі з керуванням для виконання класифікування.

ГМП можливо розглядати як композицію простих некерованих мереж, таких як обмежені машини Больцмана (ОМБ) або автокодувальники, в якій прихований шар кожної підмережі слугує видимим шаром для наступної. ОМБ — це неорієнтована породжувальна модель на основі енергії з «видимим» шаром входу та прихованим шаром і зв'язками між шарами, але не всередині них. Така композиція веде до швидкої пошарової процедури некерованого тренування, де контрастове розходження застосовують по черзі до кожної підмережі, починаючи з «найнижчої» пари шарів (найнижчий видимий шар — це тренувальний набір).

Спостереження щодо того, що ГМП можливо тренувати жадібно, по одному шару за раз, привело до створення одного з перших дієвих алгоритмів глибокого навчання.:6 Загалом існує багато привабливих втілень та використань ГМП у реальних застосуваннях та сценаріях (наприклад, електроенцефалографії,пошуку нових ліків[en]).

Тренування

Метод тренування ОМБ, запропонований Джефрі Гінтоном для використання в тренуванні моделей «добуток експертів[en]», називають контрастовим розходженням (КР, англ. contrastive divergence, CD). КР забезпечує наближення методу максимальної правдоподібності, застосовувати який для навчання ваг було би ідеально. Під час тренування однієї ОМБ уточнювання ваг виконують градієнтним спуском за таким рівнянням:

де  — ймовірність видимого вектора, задана як . це статистична сума[en] (яку використовують для нормування), а  — функція енергії, приписаної станові мережі. Нижча енергія вказує на те, що мережа має «бажанішу» конфігурацію. Градієнт має простий вигляд , де подають усереднення відносно розподілу . Проблема виникає у вибиранні , оскільки воно вимагає розширеного навперемінного ґіббзового вибирання[en]. КР замінює цей крок виконанням альтернативного ґіббзового вибирання для кроків (значення працюють добре). Після кроків дані вибирають, і цю вибірку використовують замість . Процедура КР працює наступним чином:

  1. Встановити видимі вузли у значення тренувального вектора.
  2. Уточнити приховані вузли паралельним чином, враховуючи видимі вузли: .  — сигмоїдна функція, а  — зміщення .
  3. Уточнити видимі вузли паралельним чином, враховуючи приховані вузли: .  — зміщення . Це називають етапом «відбудовування».
  4. Переуточнити приховані вузли паралельним чином, враховуючи відбудовані видимі вузли, використовуючи те саме рівняння, що й у кроці 2.
  5. Виконати уточнення ваг: .

Щойно ОМБ натреновано, поверх неї «накладають» іншу ОМБ, беручи її вхід з останнього натренованого рівня. Новий видимий шар встановлюють у значення тренувального вектора, а значення для вузлів у вже навчених шарах встановлюють з використанням поточних ваг і зміщень. Потім нову ОМБ тренують за описаною вище процедурою. Весь цей процес повторюють, доки не буде досягнуто бажаного критерію зупинки.

Хоч наближення КР до максимальної правдоподібності й грубе (не слідує градієнтові жодної функції), воно емпірично ефективне.

Див. також

  • Складена обмежена машина Больцмана
  • Баєсова мережа
  • Глибоке навчання
  • Згорткова глибока мережа переконань[en]
  • Модель на основі енергії[en]

вікіпедія, вікі, енциклопедія, книга, бібліотека, стаття, читати, безкоштовне завантаження, Інформація про Глибока мережа переконань, Що таке Глибока мережа переконань? Що означає Глибока мережа переконань?