Вісник Національного технічного університету «ХПІ». Серія: Динаміка та міцність машин

Постійне посилання на розділhttps://repository.kpi.kharkov.ua/handle/KhPI-Press/81081

Офіційний сайт http://jdsm.khpi.edu.ua/

У журналі представлено результати теоретичних і експериментальних досліджень статичної та динамічної міцності, надійності й оптимізації елементів конструкцій сучасних машин і енергетичних установок із широким використанням обчислювальної техніки.

Рік заснування: 1965. Періодичність: 2 рази на рік. ISSN 2078-9130 (Print)

Переглянути

Результати пошуку

Зараз показуємо 1 - 1 з 1
  • Ескіз
    Документ
    Метод Монте-Карло та штучний інтелект: використання методу Монте-Карло в навчанні з підкріпленням
    (Національний технічний університет "Харківський політехнічний інститут", 2024) Некрасова, Марія Володимирівна
    Навчання з підкріпленням - технологія, що найбільш швидко розвивається, застосовується при створенні штучних інтелектуальних систем. На даний момент ця галузь досить швидко розвивається і є надзвичайно затребуваною.. Багато дослідників по всьому світу активно працюють з навчанням з підкріпленням у різноманітних сферах: нейробіології, теорії управління, психології та багатьох інших. Метою даної роботи є обґрунтування можливості застосування методу Монте-Карло в навчанні з підкріпленням. Відомо, що основним у такому навчанні є фіксація аспектів реальної проблеми при взаємодії того, хто навчається з навколишнім світом для досягнення своєї мети. Тобто агент навчання повинен мати мету, пов’язану зі станом навколишнього середовища. Також необхідно мати можливість відчувати середовище та вчиняти дії, що впливають на нього. Формулювання завдання навчання з підкріпленням має враховувати все три аспекти – відчуття, дію та мету – у їх найпростіших формах. В статті показано, що методи Монте-Карло здатні вирішити проблеми навчання із підкріпленням, ґрунтуючись на усередненні результатів вибірки. Не можна використовувати лише перевірені дії або лише шукати нові - в цьому і полягає проблема, бо у стохастичній задачі кожна дія має бути випробувана багато разів, щоб отримати надійну оцінку очікуваної винагороди. Щоб забезпечити доступність чітко визначених результатів, у статті розглядаються методи Монте-Карло лише епізодичних завдань. При цьому показане застосування нестандартного підходу до навчання із заздалегідь невідомими навчальними прикладами, які підбиралися автоматично, у процесі оптимізації. Таким чином, методи Монте-Карло можуть бути успішно інкрементними лише на рівні епізодів.