Векторний метод пошуку послідовностей у великих даних
Дата
2022
DOI
doi.org/10.20998/2522-9052.2022.3.02
Науковий ступінь
Рівень дисертації
Шифр та назва спеціальності
Рада захисту
Установа захисту
Науковий керівник
Члени комітету
Назва журналу
Номер ISSN
Назва тому
Видавець
Національний технічний університет "Харківський політехнічний інститут"
Анотація
Пропонується технологічне програмне рішення для метричного пошуку та ідентифікації логіко-часових патернів бізнес-потоку даних за рахунок створення додаткових векторних структур даних та паралельного методу їх обробки. Предметом досліджень є методи пошуку та ідентифікації логіко-часових патернів у великих даних. Метою є підвищення ефективності пошуку та розпізнавання логіко-часових патернів, що семантично утворюють бізнес-функціональності у 8-годинному часовому фреймі скріншотів зі "сміттєвими" даними. Застосовувані методи: апарат теорії множин та булевої алгебри, метричні матричні моделі визначення параметрів для множин двійкових векторів, елементи теорії ймовірностей, теорія алгоритмів, програмне моделювання, аналіз великих даних. Отримані результати: метод пошуку та розпізнавання патернів на основі векторного завдання символьних послідовностей, які ідентифікують патерни у потоках великих даних, що використовує унітарне кодування інформаційних примітивів та даних; векторні моделі – структури унітарно-кодованих даних для опису потоку великих даних, як декартові добутки множини примітивів-string-маркерів та дискретної послідовності-реалізації заданого часового фрейма. Практична значущість роботи полягає у реалізації векторного методу, що дозволило створити програму розпізнавання патернів у потоці великих даних з ймовірністю 0,77%.
A technological software solution is proposed for metric search and identification of logical-temporal patterns of a business data flow by creating additional vector data structures and a parallel method for their processing. The subject of research is the methods of searching and identifying logical-temporal patterns in big data. The purpose of the study is to increase the efficiency of searching and recognizing logical-temporal patterns that semantically form business functionality in an 8-hour frame of screenshots with "garbage" data. Applied methods: apparatus of set theory and Boolean algebra, metric models for determining parameters for sets of binary vectors, elements of probability theory, theory of algorithms, software modeling. The results obtained: a method for searching and recognizing patterns based on a vector problem of character sequences that identify patterns in big data streams using unitary coding of information primitives and data; vector models are unitary-encoded data structures for describing a big data flow as Cartesian products of a set of primitive-string-markers and a discrete sequence of implementation of a given time frame. The practical significance of the work: the implementation of the vector method, which made it possible to create a pattern recognition program in a big data stream with a probability of 0.77%.
A technological software solution is proposed for metric search and identification of logical-temporal patterns of a business data flow by creating additional vector data structures and a parallel method for their processing. The subject of research is the methods of searching and identifying logical-temporal patterns in big data. The purpose of the study is to increase the efficiency of searching and recognizing logical-temporal patterns that semantically form business functionality in an 8-hour frame of screenshots with "garbage" data. Applied methods: apparatus of set theory and Boolean algebra, metric models for determining parameters for sets of binary vectors, elements of probability theory, theory of algorithms, software modeling. The results obtained: a method for searching and recognizing patterns based on a vector problem of character sequences that identify patterns in big data streams using unitary coding of information primitives and data; vector models are unitary-encoded data structures for describing a big data flow as Cartesian products of a set of primitive-string-markers and a discrete sequence of implementation of a given time frame. The practical significance of the work: the implementation of the vector method, which made it possible to create a pattern recognition program in a big data stream with a probability of 0.77%.
Опис
Ключові слова
логіко-часові патерни, бізнес-функціональності, часовий фрейм, пошук та ідентифікація, метрика перетину-об'єднання, верифікація коду, logical-temporal patterns, business functionality, time frame, search and identification, union intersection metric, code verification
Бібліографічний опис
Хаханова Г. В. Векторний метод пошуку послідовностей у великих даних / Г. В. Хаханова // Сучасні інформаційні системи = Advanced Information Systems. – 2022. – Т. 6, № 3. – С. 12-22.