Рассмотрена задача оптимизации управляемых марковских цепей с доходами в случае, если отсутствует информация о переходной матрице. Предложены адаптивные алгоритмы оптимизации, не требующие восстановления всего набора переходных матриц и использующие лишь реализации последовательностей состояний и доходов.