Карты Кохонена на примере результатов ATC 2007В ходе Чемпионата Automated Trading Championship мы получаем огромные объемы данных. Существуют различные методы их удобного и наглядного представления. Мы постоянно изучаем новые способы и пытаемся знакомить с ними читателей. В этой статье мы попробовали представить данные соревнования с помощью самоорганизующихся карт Кохонена. Самоорганизующиеся карты являются удобным инструментом визуального представления больших объемов данных в разрезе той или иной характеристики. Задача по обработке значительного количества записей, каждая из которых содержит множество числовых параметров, - это именно та задача, с которой хорошо справляются самоорганизующиеся карты (СОК). Метод СОК впервые был предложен Тейво Кохоненом, первым президентом Европейского Нейросетевого Общества. Сама идея была подсмотрена у природы: СОК основаны на тех же принципах самоорганизации, что лежат в основе деятельности головного мозга. Карты Кохонена представляют собой пластическую обучающуюся поверхность, формирующую двумерный портрет сложных многомерных данных. Принцип их работы мы решили объяснить на основе результатов Чемпионата по автоматическому трейдингу Automated Trading Championship 2007. Когда нужна СОКСуществует несколько традиционных методов обобщения наборов данных. Например, поиск наименьшего и наибольшего значения, распределение данных по квартилям. Простые методы очень полезны при обобщении наборов данных небольшой размерности. Обобщать и визуализировать данные большей размерности значительно труднее. Каждому Участнику Чемпионата ATC 2007 можно сопоставить ряд характеристик: полученная прибыль, количество сделок, число торгуемых инструментов, максимальная просадка и т.д. Все эти параметры соответствуют некоторому набору статистических показателей. Такой набор показателей может быть выражен вектором, что означает просто упорядоченный ряд числовых величин. Вектор данных представляет собой точку в n-мерном пространстве. Если каждому Участнику сопоставлены две числовые характеристики (2-мерное пространство), то мы можем нанести каждого Участника на плоскость, где ось X будет представлять первую характеристику, а ось Y – вторую. Например, в статье «ATC 2006 и АТС 2007: Кривая нулевой доходности» мы вычислили для каждого Участника два параметра:
После нанесения всех Участников мы получили хорошо понимаемую картину распределения. ![]() Рис. 1. Распределение участников ATC 2007 на графике нулевой доходности. Здесь хорошо видно наличие двух зон, или кластеров. Одна зона объединила множество убыточных советников, вторая зона содержит небольшое число прибыльных советников. В основе представленного разделения советников лежит некоторая идея, выдвинутая еще до обработки результатов торговли этих Участников. Сама идея описана в статье Михаила Королюка «Будь в фазе». Но что будет, если мы попытаемся обработать данные, которые содержат больше двух показателей – 6, 8 или 10? Мы не можем себе представить визуально 10-мерное пространство. Кроме того, связать все 10 показателей через какую-то зависимость также зачастую представляется неразрешимой задачей. Вот для этих целей могут подойти самоорганизующиеся карты Кохонена. В обычных методах визуального представления каждое измерение (показатель) многомерного набора данных влияет на некоторый аспект визуализации, и затем результаты объединяются воедино. Эти методы можно применять для визуального представления разного рода многомерных данных. Главным недостатком большинства методов является то, что они не позволяют сократить количество данных. Сокращение количества данных путем категоризации или группировки сходных элементов называется кластеризацией данных. Что такое СОК?Самоорганизующаяся карта – это нейронная сеть без обратных связей, в которой используется алгоритм обучения без учителя. Без учителя – это значит, что в алгоритм обучения не закладываются правильные ответы, и не делается никаких предположений относительно того, каким образом можно провести кластеризацию. В этом и заключается основное достоинство самоорганизующихся карт. В нейросетевых методиках, предполагающих обучение с учителем, для нахождения образа или соотношения между данными требуется, чтобы один или более выходов были точно заданы вместе с одним или более входами. СОК, напротив, отображает данные большей размерности на карте меньшей размерности. Процесс создания самоорганизующейся карты требует двух слоев нейронов: первый – входной слой, содержащий нейроны для каждого элемента входного вектора, второй – выходной слой, или решетка нейронов, связанных со всеми нейронами входного слоя. ![]() Рис. 2. Каждый образец взаимодействует со всеми нейронами выходного слоя. Проще говоря, процесс самоорганизации можно представить на примере железных иголок. Пусть у нас есть кучка железных иголок, которые мы просыпали на поверхность, покрытую толстым слоем воска. Упавшие иголки воткнулись в воск самым случайным образом и не образуют никакой выраженной структуры. Если теперь мы поднесем достаточно сильный магнит над некоторым местом нашей ощетинившейся поверхности, то все иголки придут в движение и вытянутся по направлению к магниту. После того как мы уберем магнит, иголки так и останутся в новом зафиксированном положении и покажут нам силовые поля, созданные магнитом. В данном примере, каждая иголка соответствует одному весовому коэффициенту выходного нейрона для некоторого показателя. Если каждый образец имеет по три показателя (например, Trades, Profit и Drawdown), то каждый выходной нейрон имел бы по три таких иголки. И каждая иголка отзывалась бы только на свой магнит. Тогда мы могли бы увидеть границы «силовых» полей для каждого показателя, при этом для каждого показателя может существовать свой эпицентр усиления. Таким образом, появляются области, в которых нейроны наиболее сильно отзываются на определенные показатели. Силу этой «отзывчивости» обычно отмечают цветом, и если такие области хорошо различаются между собой, то говорят, что предъявляемые данные поддаются кластеризации или классификации. Примерно таким же образом производится и обучение самоорганизующейся карты. Нейронной сети последовательно предъявляются образцы данных, и среди нейронов находится тот, который наиболее точно соответствует предъявленному образцу. То есть ищется нейрон-победитель, который наиболее созвучен образцу. При этом нейрон-победитель содержит некоторую ошибку рассогласования с предъявленным образцом и поэтому подвергается небольшой дополнительной настройке. Кроме него, настройке подвергаются и некоторые его ближайшие соседи. После того как были предъявлены все образцы (иногда это приходится делать повторными циклами), все нейроны оказываются организованными определенным образом и создают некоторые области по определенным показателям. Процесс самоорганизации на этом считается законченным. Анализ результатов Чемпионата АТС 2007Мы решили проанализировать результаты предыдущего Чемпионата Automated Trading Championship 2007. Из 603 стартовавших Участников были отобраны результаты 559 Участников, дошедших до финиша. Из всего многообразия статистических параметров, которые рассчитывались для каждого Участника, в качестве показателей были выбраны только восемь:
Таким образом, результаты Участников рассматриваются в 8-мерном пространстве, по числу анализируемых показателей. Была выбрана модель с 50 выходными нейронами, которая в результате обучения дала распределение по четырем основным кластерам. ![]() Рис. 3. Результат кластеризации результатов Участников АТС-2007. Для получения самоорганизующейся карты использовалась программа Viscovery SOMine. На рисунке хорошо видны четыре кластера, на которые были поделены предоставленные программе данные. Итак, что же они означают? Первый кластерЭтот кластер отображает показатели Symbols и Trades. ![]() Рис. 4. Карты распределения Symbols и Trades. Цветом показано усиление показателя, минимальное значение соответствует синему цвету, максимальное – красному цвету. Мы видим, что левый верхний угол «собрал» советники, которые торговали на большом числе валютных пар (больше, чем на одной валютной паре) и при этом совершили большое количество сделок (более 60 сделок). Таким образом, в данный кластер вошли наиболее «активные» эксперты. Второй кластерДля понимания свойств этого кластера, который расположился в правом верхнем углу, рассмотрим карту для показателей Expected PayOff, DrawDown% и Profit. ![]() Рис. 5. Карты распределения Expected PayOFF, DrawDown% и Profit. Мы видим, что этот кластер характеризуется высоким матожиданием, малой относительной просадкой и большой прибылью. Можно сказать, что в этот кластер вошли успешные советники. Первый вывод, который можно сделать: кластер активных и кластер прибыльных советников не пересекаются. Если Ваш советник совершает очень много сделок или торгует больше чем на одной валютной паре, то вряд ли он окажется в числе самых прибыльных. Но это нельзя понимать буквально, это только тенденция. Победитель последнего Чемпионата Better совершил более 400 сделок, но это не помешало ему победить. Третий кластерТеперь рассмотрим третий кластер, который расположился в правом нижнем углу. ![]() Рис. 6. Карты распределения Win%, RF и AvgWin/AvgLoss. Как можно видеть на карте распределения показателя Win%, в этот кластер вошли советники, которые имели самый низкий процент выигрышных сделок. Именно поэтому третий кластер не пересекается со вторым кластером, который отвечает за прибыльные советники. Мы видим, что распределение показателя RF указывает на то, что в третий кластер вошли советники, которые имеют хороший фактор восстановления (отношение прибыли к максимальной денежной просадке). Значит, советники из прибыльного кластера не могут похвастаться малой просадкой, и мы опять получили подтверждение многократно сделанного в Отчетах Чемпионатов 2006 и 2007 годов вывода: невозможно получить значительную прибыль без принятия повышенных рисков в торговле. Отсюда, как следствие, – повышенная просадка. Этот кластер отображает советники, которые имеют высокое отношение среднего выигрыша к среднему проигрышу – AvgWin/AvgLoss (соты зеленого, желтого и красного цвета). Но одного только этого свойства недостаточно для того, чтобы стратегия была прибыльной, и это подтверждает распределение процента выигрышных сделок. Кроме того, сочетание хорошего отношения среднего выигрыша к среднему проигрышу (AvgWin/AvgLoss) и малого процента прибыльных сделок может говорить о том, что редкие выигрыши давали хорошую прибыль, которую отбирали частые проигрыши малого размера. Четвертый кластерОсталось рассмотреть последний, четвертый кластер, который расположился в левом нижнем углу. Можно сказать, что это кластер экспертов-неудачников. ![]() Рис. 7. Карты распределения Drawdown%, Trades и ExpectedPayOff. В этом кластере сосредоточены советники с наиболее высокими в процентном соотношении просадками, совершившие наименьшее количество сделок и имеющие самый плохой показатель математического ожидания (средней прибыли на сделку). Как ни странно, но четвертый кластер не пересекается с первым кластером, в котором находятся самые активные советники с наибольшим количеством сделок. Тем более, этот кластер не пересекается со вторым кластером, в который вошли прибыльные советники. На этом знакомство с самоорганизующимися картами можно считать законченным. Выводы
Рекомендуемая литература:Гвидо Дебок. Тейво Кохонен, Анализ финансовых данных с помощью самоорганизующихся карт.Станислав Осовский, Нейронные сети для обработки информации. Создана: 12.09.2008 Автор: Rosh
Авторизуйтесь или зарегистрируйтесь, чтобы добавить комментарий
Пока говорить о конкретной реализации того или иного дополнительного функционала рано. Но в любом будет сделано максимально для того, чтобы можно было реализовать самые сложные вычисления или использовать новые виды анализа.
23.09.2008 11:25
Случайно нет ли в планах встроить подобный инструмент анализа в тестер МТ5 ? |
|













Пока говорить о конкретной реализации того или иного дополнительного функционала рано. Но в любом будет сделано максимально для того, чтобы можно было реализовать самые сложные вычисления или использовать новые виды анализа.
Ждем в предвкушении попробовать все эти "вкусности" :-)