Applying reinforcement learning algorithms for profitable strategies in a stock market simulator

Σταυροθανάσης, Θεόδωρος

Εφαρμογή αλγορίθμων ενισχυτικής μάθησης στην εξομοίωση κερδοφόρων χρηματιστηριακών στρατηγικών

Μεταπτυχιακή διπλωματική εργασία

Author

Σταυροθανάσης, Θεόδωρος

Date

2023-10-13

Advisor

Kasnesis, Panagiotis

ΜΔΕ (3.321Mb)

Keywords

Betting system ; Policy based ; Q-learning ; Decision making ; Trading game ; Random process modeling ; Σύστημα στοιχηματισμού ; Παιχνίδι συναλλαγών ; Μοντελοποίηση στοχαστικής διαδικασίας ; Reinforcement learning ; Algorithms

Abstract

Financial time series present unique characteristics that an investor, analyst or algorithmic trader has to take always into account. One of the defining features is their inherent volatility and non-linearity. Unlike many other forms of data financial markets are influenced by economic indicators, geopolitical events and investor sentiment. These factors can cause sudden and unpredictable price movements resulting in extreme volatility and this violates the assumption of linearity, making traditional statistical methods less effective. They also exhibit auto-correlation where the value of a variable at one time point is correlated with its value at a previous point. This auto-correlation can persist over multiple time lags, leading to trends in the data. Identifying and modeling these trends is crucial for making informed investment decisions. They also suffer from "fat-tailed" distributions which mean there are frequent market crashes and price swings that could not be expected in a normal distribution. Financial time series are often non-stationary, with statistical properties like mean, standard deviation, skewness, kurtosis changing over different periods. Financial markets are not only influenced by macroeconomic factors but also by their own microstructure, which includes factors like bid-ask spreads, trading volumes, and market orders. Understanding and modeling market microstructure is crucial for accurately capturing its dynamics. The main problem in financial markets is how to make profitable investment strategies with the lower risk that maximize returns. In this thesis we examine the use of Reinforcement Learning as a tool of decision making which can lead us to strategies with better performance than buy and hold the underlying asset. We create ten out-of-sample synthetic time series based on standard normal distribution and simulate a trading game where we evaluate the effectiveness of major two RL algorithms Q-learning and REINFORCE. Our trading simulations demonstrated that the performance of reinforcement learning algorithms, Q-learning and REINFORCE can be influenced by the stochastic nature of underlying data. REINFORCE showed an advantage in terms of P/L (profit or loss) for most seeds, while Q-learning displayed greater consistency in risk-adjusted returns. The unexpected success of a buy-and-hold strategy for specific seeds underscores the importance of considering diverse approaches in trading scenarios. These findings emphasize the dynamic nature of algorithmic trading, where the choice of the optimal strategy depends on the specific characteristics of the underlying data. Finally the construction of a portfolio of the ten single equity curves showed acceptable performance while minimizing the risk. The results seemed quite promising.

Abstract

Οι χρηματιστηριακές χρονοσειρές έχουν την ιδιεταιρότητα να παρουσιάζουν κάποια μοναδικά χαρακτηριστικά που πρέπει να λαμβάνει υπόψη ένας επενδυτής, αναλυτής ή αλγόριθμος επενδύσεων όπως η μεταβλητότητα και η μη γραμμικότητά τους. Σε αντίθεση με άλλες μορφές δεδομένων, οι χρηματιστηριακές αγορές επηρεάζονται από οικονομικούς δείκτες, γεωπολιτικά γεγονότα και το συναίσθημα των επενδυτών. Αυτοί οι παράγοντες μπορούν να προκαλέσουν ξαφνικές και απρόβλεπτες κινήσεις των τιμών με αποτέλεσμα την ακραία αστάθεια παραβιάζοντας την υπόθεση της γραμμικότητας και καθιστώντας λιγότερο αποτελεσματικές τις παραδοσιακές στατιστικές μεθόδους. Παρουσιάζουν επίσης αυτοσυσχέτιση όπου η τιμή μιας μεταβλητής σε ένα χρονικό σημείο συσχετίζεται με την τιμή της σε ένα προηγούμενο σημείο. Η αυτοσυσχέτιση αυτή μπορεί να παραμείνει για πολλά χρονικά σημεία, δημιουργώντας τάσεις στα δεδομένα. Ο εντοπισμός και η μοντελοποίηση αυτών των τάσεων είναι ζωτικής σημασίας για τη λήψη τεκμηριωμένων επενδυτικών αποφάσεων. Οι κατανομές τους παρουσιάζουν το πρόβλημα της υπερυψωμένης ουράς λόγω των συχνών απότομων βυθισμάτων και διακυμάνσεων των αγορών κάτι που δεν βλέπουμε σε μια κανονική κατανομή. Τις περισσότερες φορές ειναι non-stationary, με στατιστικές ιδιότητες όπως η μέση τιμή, η τυπική απόκλιση, η λοξότητα και η κύρτωση να αλλάζουν σε διάφορες περιόδους. Ενα ακόμη χαρακτηριστικό τους αποτελεί η μικροδομή τους, η οποία περιλαμβάνει παράγοντες όπως τα spreads προσφοράς-ζήτησης αλλά και οι όγκοι των συναλλαγών. Η κατανόηση και η μοντελοποίηση αυτής της μικροδομής είναι ζωτικής σημασίας για την ακριβή αποτύπωση της δυναμικής της. Το κύριο πρόβλημα στις χρηματιστηριακές αγορές είναι πώς να δημιουργηθούν κερδοφόρες επενδυτικές στρατηγικές με το χαμηλότερο ρίσκο και τη υψηλότερη απόδοση. Σε αυτή τη διατριβή εξετάζουμε τη χρήση της Ενισχυτικής Μάθησης ως εργαλείου λήψης αποφάσεων που μπορεί να μας οδηγήσει σε στρατηγικές υψηλότερης απόδοσης από ότι θα μας έδινε μια τυπική αγορά και διακράτηση του υποκείμενου εργαλείου. Δημιουργούμε δέκα συνθετικές χρονοσειρές με βάση την τυπική κανονική κατανομή και προσομοιώνουμε ένα παιχνίδι συναλλαγών όπου αξιολογούμε την αποτελεσματικότητα των δύο κύριων αλγορίθμων RL Q-learning και REINFORCE. Οι προσομοιώσεις συναλλαγών μας έδειξαν ότι η απόδοση των αλγορίθμων ενισχυτικής μάθησης Q-learning και REINFORCE μπορούν να επηρεαστεί από τη στοχαστική φύση των υποκείμενων δεδομένων. Ο REINFORCE έδειξε ότι πλεονεκτεί όσον αφορά το P/L (κέρδος ή ζημιά) για τις περισσότερες εξομοιώσεις, ο Q-learning εμφάνισε μεγαλύτερη ακρίβεια στις προσαρμοσμένες στον κίνδυνο αποδόσεις. Η απροσδόκητη επιτυχία της στρατηγικής “buy and hold” για συγκεκριμένες εξομοιώσεις υπογραμμίζει τη σημασία της εξέτασης διαφορετικών προσεγγίσεων. Αυτά τα ευρήματα δείχνουν τη δυναμική φύση των αλγοριθμικών συναλλαγών, όπου η επιλογή της βέλτιστης στρατηγικής εξαρτάται από τα ειδικά χαρακτηριστικά των υποκείμενων δεδομένων. Τέλος, η κατασκευή ενός χαρτοφυλακίου συνδυάζοντας τις δέκα μεμονωμένες εξομοιώσεις έδειξε αποδεκτές επιδόσεις ελαχιστοποιώντας τον κίνδυνο. Τα αποτελέσματα εμφανίζονται αρκετά ικανοποιητικά.