Show simple item record

Ανάπτυξη μοντέλου απλοποιημένου επιτραπέζιου παιχνιδιού πολλών χρηστών Dominion σε Python και υλοποίηση αλγορίθμου τεχνητής νοημοσύνης αυτο-εκμάθησης ενός τεχνητού παίκτη

dc.contributor.advisorΜετάφας, Δημήτριος
dc.contributor.authorΔουλάμης, Κωνσταντίνος
dc.date.accessioned2024-10-21T10:15:43Z
dc.date.available2024-10-21T10:15:43Z
dc.date.issued2024-10
dc.identifier.urihttps://polynoe.lib.uniwa.gr/xmlui/handle/11400/7836
dc.identifier.urihttp://dx.doi.org/10.26265/polynoe-7668
dc.description.abstractΗ παρούσα διπλωματική εργασία επικεντρώνεται στην ανάπτυξη ενός ψηφιακού παιχνιδιού σε γλώσσα προγραμματισμού Python. Το παιχνίδι χρησιμοποιεί έναν πράκτορα τεχνητής νοημοσύνης (AI Agent) ο οποίος εκπαιδεύεται με αλγόριθμο μη επιβλεπόμενης μάθησης ώστε να παίζει το παιχνίδι με το βέλτιστο τρόπο και να νικά. Σκοπός της εργασίας είναι να αναδείξει τις δυνατότητες και τις εφαρμογές της μη επιβλεπόμενης μάθησης στα ψηφιακά παιχνίδια και να προσφέρει πρακτικά παραδείγματα για την υλοποίηση παρόμοιων έργων. Στο παιχνίδι που αναπτύχθηκε σε Python, οι παίκτες χρησιμοποιούν κάρτες δράσης, θησαυρού και νίκης. Ο πράκτορας AI χρησιμοποιεί τον αλγόριθμο K-means για την κατηγοριοποίηση των καταστάσεων του παιχνιδιού και ενισχυτική μάθηση (Reinforcement Learning) για να βελτιστοποιήσει τις ενέργειές του. Ο κώδικας περιλαμβάνει τη δημιουργία καρτών, τράπουλας και παικτών, καθώς και τις φάσεις του παιχνιδιού: δράση, αγορά, καθαρισμός και συναλλαγή. Ο πράκτορας AI, μέσω του αλγορίθμου DQN, εκπαιδεύεται («μαθαίνει») μέσω επαναληπτικής μνήμης και νευρωνικών δικτύων, χρησιμοποιώντας παραμέτρους όπως το learning rate, discount factor, exploration rateκαι batch size. Ο αλγόριθμος DQN χρησιμοποιεί νευρωνικά δίκτυα για να εκτιμήσει τις Q-τιμές και να βελτιστοποιήσει την απόδοση του πράκτορα AI σε περιβάλλοντα με μεγάλη διάσταση και πολυπλοκότητα. Η μεθοδολογία περιλαμβάνει τη χρήση replay memory και target networks για τη βελτίωση της απόδοσης του πράκτορα, ενώ γίνεται εκτενής αναφορά στις παραμέτρους του αλγορίθμου DQN. Οι φάσεις του παιχνιδιού περιλαμβάνουν την action phase, buy phase, cleanup phase, με στόχο την καλύτερη αξιοποίηση των καρτών από τους παίκτες. Η ανάλυση των επιδόσεων του πράκτορα AI γίνεται μέσω γραφήματος. Η εργασία κλείνει με τα Συμπεράσματα και προτάσεις για περαιτέρω έρευνα.el
dc.format.extent72el
dc.language.isoelel
dc.publisherΠανεπιστήμιο Δυτικής Αττικήςel
dc.rightsΑναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 Διεθνές*
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 Διεθνές*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/*
dc.subjectΨηφιακά παιχνίδιαel
dc.subjectΤεχνητός παίκτηςel
dc.subjectΜη επιβλεπόμενη μάθησηel
dc.subjectPythonel
dc.subjectΤεχνητή νοημοσύνηel
dc.subjectΝευρωνικά δίκτυαel
dc.subjectΕνισχυτική μάθησηel
dc.subjectΜηχανική μάθησηel
dc.titleΑνάπτυξη μοντέλου απλοποιημένου επιτραπέζιου παιχνιδιού πολλών χρηστών Dominion σε Python και υλοποίηση αλγορίθμου τεχνητής νοημοσύνης αυτο-εκμάθησης ενός τεχνητού παίκτηel
dc.title.alternativeDevelopment of a simplified version of the multi-player board-game Dominion in Python and implementation of an unsupervised machine learning algorithm for a player AI agentel
dc.typeΔιπλωματική εργασίαel
dc.contributor.committeeRangoussi, Maria
dc.contributor.committeeKachris, Christoforos
dc.contributor.facultyΣχολή Μηχανικώνel
dc.contributor.departmentΤμήμα Ηλεκτρολόγων και Ηλεκτρονικών Μηχανικώνel
dc.description.abstracttranslatedThis thesis focuses on the development of a digital game in Python programming language. The game uses an AI Agent that is trained with an unsupervised learning algorithm to play the game in an optimal way and maximize the probability to win the game. The aim of the thesis is to highlight the potential and applications of unsupervised learning in games and to provide practical examples for the implementation of similar projects. In the present game, developed in Python, players use action, treasure and victory cards. The AI agent uses the K-means algorithm to categorize game states and employs reinforcement learning to optimize actions and decisions in order to win the game. The code includes card, deck, and player generation, as well as the game phases: action, purchase, cleanup and transaction. The AI agent uses the DQN algorithm to “learn” an optimal behavior, through iterative memory and neural networks, by trimming parameters such as learning rate, discount factor, exploration rate and batch size. The DQN algorithm uses neural networks to estimate Q-values and optimize the agent's performance in environments of high dimensionality and complexity. The methodology includes the use of replay memory and target networks to improve the AI agent performance, while the parameters of the DQN algorithm are extensively discussed. In the aim of making the best use of the cards by the players, the phases of the game include the action phase, buy phase and a cleanup phase. The analysis of the agent's performance is done through a graph. The thesis is completed by the Conclusions and proposed future research directions.el


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record

Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 Διεθνές
Except where otherwise noted, this item's license is described as
Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 Διεθνές