🔗 Link


https://github.com/LeeTaeHoon97/-DeepReinforcementLearningWithPytorch

요약


connect 4

model layers

loss graph

result

학습초기

약 40시간 학습 뒤

중앙을 먼저 선점하는쪽이 유리하다는것이 학습됨.

연습경기

player1 = 초기버전 , player2 = 최신버전