🔗 Link
https://github.com/LeeTaeHoon97/-DeepReinforcementLearningWithPytorch
요약
케라스로 작성된 알파제로 모델 파이토치 마이그레이션
connect 4
model layers
loss graph
result
학습초기
약 40시간 학습 뒤
중앙을 먼저 선점하는쪽이 유리하다는것이 학습됨.
연습경기
player1 = 초기버전 , player2 = 최신버전