Ben de ordan okudum zaten. Ama makalede diyor ki "training" dynamic routing algoritması ile yapılıyormuş. Algoritmayı anladım, kapsülün çıkış vektörünün bir sonraki katmandaki kapsüllerin giriş vektörlerine olan yakınlığına göre skaler ağırlıklar değişiyor. Ancak her kapsül çıkış vektörünü üretirken giriş vektörlerini ağırlık matrisleriyle çarpıyor (affine transform adımı). Bu matrislerle ilgili bir açıklama var ama bahsedilen özelliklerin bu matrislere nasıl kazandırıldığı yazılmamış.