|
inline |
Last part of a transpose-transpose-gemm-transpose CUDA tensor contraction.
Contracts the two supplied tensors and transposes the result if necessary.
References syten::CudaDenseTensorImpl::CudaDenseTensor< rank, Scalar >::begin(), syten::Cuda::CudaDynArray< Type >::begin(), cuda_mm_cm(), syten::CudaDenseTensorImpl::CudaDenseTensor< rank, Scalar >::dim(), syten::CudaDenseTensorImpl::CudaDenseTensor< rank, Scalar >::get_data(), syten::CudaDenseTensorImpl::CudaDenseTensor< rank, Scalar >::get_device(), syten::CudaDenseTensorImpl::CudaDenseTensor< rank, Scalar >::getDims(), syten::LimVec< Type, max, MaxType, type >::push_back(), and syten::CudaDenseTensorImpl::CudaDenseTensor< rank, Scalar >::size().