diff --git a/master/eigensolver_2reduction__to__band_2impl_8h_source.html b/master/eigensolver_2reduction__to__band_2impl_8h_source.html
index 6ae066a03f..8a2fa30187 100644
--- a/master/eigensolver_2reduction__to__band_2impl_8h_source.html
+++ b/master/eigensolver_2reduction__to__band_2impl_8h_source.html
@@ -394,1161 +394,1170 @@
 <div class="line"><a id="l00311" name="l00311"></a><span class="lineno">  311</span>    panel_tiles.emplace_back(matrix::splitTile(mat_a.readwrite(i), spec));</div>
 <div class="line"><a id="l00312" name="l00312"></a><span class="lineno">  312</span>  }</div>
 <div class="line"><a id="l00313" name="l00313"></a><span class="lineno">  313</span> </div>
-<div class="line"><a id="l00314" name="l00314"></a><span class="lineno">  314</span>  <span class="keyword">const</span> std::size_t nthreads = getReductionToBandPanelNWorkers();</div>
-<div class="line"><a id="l00315" name="l00315"></a><span class="lineno">  315</span>  <span class="keyword">auto</span> s =</div>
-<div class="line"><a id="l00316" name="l00316"></a><span class="lineno">  316</span>      ex::when_all(ex::just(std::make_unique&lt;pika::barrier&lt;&gt;&gt;(nthreads),</div>
-<div class="line"><a id="l00317" name="l00317"></a><span class="lineno">  317</span>                            std::vector&lt;common::internal::vector&lt;T&gt;&gt;{}),  <span class="comment">// w (internally required)</span></div>
-<div class="line"><a id="l00318" name="l00318"></a><span class="lineno">  318</span>                   mat_taus.readwrite(LocalTileIndex(j_sub, 0)),</div>
-<div class="line"><a id="l00319" name="l00319"></a><span class="lineno">  319</span>                   ex::when_all_vector(std::move(panel_tiles))) |</div>
-<div class="line"><a id="l00320" name="l00320"></a><span class="lineno">  320</span>      di::continues_on(di::getBackendScheduler&lt;Backend::MC&gt;(thread_priority::high)) |</div>
-<div class="line"><a id="l00321" name="l00321"></a><span class="lineno">  321</span>      ex::bulk(nthreads, [nthreads, cols = panel_view.cols()](<span class="keyword">const</span> std::size_t index, <span class="keyword">auto</span>&amp; barrier_ptr,</div>
-<div class="line"><a id="l00322" name="l00322"></a><span class="lineno">  322</span>                                                              <span class="keyword">auto</span>&amp; w, <span class="keyword">auto</span>&amp; taus, <span class="keyword">auto</span>&amp; tiles) {</div>
-<div class="line"><a id="l00323" name="l00323"></a><span class="lineno">  323</span>        const auto barrier_busy_wait = getReductionToBandBarrierBusyWait();</div>
-<div class="line"><a id="l00324" name="l00324"></a><span class="lineno">  324</span>        const std::size_t batch_size = util::ceilDiv(tiles.size(), nthreads);</div>
-<div class="line"><a id="l00325" name="l00325"></a><span class="lineno">  325</span>        const std::size_t begin = index * batch_size;</div>
-<div class="line"><a id="l00326" name="l00326"></a><span class="lineno">  326</span>        const std::size_t end = std::min(index * batch_size + batch_size, tiles.size());</div>
-<div class="line"><a id="l00327" name="l00327"></a><span class="lineno">  327</span>        const SizeType nrefls = taus.size().rows();</div>
-<div class="line"><a id="l00328" name="l00328"></a><span class="lineno">  328</span> </div>
-<div class="line"><a id="l00329" name="l00329"></a><span class="lineno">  329</span>        if (index == 0) {</div>
-<div class="line"><a id="l00330" name="l00330"></a><span class="lineno">  330</span>          w.resize(nthreads);</div>
-<div class="line"><a id="l00331" name="l00331"></a><span class="lineno">  331</span>        }</div>
-<div class="line"><a id="l00332" name="l00332"></a><span class="lineno">  332</span> </div>
-<div class="line"><a id="l00333" name="l00333"></a><span class="lineno">  333</span>        for (SizeType j = 0; j &lt; nrefls; ++j) {</div>
-<div class="line"><a id="l00334" name="l00334"></a><span class="lineno">  334</span>          <span class="comment">// STEP1: compute tau and reflector (single-thread)</span></div>
-<div class="line"><a id="l00335" name="l00335"></a><span class="lineno">  335</span>          <span class="keywordflow">if</span> (index == 0) {</div>
-<div class="line"><a id="l00336" name="l00336"></a><span class="lineno">  336</span>            taus({j, 0}) = computeReflector(tiles, j);</div>
-<div class="line"><a id="l00337" name="l00337"></a><span class="lineno">  337</span>          }</div>
-<div class="line"><a id="l00338" name="l00338"></a><span class="lineno">  338</span> </div>
-<div class="line"><a id="l00339" name="l00339"></a><span class="lineno">  339</span>          barrier_ptr-&gt;arrive_and_wait(barrier_busy_wait);</div>
-<div class="line"><a id="l00340" name="l00340"></a><span class="lineno">  340</span> </div>
-<div class="line"><a id="l00341" name="l00341"></a><span class="lineno">  341</span>          <span class="comment">// STEP2a: compute w (multi-threaded)</span></div>
-<div class="line"><a id="l00342" name="l00342"></a><span class="lineno">  342</span>          <span class="keyword">const</span> SizeType pt_cols = cols - (j + 1);</div>
-<div class="line"><a id="l00343" name="l00343"></a><span class="lineno">  343</span>          <span class="keywordflow">if</span> (pt_cols == 0)</div>
-<div class="line"><a id="l00344" name="l00344"></a><span class="lineno">  344</span>            <span class="keywordflow">break</span>;</div>
-<div class="line"><a id="l00345" name="l00345"></a><span class="lineno">  345</span>          <span class="keyword">const</span> <span class="keywordtype">bool</span> has_head = (index == 0);</div>
-<div class="line"><a id="l00346" name="l00346"></a><span class="lineno">  346</span> </div>
-<div class="line"><a id="l00347" name="l00347"></a><span class="lineno">  347</span>          w[index] = common::internal::vector&lt;T&gt;(pt_cols, 0);</div>
-<div class="line"><a id="l00348" name="l00348"></a><span class="lineno">  348</span>          computeWTrailingPanel(has_head, tiles, w[index], j, pt_cols, begin, end);</div>
-<div class="line"><a id="l00349" name="l00349"></a><span class="lineno">  349</span>          barrier_ptr-&gt;arrive_and_wait(barrier_busy_wait);</div>
-<div class="line"><a id="l00350" name="l00350"></a><span class="lineno">  350</span> </div>
-<div class="line"><a id="l00351" name="l00351"></a><span class="lineno">  351</span>          <span class="comment">// STEP2b: reduce w results (single-threaded)</span></div>
-<div class="line"><a id="l00352" name="l00352"></a><span class="lineno">  352</span>          <span class="keywordflow">if</span> (index == 0)</div>
-<div class="line"><a id="l00353" name="l00353"></a><span class="lineno">  353</span>            dlaf::eigensolver::internal::reduceColumnVectors(w);</div>
+<div class="line"><a id="l00314" name="l00314"></a><span class="lineno">  314</span>  <span class="keyword">const</span> std::size_t nworkers = [nrtiles = panel_tiles.size()]() {</div>
+<div class="line"><a id="l00315" name="l00315"></a><span class="lineno">  315</span>    <span class="keyword">const</span> std::size_t min_workers = 1;</div>
+<div class="line"><a id="l00316" name="l00316"></a><span class="lineno">  316</span>    <span class="keyword">const</span> std::size_t available_workers = get_red2band_panel_nworkers();</div>
+<div class="line"><a id="l00317" name="l00317"></a><span class="lineno">  317</span>    <span class="keyword">const</span> std::size_t ideal_workers = <a class="code hl_function" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(nrtiles);</div>
+<div class="line"><a id="l00318" name="l00318"></a><span class="lineno">  318</span>    <span class="keywordflow">return</span> std::clamp(ideal_workers, min_workers, available_workers);</div>
+<div class="line"><a id="l00319" name="l00319"></a><span class="lineno">  319</span>  }();</div>
+<div class="line"><a id="l00320" name="l00320"></a><span class="lineno">  320</span>  ex::start_detached(</div>
+<div class="line"><a id="l00321" name="l00321"></a><span class="lineno">  321</span>      ex::when_all(ex::just(std::make_unique&lt;pika::barrier&lt;&gt;&gt;(nworkers),</div>
+<div class="line"><a id="l00322" name="l00322"></a><span class="lineno">  322</span>                            std::vector&lt;common::internal::vector&lt;T&gt;&gt;{}),  <span class="comment">// w (internally required)</span></div>
+<div class="line"><a id="l00323" name="l00323"></a><span class="lineno">  323</span>                   mat_taus.readwrite(LocalTileIndex(j_sub, 0)),</div>
+<div class="line"><a id="l00324" name="l00324"></a><span class="lineno">  324</span>                   ex::when_all_vector(std::move(panel_tiles))) |</div>
+<div class="line"><a id="l00325" name="l00325"></a><span class="lineno">  325</span>      di::continues_on(di::getBackendScheduler&lt;Backend::MC&gt;(thread_priority::high)) |</div>
+<div class="line"><a id="l00326" name="l00326"></a><span class="lineno">  326</span>      ex::bulk(nworkers, [nworkers, cols = panel_view.cols()](<span class="keyword">const</span> std::size_t index, <span class="keyword">auto</span>&amp; barrier_ptr,</div>
+<div class="line"><a id="l00327" name="l00327"></a><span class="lineno">  327</span>                                                              <span class="keyword">auto</span>&amp; w, <span class="keyword">auto</span>&amp; taus, <span class="keyword">auto</span>&amp; tiles) {</div>
+<div class="line"><a id="l00328" name="l00328"></a><span class="lineno">  328</span>        const auto barrier_busy_wait = getReductionToBandBarrierBusyWait();</div>
+<div class="line"><a id="l00329" name="l00329"></a><span class="lineno">  329</span>        const std::size_t batch_size = util::ceilDiv(tiles.size(), nworkers);</div>
+<div class="line"><a id="l00330" name="l00330"></a><span class="lineno">  330</span>        const std::size_t begin = index * batch_size;</div>
+<div class="line"><a id="l00331" name="l00331"></a><span class="lineno">  331</span>        const std::size_t end = std::min(index * batch_size + batch_size, tiles.size());</div>
+<div class="line"><a id="l00332" name="l00332"></a><span class="lineno">  332</span>        const SizeType nrefls = taus.size().rows();</div>
+<div class="line"><a id="l00333" name="l00333"></a><span class="lineno">  333</span> </div>
+<div class="line"><a id="l00334" name="l00334"></a><span class="lineno">  334</span>        if (index == 0) {</div>
+<div class="line"><a id="l00335" name="l00335"></a><span class="lineno">  335</span>          w.resize(nworkers);</div>
+<div class="line"><a id="l00336" name="l00336"></a><span class="lineno">  336</span>        }</div>
+<div class="line"><a id="l00337" name="l00337"></a><span class="lineno">  337</span> </div>
+<div class="line"><a id="l00338" name="l00338"></a><span class="lineno">  338</span>        for (SizeType j = 0; j &lt; nrefls; ++j) {</div>
+<div class="line"><a id="l00339" name="l00339"></a><span class="lineno">  339</span>          <span class="comment">// STEP1: compute tau and reflector (single-thread)</span></div>
+<div class="line"><a id="l00340" name="l00340"></a><span class="lineno">  340</span>          <span class="keywordflow">if</span> (index == 0) {</div>
+<div class="line"><a id="l00341" name="l00341"></a><span class="lineno">  341</span>            taus({j, 0}) = computeReflector(tiles, j);</div>
+<div class="line"><a id="l00342" name="l00342"></a><span class="lineno">  342</span>          }</div>
+<div class="line"><a id="l00343" name="l00343"></a><span class="lineno">  343</span> </div>
+<div class="line"><a id="l00344" name="l00344"></a><span class="lineno">  344</span>          barrier_ptr-&gt;arrive_and_wait(barrier_busy_wait);</div>
+<div class="line"><a id="l00345" name="l00345"></a><span class="lineno">  345</span> </div>
+<div class="line"><a id="l00346" name="l00346"></a><span class="lineno">  346</span>          <span class="comment">// STEP2a: compute w (multi-threaded)</span></div>
+<div class="line"><a id="l00347" name="l00347"></a><span class="lineno">  347</span>          <span class="keyword">const</span> SizeType pt_cols = cols - (j + 1);</div>
+<div class="line"><a id="l00348" name="l00348"></a><span class="lineno">  348</span>          <span class="keywordflow">if</span> (pt_cols == 0)</div>
+<div class="line"><a id="l00349" name="l00349"></a><span class="lineno">  349</span>            <span class="keywordflow">break</span>;</div>
+<div class="line"><a id="l00350" name="l00350"></a><span class="lineno">  350</span>          <span class="keyword">const</span> <span class="keywordtype">bool</span> has_head = (index == 0);</div>
+<div class="line"><a id="l00351" name="l00351"></a><span class="lineno">  351</span> </div>
+<div class="line"><a id="l00352" name="l00352"></a><span class="lineno">  352</span>          w[index] = common::internal::vector&lt;T&gt;(pt_cols, 0);</div>
+<div class="line"><a id="l00353" name="l00353"></a><span class="lineno">  353</span>          computeWTrailingPanel(has_head, tiles, w[index], j, pt_cols, begin, end);</div>
 <div class="line"><a id="l00354" name="l00354"></a><span class="lineno">  354</span>          barrier_ptr-&gt;arrive_and_wait(barrier_busy_wait);</div>
 <div class="line"><a id="l00355" name="l00355"></a><span class="lineno">  355</span> </div>
-<div class="line"><a id="l00356" name="l00356"></a><span class="lineno">  356</span>          <span class="comment">// STEP3: update trailing panel (multi-threaded)</span></div>
-<div class="line"><a id="l00357" name="l00357"></a><span class="lineno">  357</span>          updateTrailingPanel(has_head, tiles, j, w[0], taus({j, 0}), begin, end);</div>
-<div class="line"><a id="l00358" name="l00358"></a><span class="lineno">  358</span>          barrier_ptr-&gt;arrive_and_wait(barrier_busy_wait);</div>
-<div class="line"><a id="l00359" name="l00359"></a><span class="lineno">  359</span>        }</div>
-<div class="line"><a id="l00360" name="l00360"></a><span class="lineno">  360</span>      });</div>
-<div class="line"><a id="l00361" name="l00361"></a><span class="lineno">  361</span>  ex::start_detached(std::move(s));</div>
-<div class="line"><a id="l00362" name="l00362"></a><span class="lineno">  362</span>}</div>
-<div class="line"><a id="l00363" name="l00363"></a><span class="lineno">  363</span> </div>
-<div class="line"><a id="l00364" name="l00364"></a><span class="lineno">  364</span><span class="keyword">template</span> &lt;Backend B, Device D, <span class="keyword">class</span> T&gt;</div>
-<div class="line"><a id="l00365" name="l00365"></a><span class="lineno">  365</span><span class="keywordtype">void</span> setupReflectorPanelV(<span class="keywordtype">bool</span> has_head, <span class="keyword">const</span> matrix::SubPanelView&amp; panel_view, <span class="keyword">const</span> SizeType nrefls,</div>
-<div class="line"><a id="l00366" name="l00366"></a><span class="lineno">  366</span>                          matrix::Panel&lt;Coord::Col, T, D&gt;&amp; v, matrix::Matrix&lt;const T, D&gt;&amp; mat_a,</div>
-<div class="line"><a id="l00367" name="l00367"></a><span class="lineno">  367</span>                          <span class="keywordtype">bool</span> force_copy = <span class="keyword">false</span>) {</div>
-<div class="line"><a id="l00368" name="l00368"></a><span class="lineno">  368</span>  <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
-<div class="line"><a id="l00369" name="l00369"></a><span class="lineno">  369</span> </div>
-<div class="line"><a id="l00370" name="l00370"></a><span class="lineno">  370</span>  <span class="keyword">using </span>pika::execution::thread_priority;</div>
-<div class="line"><a id="l00371" name="l00371"></a><span class="lineno">  371</span>  <span class="keyword">using </span>pika::execution::thread_stacksize;</div>
-<div class="line"><a id="l00372" name="l00372"></a><span class="lineno">  372</span> </div>
-<div class="line"><a id="l00373" name="l00373"></a><span class="lineno">  373</span>  <span class="comment">// Note:</span></div>
-<div class="line"><a id="l00374" name="l00374"></a><span class="lineno">  374</span>  <span class="comment">// Reflectors are stored in the lower triangular part of the A matrix leading to sharing memory</span></div>
-<div class="line"><a id="l00375" name="l00375"></a><span class="lineno">  375</span>  <span class="comment">// between reflectors and results, which are in the upper triangular part. The problem exists only</span></div>
-<div class="line"><a id="l00376" name="l00376"></a><span class="lineno">  376</span>  <span class="comment">// for the first tile (of the V, i.e. band excluded). Since refelectors will be used in next</span></div>
-<div class="line"><a id="l00377" name="l00377"></a><span class="lineno">  377</span>  <span class="comment">// computations, they should be well-formed, i.e. a unit lower trapezoidal matrix. For this reason,</span></div>
-<div class="line"><a id="l00378" name="l00378"></a><span class="lineno">  378</span>  <span class="comment">// a support tile is used, where just the reflectors values are copied, the diagonal is set to 1</span></div>
-<div class="line"><a id="l00379" name="l00379"></a><span class="lineno">  379</span>  <span class="comment">// and the rest is zeroed out.</span></div>
-<div class="line"><a id="l00380" name="l00380"></a><span class="lineno">  380</span>  <span class="keyword">auto</span> it_begin = panel_view.iteratorLocal().begin();</div>
-<div class="line"><a id="l00381" name="l00381"></a><span class="lineno">  381</span>  <span class="keyword">auto</span> it_end = panel_view.iteratorLocal().end();</div>
-<div class="line"><a id="l00382" name="l00382"></a><span class="lineno">  382</span> </div>
-<div class="line"><a id="l00383" name="l00383"></a><span class="lineno">  383</span>  <span class="keywordflow">if</span> (has_head) {</div>
-<div class="line"><a id="l00384" name="l00384"></a><span class="lineno">  384</span>    <span class="keyword">const</span> LocalTileIndex i = *it_begin;</div>
-<div class="line"><a id="l00385" name="l00385"></a><span class="lineno">  385</span>    matrix::SubTileSpec spec = panel_view(i);</div>
+<div class="line"><a id="l00356" name="l00356"></a><span class="lineno">  356</span>          <span class="comment">// STEP2b: reduce w results (single-threaded)</span></div>
+<div class="line"><a id="l00357" name="l00357"></a><span class="lineno">  357</span>          <span class="keywordflow">if</span> (index == 0)</div>
+<div class="line"><a id="l00358" name="l00358"></a><span class="lineno">  358</span>            dlaf::eigensolver::internal::reduceColumnVectors(w);</div>
+<div class="line"><a id="l00359" name="l00359"></a><span class="lineno">  359</span>          barrier_ptr-&gt;arrive_and_wait(barrier_busy_wait);</div>
+<div class="line"><a id="l00360" name="l00360"></a><span class="lineno">  360</span> </div>
+<div class="line"><a id="l00361" name="l00361"></a><span class="lineno">  361</span>          <span class="comment">// STEP3: update trailing panel (multi-threaded)</span></div>
+<div class="line"><a id="l00362" name="l00362"></a><span class="lineno">  362</span>          updateTrailingPanel(has_head, tiles, j, w[0], taus({j, 0}), begin, end);</div>
+<div class="line"><a id="l00363" name="l00363"></a><span class="lineno">  363</span>          barrier_ptr-&gt;arrive_and_wait(barrier_busy_wait);</div>
+<div class="line"><a id="l00364" name="l00364"></a><span class="lineno">  364</span>        }</div>
+<div class="line"><a id="l00365" name="l00365"></a><span class="lineno">  365</span>      }));</div>
+<div class="line"><a id="l00366" name="l00366"></a><span class="lineno">  366</span>}</div>
+<div class="line"><a id="l00367" name="l00367"></a><span class="lineno">  367</span> </div>
+<div class="line"><a id="l00368" name="l00368"></a><span class="lineno">  368</span><span class="keyword">template</span> &lt;Backend B, Device D, <span class="keyword">class</span> T&gt;</div>
+<div class="line"><a id="l00369" name="l00369"></a><span class="lineno">  369</span><span class="keywordtype">void</span> setupReflectorPanelV(<span class="keywordtype">bool</span> has_head, <span class="keyword">const</span> matrix::SubPanelView&amp; panel_view, <span class="keyword">const</span> SizeType nrefls,</div>
+<div class="line"><a id="l00370" name="l00370"></a><span class="lineno">  370</span>                          matrix::Panel&lt;Coord::Col, T, D&gt;&amp; v, matrix::Matrix&lt;const T, D&gt;&amp; mat_a,</div>
+<div class="line"><a id="l00371" name="l00371"></a><span class="lineno">  371</span>                          <span class="keywordtype">bool</span> force_copy = <span class="keyword">false</span>) {</div>
+<div class="line"><a id="l00372" name="l00372"></a><span class="lineno">  372</span>  <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
+<div class="line"><a id="l00373" name="l00373"></a><span class="lineno">  373</span> </div>
+<div class="line"><a id="l00374" name="l00374"></a><span class="lineno">  374</span>  <span class="keyword">using </span>pika::execution::thread_priority;</div>
+<div class="line"><a id="l00375" name="l00375"></a><span class="lineno">  375</span>  <span class="keyword">using </span>pika::execution::thread_stacksize;</div>
+<div class="line"><a id="l00376" name="l00376"></a><span class="lineno">  376</span> </div>
+<div class="line"><a id="l00377" name="l00377"></a><span class="lineno">  377</span>  <span class="comment">// Note:</span></div>
+<div class="line"><a id="l00378" name="l00378"></a><span class="lineno">  378</span>  <span class="comment">// Reflectors are stored in the lower triangular part of the A matrix leading to sharing memory</span></div>
+<div class="line"><a id="l00379" name="l00379"></a><span class="lineno">  379</span>  <span class="comment">// between reflectors and results, which are in the upper triangular part. The problem exists only</span></div>
+<div class="line"><a id="l00380" name="l00380"></a><span class="lineno">  380</span>  <span class="comment">// for the first tile (of the V, i.e. band excluded). Since refelectors will be used in next</span></div>
+<div class="line"><a id="l00381" name="l00381"></a><span class="lineno">  381</span>  <span class="comment">// computations, they should be well-formed, i.e. a unit lower trapezoidal matrix. For this reason,</span></div>
+<div class="line"><a id="l00382" name="l00382"></a><span class="lineno">  382</span>  <span class="comment">// a support tile is used, where just the reflectors values are copied, the diagonal is set to 1</span></div>
+<div class="line"><a id="l00383" name="l00383"></a><span class="lineno">  383</span>  <span class="comment">// and the rest is zeroed out.</span></div>
+<div class="line"><a id="l00384" name="l00384"></a><span class="lineno">  384</span>  <span class="keyword">auto</span> it_begin = panel_view.iteratorLocal().begin();</div>
+<div class="line"><a id="l00385" name="l00385"></a><span class="lineno">  385</span>  <span class="keyword">auto</span> it_end = panel_view.iteratorLocal().end();</div>
 <div class="line"><a id="l00386" name="l00386"></a><span class="lineno">  386</span> </div>
-<div class="line"><a id="l00387" name="l00387"></a><span class="lineno">  387</span>    <span class="comment">// Note:</span></div>
-<div class="line"><a id="l00388" name="l00388"></a><span class="lineno">  388</span>    <span class="comment">// If the number of reflectors are limited by height (|reflector| &gt; 1), the panel is narrower than</span></div>
-<div class="line"><a id="l00389" name="l00389"></a><span class="lineno">  389</span>    <span class="comment">// the blocksize, leading to just using a part of A (first full nrefls columns)</span></div>
-<div class="line"><a id="l00390" name="l00390"></a><span class="lineno">  390</span>    spec.size = {spec.size.rows(), std::min(nrefls, spec.size.cols())};</div>
-<div class="line"><a id="l00391" name="l00391"></a><span class="lineno">  391</span> </div>
-<div class="line"><a id="l00392" name="l00392"></a><span class="lineno">  392</span>    <span class="comment">// Note:</span></div>
-<div class="line"><a id="l00393" name="l00393"></a><span class="lineno">  393</span>    <span class="comment">// copy + laset is done in two independent tasks, but it could be theoretically merged to into a</span></div>
-<div class="line"><a id="l00394" name="l00394"></a><span class="lineno">  394</span>    <span class="comment">// single task doing both.</span></div>
-<div class="line"><a id="l00395" name="l00395"></a><span class="lineno">  395</span>    <span class="keyword">const</span> <span class="keyword">auto</span> p = <a class="code hl_class" href="classdlaf_1_1internal_1_1_policy.html">dlaf::internal::Policy&lt;B&gt;</a>(thread_priority::high, thread_stacksize::nostack);</div>
-<div class="line"><a id="l00396" name="l00396"></a><span class="lineno">  396</span>    ex::start_detached(dlaf::internal::whenAllLift(<a class="code hl_function" href="matrix_2tile_8h.html#a1f09c7706a724d254208754b5691ac8c">splitTile</a>(mat_a.read(i), spec), v.<a class="code hl_function" href="classdlaf_1_1matrix_1_1_matrix.html#ad11e9036fe317b6328ae71585b19c811">readwrite</a>(i)) |</div>
-<div class="line"><a id="l00397" name="l00397"></a><span class="lineno">  397</span>                       matrix::copy(p));</div>
-<div class="line"><a id="l00398" name="l00398"></a><span class="lineno">  398</span>    ex::start_detached(dlaf::internal::whenAllLift(blas::Uplo::Upper, T(0), T(1), v.readwrite(i)) |</div>
-<div class="line"><a id="l00399" name="l00399"></a><span class="lineno">  399</span>                       tile::laset(p));</div>
-<div class="line"><a id="l00400" name="l00400"></a><span class="lineno">  400</span> </div>
-<div class="line"><a id="l00401" name="l00401"></a><span class="lineno">  401</span>    ++it_begin;</div>
-<div class="line"><a id="l00402" name="l00402"></a><span class="lineno">  402</span>  }</div>
-<div class="line"><a id="l00403" name="l00403"></a><span class="lineno">  403</span> </div>
-<div class="line"><a id="l00404" name="l00404"></a><span class="lineno">  404</span>  <span class="comment">// The rest of the V panel of reflectors can just point to the values in A, since they are</span></div>
-<div class="line"><a id="l00405" name="l00405"></a><span class="lineno">  405</span>  <span class="comment">// well formed in-place.</span></div>
-<div class="line"><a id="l00406" name="l00406"></a><span class="lineno">  406</span>  <span class="keywordflow">for</span> (<span class="keyword">auto</span> it = it_begin; it &lt; it_end; ++it) {</div>
-<div class="line"><a id="l00407" name="l00407"></a><span class="lineno">  407</span>    <span class="keyword">const</span> LocalTileIndex idx = *it;</div>
-<div class="line"><a id="l00408" name="l00408"></a><span class="lineno">  408</span>    <span class="keyword">const</span> matrix::SubTileSpec&amp; spec = panel_view(idx);</div>
-<div class="line"><a id="l00409" name="l00409"></a><span class="lineno">  409</span> </div>
-<div class="line"><a id="l00410" name="l00410"></a><span class="lineno">  410</span>    <span class="comment">// Note:  This is a workaround for the deadlock problem with sub-tiles.</span></div>
-<div class="line"><a id="l00411" name="l00411"></a><span class="lineno">  411</span>    <span class="comment">//        Without this copy, during matrix update the same tile would get accessed at the same</span></div>
-<div class="line"><a id="l00412" name="l00412"></a><span class="lineno">  412</span>    <span class="comment">//        time both in readonly mode (for reflectors) and in readwrite mode (for updating the</span></div>
-<div class="line"><a id="l00413" name="l00413"></a><span class="lineno">  413</span>    <span class="comment">//        matrix). This would result in a deadlock, so instead of linking the panel to an external</span></div>
-<div class="line"><a id="l00414" name="l00414"></a><span class="lineno">  414</span>    <span class="comment">//        tile, memory provided internally by the panel is used as support. In this way, the two</span></div>
-<div class="line"><a id="l00415" name="l00415"></a><span class="lineno">  415</span>    <span class="comment">//        subtiles used in the operation belong to different tiles.</span></div>
-<div class="line"><a id="l00416" name="l00416"></a><span class="lineno">  416</span>    <span class="keywordflow">if</span> (force_copy)</div>
-<div class="line"><a id="l00417" name="l00417"></a><span class="lineno">  417</span>      ex::start_detached(ex::when_all(matrix::splitTile(mat_a.read(idx), spec), v.readwrite(idx)) |</div>
-<div class="line"><a id="l00418" name="l00418"></a><span class="lineno">  418</span>                         matrix::copy(<a class="code hl_class" href="classdlaf_1_1internal_1_1_policy.html">dlaf::internal::Policy&lt;B&gt;</a>(thread_priority::high,</div>
-<div class="line"><a id="l00419" name="l00419"></a><span class="lineno">  419</span>                                                                thread_stacksize::nostack)));</div>
-<div class="line"><a id="l00420" name="l00420"></a><span class="lineno">  420</span>    <span class="keywordflow">else</span></div>
-<div class="line"><a id="l00421" name="l00421"></a><span class="lineno">  421</span>      v.setTile(idx, matrix::splitTile(mat_a.read(idx), spec));</div>
-<div class="line"><a id="l00422" name="l00422"></a><span class="lineno">  422</span>  }</div>
-<div class="line"><a id="l00423" name="l00423"></a><span class="lineno">  423</span>}</div>
-<div class="line"><a id="l00424" name="l00424"></a><span class="lineno">  424</span> </div>
-<div class="line"><a id="l00425" name="l00425"></a><span class="lineno">  425</span><span class="keyword">template</span> &lt;Backend B, Device D, <span class="keyword">class</span> T&gt;</div>
-<div class="line"><a id="l00426" name="l00426"></a><span class="lineno">  426</span><span class="keywordtype">void</span> trmmComputeW(matrix::Panel&lt;Coord::Col, T, D&gt;&amp; w, matrix::Panel&lt;Coord::Col, T, D&gt;&amp; v,</div>
-<div class="line"><a id="l00427" name="l00427"></a><span class="lineno">  427</span>                  matrix::ReadOnlyTileSender&lt;T, D&gt; tile_t) {</div>
-<div class="line"><a id="l00428" name="l00428"></a><span class="lineno">  428</span>  <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
-<div class="line"><a id="l00429" name="l00429"></a><span class="lineno">  429</span> </div>
-<div class="line"><a id="l00430" name="l00430"></a><span class="lineno">  430</span>  <span class="keyword">using </span>pika::execution::thread_priority;</div>
-<div class="line"><a id="l00431" name="l00431"></a><span class="lineno">  431</span>  <span class="keyword">using </span>pika::execution::thread_stacksize;</div>
-<div class="line"><a id="l00432" name="l00432"></a><span class="lineno">  432</span>  <span class="keyword">using namespace </span>blas;</div>
+<div class="line"><a id="l00387" name="l00387"></a><span class="lineno">  387</span>  <span class="keywordflow">if</span> (has_head) {</div>
+<div class="line"><a id="l00388" name="l00388"></a><span class="lineno">  388</span>    <span class="keyword">const</span> LocalTileIndex i = *it_begin;</div>
+<div class="line"><a id="l00389" name="l00389"></a><span class="lineno">  389</span>    matrix::SubTileSpec spec = panel_view(i);</div>
+<div class="line"><a id="l00390" name="l00390"></a><span class="lineno">  390</span> </div>
+<div class="line"><a id="l00391" name="l00391"></a><span class="lineno">  391</span>    <span class="comment">// Note:</span></div>
+<div class="line"><a id="l00392" name="l00392"></a><span class="lineno">  392</span>    <span class="comment">// If the number of reflectors are limited by height (|reflector| &gt; 1), the panel is narrower than</span></div>
+<div class="line"><a id="l00393" name="l00393"></a><span class="lineno">  393</span>    <span class="comment">// the blocksize, leading to just using a part of A (first full nrefls columns)</span></div>
+<div class="line"><a id="l00394" name="l00394"></a><span class="lineno">  394</span>    spec.size = {spec.size.rows(), std::min(nrefls, spec.size.cols())};</div>
+<div class="line"><a id="l00395" name="l00395"></a><span class="lineno">  395</span> </div>
+<div class="line"><a id="l00396" name="l00396"></a><span class="lineno">  396</span>    <span class="comment">// Note:</span></div>
+<div class="line"><a id="l00397" name="l00397"></a><span class="lineno">  397</span>    <span class="comment">// copy + laset is done in two independent tasks, but it could be theoretically merged to into a</span></div>
+<div class="line"><a id="l00398" name="l00398"></a><span class="lineno">  398</span>    <span class="comment">// single task doing both.</span></div>
+<div class="line"><a id="l00399" name="l00399"></a><span class="lineno">  399</span>    <span class="keyword">const</span> <span class="keyword">auto</span> p = <a class="code hl_class" href="classdlaf_1_1internal_1_1_policy.html">dlaf::internal::Policy&lt;B&gt;</a>(thread_priority::high, thread_stacksize::nostack);</div>
+<div class="line"><a id="l00400" name="l00400"></a><span class="lineno">  400</span>    ex::start_detached(dlaf::internal::whenAllLift(<a class="code hl_function" href="matrix_2tile_8h.html#a1f09c7706a724d254208754b5691ac8c">splitTile</a>(mat_a.read(i), spec), v.<a class="code hl_function" href="classdlaf_1_1matrix_1_1_matrix.html#ad11e9036fe317b6328ae71585b19c811">readwrite</a>(i)) |</div>
+<div class="line"><a id="l00401" name="l00401"></a><span class="lineno">  401</span>                       matrix::copy(p));</div>
+<div class="line"><a id="l00402" name="l00402"></a><span class="lineno">  402</span>    ex::start_detached(dlaf::internal::whenAllLift(blas::Uplo::Upper, T(0), T(1), v.readwrite(i)) |</div>
+<div class="line"><a id="l00403" name="l00403"></a><span class="lineno">  403</span>                       tile::laset(p));</div>
+<div class="line"><a id="l00404" name="l00404"></a><span class="lineno">  404</span> </div>
+<div class="line"><a id="l00405" name="l00405"></a><span class="lineno">  405</span>    ++it_begin;</div>
+<div class="line"><a id="l00406" name="l00406"></a><span class="lineno">  406</span>  }</div>
+<div class="line"><a id="l00407" name="l00407"></a><span class="lineno">  407</span> </div>
+<div class="line"><a id="l00408" name="l00408"></a><span class="lineno">  408</span>  <span class="comment">// The rest of the V panel of reflectors can just point to the values in A, since they are</span></div>
+<div class="line"><a id="l00409" name="l00409"></a><span class="lineno">  409</span>  <span class="comment">// well formed in-place.</span></div>
+<div class="line"><a id="l00410" name="l00410"></a><span class="lineno">  410</span>  <span class="keywordflow">for</span> (<span class="keyword">auto</span> it = it_begin; it &lt; it_end; ++it) {</div>
+<div class="line"><a id="l00411" name="l00411"></a><span class="lineno">  411</span>    <span class="keyword">const</span> LocalTileIndex idx = *it;</div>
+<div class="line"><a id="l00412" name="l00412"></a><span class="lineno">  412</span>    <span class="keyword">const</span> matrix::SubTileSpec&amp; spec = panel_view(idx);</div>
+<div class="line"><a id="l00413" name="l00413"></a><span class="lineno">  413</span> </div>
+<div class="line"><a id="l00414" name="l00414"></a><span class="lineno">  414</span>    <span class="comment">// Note:  This is a workaround for the deadlock problem with sub-tiles.</span></div>
+<div class="line"><a id="l00415" name="l00415"></a><span class="lineno">  415</span>    <span class="comment">//        Without this copy, during matrix update the same tile would get accessed at the same</span></div>
+<div class="line"><a id="l00416" name="l00416"></a><span class="lineno">  416</span>    <span class="comment">//        time both in readonly mode (for reflectors) and in readwrite mode (for updating the</span></div>
+<div class="line"><a id="l00417" name="l00417"></a><span class="lineno">  417</span>    <span class="comment">//        matrix). This would result in a deadlock, so instead of linking the panel to an external</span></div>
+<div class="line"><a id="l00418" name="l00418"></a><span class="lineno">  418</span>    <span class="comment">//        tile, memory provided internally by the panel is used as support. In this way, the two</span></div>
+<div class="line"><a id="l00419" name="l00419"></a><span class="lineno">  419</span>    <span class="comment">//        subtiles used in the operation belong to different tiles.</span></div>
+<div class="line"><a id="l00420" name="l00420"></a><span class="lineno">  420</span>    <span class="keywordflow">if</span> (force_copy)</div>
+<div class="line"><a id="l00421" name="l00421"></a><span class="lineno">  421</span>      ex::start_detached(ex::when_all(matrix::splitTile(mat_a.read(idx), spec), v.readwrite(idx)) |</div>
+<div class="line"><a id="l00422" name="l00422"></a><span class="lineno">  422</span>                         matrix::copy(<a class="code hl_class" href="classdlaf_1_1internal_1_1_policy.html">dlaf::internal::Policy&lt;B&gt;</a>(thread_priority::high,</div>
+<div class="line"><a id="l00423" name="l00423"></a><span class="lineno">  423</span>                                                                thread_stacksize::nostack)));</div>
+<div class="line"><a id="l00424" name="l00424"></a><span class="lineno">  424</span>    <span class="keywordflow">else</span></div>
+<div class="line"><a id="l00425" name="l00425"></a><span class="lineno">  425</span>      v.setTile(idx, matrix::splitTile(mat_a.read(idx), spec));</div>
+<div class="line"><a id="l00426" name="l00426"></a><span class="lineno">  426</span>  }</div>
+<div class="line"><a id="l00427" name="l00427"></a><span class="lineno">  427</span>}</div>
+<div class="line"><a id="l00428" name="l00428"></a><span class="lineno">  428</span> </div>
+<div class="line"><a id="l00429" name="l00429"></a><span class="lineno">  429</span><span class="keyword">template</span> &lt;Backend B, Device D, <span class="keyword">class</span> T&gt;</div>
+<div class="line"><a id="l00430" name="l00430"></a><span class="lineno">  430</span><span class="keywordtype">void</span> trmmComputeW(matrix::Panel&lt;Coord::Col, T, D&gt;&amp; w, matrix::Panel&lt;Coord::Col, T, D&gt;&amp; v,</div>
+<div class="line"><a id="l00431" name="l00431"></a><span class="lineno">  431</span>                  matrix::ReadOnlyTileSender&lt;T, D&gt; tile_t) {</div>
+<div class="line"><a id="l00432" name="l00432"></a><span class="lineno">  432</span>  <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
 <div class="line"><a id="l00433" name="l00433"></a><span class="lineno">  433</span> </div>
-<div class="line"><a id="l00434" name="l00434"></a><span class="lineno">  434</span>  <span class="keyword">auto</span> it = w.iteratorLocal();</div>
-<div class="line"><a id="l00435" name="l00435"></a><span class="lineno">  435</span> </div>
-<div class="line"><a id="l00436" name="l00436"></a><span class="lineno">  436</span>  <span class="keywordflow">for</span> (<span class="keyword">const</span> <span class="keyword">auto</span>&amp; index_i : it) {</div>
-<div class="line"><a id="l00437" name="l00437"></a><span class="lineno">  437</span>    ex::start_detached(dlaf::internal::whenAllLift(Side::Right, Uplo::Upper, Op::NoTrans, Diag::NonUnit,</div>
-<div class="line"><a id="l00438" name="l00438"></a><span class="lineno">  438</span>                                                   T(1), tile_t, v.read(index_i), w.readwrite(index_i)) |</div>
-<div class="line"><a id="l00439" name="l00439"></a><span class="lineno">  439</span>                       tile::trmm3(<a class="code hl_class" href="classdlaf_1_1internal_1_1_policy.html">dlaf::internal::Policy&lt;B&gt;</a>(thread_priority::high,</div>
-<div class="line"><a id="l00440" name="l00440"></a><span class="lineno">  440</span>                                                             thread_stacksize::nostack)));</div>
-<div class="line"><a id="l00441" name="l00441"></a><span class="lineno">  441</span>  }</div>
-<div class="line"><a id="l00442" name="l00442"></a><span class="lineno">  442</span> </div>
-<div class="line"><a id="l00443" name="l00443"></a><span class="lineno">  443</span>  <span class="keywordflow">if</span> (it.empty()) {</div>
-<div class="line"><a id="l00444" name="l00444"></a><span class="lineno">  444</span>    ex::start_detached(std::move(tile_t));</div>
+<div class="line"><a id="l00434" name="l00434"></a><span class="lineno">  434</span>  <span class="keyword">using </span>pika::execution::thread_priority;</div>
+<div class="line"><a id="l00435" name="l00435"></a><span class="lineno">  435</span>  <span class="keyword">using </span>pika::execution::thread_stacksize;</div>
+<div class="line"><a id="l00436" name="l00436"></a><span class="lineno">  436</span>  <span class="keyword">using namespace </span>blas;</div>
+<div class="line"><a id="l00437" name="l00437"></a><span class="lineno">  437</span> </div>
+<div class="line"><a id="l00438" name="l00438"></a><span class="lineno">  438</span>  <span class="keyword">auto</span> it = w.iteratorLocal();</div>
+<div class="line"><a id="l00439" name="l00439"></a><span class="lineno">  439</span> </div>
+<div class="line"><a id="l00440" name="l00440"></a><span class="lineno">  440</span>  <span class="keywordflow">for</span> (<span class="keyword">const</span> <span class="keyword">auto</span>&amp; index_i : it) {</div>
+<div class="line"><a id="l00441" name="l00441"></a><span class="lineno">  441</span>    ex::start_detached(dlaf::internal::whenAllLift(Side::Right, Uplo::Upper, Op::NoTrans, Diag::NonUnit,</div>
+<div class="line"><a id="l00442" name="l00442"></a><span class="lineno">  442</span>                                                   T(1), tile_t, v.read(index_i), w.readwrite(index_i)) |</div>
+<div class="line"><a id="l00443" name="l00443"></a><span class="lineno">  443</span>                       tile::trmm3(<a class="code hl_class" href="classdlaf_1_1internal_1_1_policy.html">dlaf::internal::Policy&lt;B&gt;</a>(thread_priority::high,</div>
+<div class="line"><a id="l00444" name="l00444"></a><span class="lineno">  444</span>                                                             thread_stacksize::nostack)));</div>
 <div class="line"><a id="l00445" name="l00445"></a><span class="lineno">  445</span>  }</div>
-<div class="line"><a id="l00446" name="l00446"></a><span class="lineno">  446</span>}</div>
-<div class="line"><a id="l00447" name="l00447"></a><span class="lineno">  447</span> </div>
-<div class="line"><a id="l00448" name="l00448"></a><span class="lineno">  448</span><span class="keyword">template</span> &lt;Backend B, Device D, <span class="keyword">class</span> T&gt;</div>
-<div class="line"><a id="l00449" name="l00449"></a><span class="lineno">  449</span><span class="keywordtype">void</span> gemmUpdateX(matrix::Panel&lt;Coord::Col, T, D&gt;&amp; x, matrix::Matrix&lt;const T, D&gt;&amp; w2,</div>
-<div class="line"><a id="l00450" name="l00450"></a><span class="lineno">  450</span>                 matrix::Panel&lt;Coord::Col, const T, D&gt;&amp; v) {</div>
-<div class="line"><a id="l00451" name="l00451"></a><span class="lineno">  451</span>  <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
-<div class="line"><a id="l00452" name="l00452"></a><span class="lineno">  452</span> </div>
-<div class="line"><a id="l00453" name="l00453"></a><span class="lineno">  453</span>  <span class="keyword">using </span>pika::execution::thread_priority;</div>
-<div class="line"><a id="l00454" name="l00454"></a><span class="lineno">  454</span>  <span class="keyword">using </span>pika::execution::thread_stacksize;</div>
-<div class="line"><a id="l00455" name="l00455"></a><span class="lineno">  455</span>  <span class="keyword">using namespace </span>blas;</div>
+<div class="line"><a id="l00446" name="l00446"></a><span class="lineno">  446</span> </div>
+<div class="line"><a id="l00447" name="l00447"></a><span class="lineno">  447</span>  <span class="keywordflow">if</span> (it.empty()) {</div>
+<div class="line"><a id="l00448" name="l00448"></a><span class="lineno">  448</span>    ex::start_detached(std::move(tile_t));</div>
+<div class="line"><a id="l00449" name="l00449"></a><span class="lineno">  449</span>  }</div>
+<div class="line"><a id="l00450" name="l00450"></a><span class="lineno">  450</span>}</div>
+<div class="line"><a id="l00451" name="l00451"></a><span class="lineno">  451</span> </div>
+<div class="line"><a id="l00452" name="l00452"></a><span class="lineno">  452</span><span class="keyword">template</span> &lt;Backend B, Device D, <span class="keyword">class</span> T&gt;</div>
+<div class="line"><a id="l00453" name="l00453"></a><span class="lineno">  453</span><span class="keywordtype">void</span> gemmUpdateX(matrix::Panel&lt;Coord::Col, T, D&gt;&amp; x, matrix::Matrix&lt;const T, D&gt;&amp; w2,</div>
+<div class="line"><a id="l00454" name="l00454"></a><span class="lineno">  454</span>                 matrix::Panel&lt;Coord::Col, const T, D&gt;&amp; v) {</div>
+<div class="line"><a id="l00455" name="l00455"></a><span class="lineno">  455</span>  <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
 <div class="line"><a id="l00456" name="l00456"></a><span class="lineno">  456</span> </div>
-<div class="line"><a id="l00457" name="l00457"></a><span class="lineno">  457</span>  <span class="comment">// GEMM X = X - 0.5 . V . W2</span></div>
-<div class="line"><a id="l00458" name="l00458"></a><span class="lineno">  458</span>  <span class="keywordflow">for</span> (<span class="keyword">const</span> <span class="keyword">auto</span>&amp; index_i : v.iteratorLocal())</div>
-<div class="line"><a id="l00459" name="l00459"></a><span class="lineno">  459</span>    ex::start_detached(</div>
-<div class="line"><a id="l00460" name="l00460"></a><span class="lineno">  460</span>        dlaf::internal::whenAllLift(Op::NoTrans, Op::NoTrans, T(-0.5), v.read(index_i),</div>
-<div class="line"><a id="l00461" name="l00461"></a><span class="lineno">  461</span>                                    w2.read(LocalTileIndex(0, 0)), T(1), x.readwrite(index_i)) |</div>
-<div class="line"><a id="l00462" name="l00462"></a><span class="lineno">  462</span>        tile::<a class="code hl_function" href="blas_2tile_8h.html#a1de961c6e1c01ee6a5f0039ecf51b162">gemm</a>(dlaf::internal::Policy&lt;B&gt;(thread_priority::high, thread_stacksize::nostack)));</div>
-<div class="line"><a id="l00463" name="l00463"></a><span class="lineno">  463</span>}</div>
-<div class="line"><a id="l00464" name="l00464"></a><span class="lineno">  464</span> </div>
-<div class="line"><a id="l00465" name="l00465"></a><span class="lineno">  465</span><span class="keyword">template</span> &lt;Backend B, Device D, <span class="keyword">class</span> T&gt;</div>
-<div class="line"><a id="l00466" name="l00466"></a><span class="lineno">  466</span><span class="keywordtype">void</span> hemmComputeX(matrix::Panel&lt;Coord::Col, T, D&gt;&amp; x, <span class="keyword">const</span> matrix::SubMatrixView&amp; view,</div>
-<div class="line"><a id="l00467" name="l00467"></a><span class="lineno">  467</span>                  matrix::Matrix&lt;const T, D&gt;&amp; a, matrix::Panel&lt;Coord::Col, const T, D&gt;&amp; w) {</div>
-<div class="line"><a id="l00468" name="l00468"></a><span class="lineno">  468</span>  <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
-<div class="line"><a id="l00469" name="l00469"></a><span class="lineno">  469</span> </div>
-<div class="line"><a id="l00470" name="l00470"></a><span class="lineno">  470</span>  <span class="keyword">using </span>pika::execution::thread_priority;</div>
-<div class="line"><a id="l00471" name="l00471"></a><span class="lineno">  471</span> </div>
-<div class="line"><a id="l00472" name="l00472"></a><span class="lineno">  472</span>  <span class="keyword">const</span> <span class="keyword">auto</span> dist = a.distribution();</div>
+<div class="line"><a id="l00457" name="l00457"></a><span class="lineno">  457</span>  <span class="keyword">using </span>pika::execution::thread_priority;</div>
+<div class="line"><a id="l00458" name="l00458"></a><span class="lineno">  458</span>  <span class="keyword">using </span>pika::execution::thread_stacksize;</div>
+<div class="line"><a id="l00459" name="l00459"></a><span class="lineno">  459</span>  <span class="keyword">using namespace </span>blas;</div>
+<div class="line"><a id="l00460" name="l00460"></a><span class="lineno">  460</span> </div>
+<div class="line"><a id="l00461" name="l00461"></a><span class="lineno">  461</span>  <span class="comment">// GEMM X = X - 0.5 . V . W2</span></div>
+<div class="line"><a id="l00462" name="l00462"></a><span class="lineno">  462</span>  <span class="keywordflow">for</span> (<span class="keyword">const</span> <span class="keyword">auto</span>&amp; index_i : v.iteratorLocal())</div>
+<div class="line"><a id="l00463" name="l00463"></a><span class="lineno">  463</span>    ex::start_detached(</div>
+<div class="line"><a id="l00464" name="l00464"></a><span class="lineno">  464</span>        dlaf::internal::whenAllLift(Op::NoTrans, Op::NoTrans, T(-0.5), v.read(index_i),</div>
+<div class="line"><a id="l00465" name="l00465"></a><span class="lineno">  465</span>                                    w2.read(LocalTileIndex(0, 0)), T(1), x.readwrite(index_i)) |</div>
+<div class="line"><a id="l00466" name="l00466"></a><span class="lineno">  466</span>        tile::<a class="code hl_function" href="blas_2tile_8h.html#a1de961c6e1c01ee6a5f0039ecf51b162">gemm</a>(dlaf::internal::Policy&lt;B&gt;(thread_priority::high, thread_stacksize::nostack)));</div>
+<div class="line"><a id="l00467" name="l00467"></a><span class="lineno">  467</span>}</div>
+<div class="line"><a id="l00468" name="l00468"></a><span class="lineno">  468</span> </div>
+<div class="line"><a id="l00469" name="l00469"></a><span class="lineno">  469</span><span class="keyword">template</span> &lt;Backend B, Device D, <span class="keyword">class</span> T&gt;</div>
+<div class="line"><a id="l00470" name="l00470"></a><span class="lineno">  470</span><span class="keywordtype">void</span> hemmComputeX(matrix::Panel&lt;Coord::Col, T, D&gt;&amp; x, <span class="keyword">const</span> matrix::SubMatrixView&amp; view,</div>
+<div class="line"><a id="l00471" name="l00471"></a><span class="lineno">  471</span>                  matrix::Matrix&lt;const T, D&gt;&amp; a, matrix::Panel&lt;Coord::Col, const T, D&gt;&amp; w) {</div>
+<div class="line"><a id="l00472" name="l00472"></a><span class="lineno">  472</span>  <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
 <div class="line"><a id="l00473" name="l00473"></a><span class="lineno">  473</span> </div>
-<div class="line"><a id="l00474" name="l00474"></a><span class="lineno">  474</span>  <span class="comment">// Note:</span></div>
-<div class="line"><a id="l00475" name="l00475"></a><span class="lineno">  475</span>  <span class="comment">// They have to be set to zero, because all tiles are going to be reduced, and some tiles may not get</span></div>
-<div class="line"><a id="l00476" name="l00476"></a><span class="lineno">  476</span>  <span class="comment">// &quot;initialized&quot; during computation, so they should not contribute with any spurious value to the final</span></div>
-<div class="line"><a id="l00477" name="l00477"></a><span class="lineno">  477</span>  <span class="comment">// result.</span></div>
-<div class="line"><a id="l00478" name="l00478"></a><span class="lineno">  478</span>  matrix::util::set0&lt;B&gt;(thread_priority::high, x);</div>
-<div class="line"><a id="l00479" name="l00479"></a><span class="lineno">  479</span> </div>
-<div class="line"><a id="l00480" name="l00480"></a><span class="lineno">  480</span>  <span class="keyword">const</span> LocalTileIndex at_offset = view.begin();</div>
-<div class="line"><a id="l00481" name="l00481"></a><span class="lineno">  481</span> </div>
-<div class="line"><a id="l00482" name="l00482"></a><span class="lineno">  482</span>  <span class="keywordflow">for</span> (SizeType i = at_offset.row(); i &lt; dist.localNrTiles().rows(); ++i) {</div>
-<div class="line"><a id="l00483" name="l00483"></a><span class="lineno">  483</span>    <span class="keyword">const</span> <span class="keyword">auto</span> limit = i + 1;</div>
-<div class="line"><a id="l00484" name="l00484"></a><span class="lineno">  484</span>    <span class="keywordflow">for</span> (SizeType j = limit - 1; j &gt;= at_offset.col(); --j) {</div>
-<div class="line"><a id="l00485" name="l00485"></a><span class="lineno">  485</span>      <span class="keyword">const</span> LocalTileIndex ij{i, j};</div>
-<div class="line"><a id="l00486" name="l00486"></a><span class="lineno">  486</span> </div>
-<div class="line"><a id="l00487" name="l00487"></a><span class="lineno">  487</span>      <span class="keyword">const</span> <span class="keywordtype">bool</span> is_diagonal_tile = (ij.row() == ij.col());</div>
-<div class="line"><a id="l00488" name="l00488"></a><span class="lineno">  488</span> </div>
-<div class="line"><a id="l00489" name="l00489"></a><span class="lineno">  489</span>      <span class="keyword">const</span> <span class="keyword">auto</span>&amp; tile_a = <a class="code hl_function" href="matrix_2tile_8h.html#a1f09c7706a724d254208754b5691ac8c">splitTile</a>(a.read(ij), view(ij));</div>
+<div class="line"><a id="l00474" name="l00474"></a><span class="lineno">  474</span>  <span class="keyword">using </span>pika::execution::thread_priority;</div>
+<div class="line"><a id="l00475" name="l00475"></a><span class="lineno">  475</span> </div>
+<div class="line"><a id="l00476" name="l00476"></a><span class="lineno">  476</span>  <span class="keyword">const</span> <span class="keyword">auto</span> dist = a.distribution();</div>
+<div class="line"><a id="l00477" name="l00477"></a><span class="lineno">  477</span> </div>
+<div class="line"><a id="l00478" name="l00478"></a><span class="lineno">  478</span>  <span class="comment">// Note:</span></div>
+<div class="line"><a id="l00479" name="l00479"></a><span class="lineno">  479</span>  <span class="comment">// They have to be set to zero, because all tiles are going to be reduced, and some tiles may not get</span></div>
+<div class="line"><a id="l00480" name="l00480"></a><span class="lineno">  480</span>  <span class="comment">// &quot;initialized&quot; during computation, so they should not contribute with any spurious value to the final</span></div>
+<div class="line"><a id="l00481" name="l00481"></a><span class="lineno">  481</span>  <span class="comment">// result.</span></div>
+<div class="line"><a id="l00482" name="l00482"></a><span class="lineno">  482</span>  matrix::util::set0&lt;B&gt;(thread_priority::high, x);</div>
+<div class="line"><a id="l00483" name="l00483"></a><span class="lineno">  483</span> </div>
+<div class="line"><a id="l00484" name="l00484"></a><span class="lineno">  484</span>  <span class="keyword">const</span> LocalTileIndex at_offset = view.begin();</div>
+<div class="line"><a id="l00485" name="l00485"></a><span class="lineno">  485</span> </div>
+<div class="line"><a id="l00486" name="l00486"></a><span class="lineno">  486</span>  <span class="keywordflow">for</span> (SizeType i = at_offset.row(); i &lt; dist.localNrTiles().rows(); ++i) {</div>
+<div class="line"><a id="l00487" name="l00487"></a><span class="lineno">  487</span>    <span class="keyword">const</span> <span class="keyword">auto</span> limit = i + 1;</div>
+<div class="line"><a id="l00488" name="l00488"></a><span class="lineno">  488</span>    <span class="keywordflow">for</span> (SizeType j = limit - 1; j &gt;= at_offset.col(); --j) {</div>
+<div class="line"><a id="l00489" name="l00489"></a><span class="lineno">  489</span>      <span class="keyword">const</span> LocalTileIndex ij{i, j};</div>
 <div class="line"><a id="l00490" name="l00490"></a><span class="lineno">  490</span> </div>
-<div class="line"><a id="l00491" name="l00491"></a><span class="lineno">  491</span>      <span class="keywordflow">if</span> (is_diagonal_tile) {</div>
-<div class="line"><a id="l00492" name="l00492"></a><span class="lineno">  492</span>        hemmDiag&lt;B&gt;(thread_priority::high, tile_a, w.read(ij), x.readwrite(ij));</div>
-<div class="line"><a id="l00493" name="l00493"></a><span class="lineno">  493</span>      }</div>
-<div class="line"><a id="l00494" name="l00494"></a><span class="lineno">  494</span>      <span class="keywordflow">else</span> {</div>
-<div class="line"><a id="l00495" name="l00495"></a><span class="lineno">  495</span>        <span class="comment">// Note:</span></div>
-<div class="line"><a id="l00496" name="l00496"></a><span class="lineno">  496</span>        <span class="comment">// Because A is hermitian and just the lower part contains the data, for each a(ij) not</span></div>
-<div class="line"><a id="l00497" name="l00497"></a><span class="lineno">  497</span>        <span class="comment">// on the diagonal, two computations are done:</span></div>
-<div class="line"><a id="l00498" name="l00498"></a><span class="lineno">  498</span>        <span class="comment">// - using a(ij) in its position;</span></div>
-<div class="line"><a id="l00499" name="l00499"></a><span class="lineno">  499</span>        <span class="comment">// - using a(ij) in its &quot;transposed&quot; position (applying the ConjTrans to its data)</span></div>
-<div class="line"><a id="l00500" name="l00500"></a><span class="lineno">  500</span> </div>
-<div class="line"><a id="l00501" name="l00501"></a><span class="lineno">  501</span>        {</div>
-<div class="line"><a id="l00502" name="l00502"></a><span class="lineno">  502</span>          <span class="keyword">const</span> LocalTileIndex index_x(Coord::Row, ij.row());</div>
-<div class="line"><a id="l00503" name="l00503"></a><span class="lineno">  503</span>          <span class="keyword">const</span> LocalTileIndex index_w(Coord::Row, ij.col());</div>
-<div class="line"><a id="l00504" name="l00504"></a><span class="lineno">  504</span>          hemmOffDiag&lt;B&gt;(thread_priority::high, blas::Op::NoTrans, tile_a, w.read(index_w),</div>
-<div class="line"><a id="l00505" name="l00505"></a><span class="lineno">  505</span>                         x.readwrite(index_x));</div>
-<div class="line"><a id="l00506" name="l00506"></a><span class="lineno">  506</span>        }</div>
-<div class="line"><a id="l00507" name="l00507"></a><span class="lineno">  507</span> </div>
-<div class="line"><a id="l00508" name="l00508"></a><span class="lineno">  508</span>        {</div>
-<div class="line"><a id="l00509" name="l00509"></a><span class="lineno">  509</span>          <span class="keyword">const</span> LocalTileIndex index_pretended = <a class="code hl_function" href="index2d_8h.html#a024753ac73fbefa174548c575327862b">transposed</a>(ij);</div>
-<div class="line"><a id="l00510" name="l00510"></a><span class="lineno">  510</span>          <span class="keyword">const</span> LocalTileIndex index_x(Coord::Row, index_pretended.row());</div>
-<div class="line"><a id="l00511" name="l00511"></a><span class="lineno">  511</span>          <span class="keyword">const</span> LocalTileIndex index_w(Coord::Row, index_pretended.col());</div>
-<div class="line"><a id="l00512" name="l00512"></a><span class="lineno">  512</span>          hemmOffDiag&lt;B&gt;(thread_priority::high, blas::Op::ConjTrans, tile_a, w.read(index_w),</div>
-<div class="line"><a id="l00513" name="l00513"></a><span class="lineno">  513</span>                         x.readwrite(index_x));</div>
-<div class="line"><a id="l00514" name="l00514"></a><span class="lineno">  514</span>        }</div>
-<div class="line"><a id="l00515" name="l00515"></a><span class="lineno">  515</span>      }</div>
-<div class="line"><a id="l00516" name="l00516"></a><span class="lineno">  516</span>    }</div>
-<div class="line"><a id="l00517" name="l00517"></a><span class="lineno">  517</span>  }</div>
-<div class="line"><a id="l00518" name="l00518"></a><span class="lineno">  518</span>}</div>
-<div class="line"><a id="l00519" name="l00519"></a><span class="lineno">  519</span> </div>
-<div class="line"><a id="l00520" name="l00520"></a><span class="lineno">  520</span><span class="keyword">template</span> &lt;Backend B, Device D, <span class="keyword">class</span> T&gt;</div>
-<div class="line"><a id="l00521" name="l00521"></a><span class="lineno">  521</span><span class="keywordtype">void</span> gemmComputeW2(matrix::Matrix&lt;T, D&gt;&amp; w2, matrix::Panel&lt;Coord::Col, const T, D&gt;&amp; w,</div>
-<div class="line"><a id="l00522" name="l00522"></a><span class="lineno">  522</span>                   matrix::Panel&lt;Coord::Col, const T, D&gt;&amp; x) {</div>
-<div class="line"><a id="l00523" name="l00523"></a><span class="lineno">  523</span>  <span class="keyword">using </span>pika::execution::thread_priority;</div>
-<div class="line"><a id="l00524" name="l00524"></a><span class="lineno">  524</span>  <span class="keyword">using </span>pika::execution::thread_stacksize;</div>
-<div class="line"><a id="l00525" name="l00525"></a><span class="lineno">  525</span> </div>
-<div class="line"><a id="l00526" name="l00526"></a><span class="lineno">  526</span>  <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
-<div class="line"><a id="l00527" name="l00527"></a><span class="lineno">  527</span> </div>
-<div class="line"><a id="l00528" name="l00528"></a><span class="lineno">  528</span>  <span class="comment">// Note:</span></div>
-<div class="line"><a id="l00529" name="l00529"></a><span class="lineno">  529</span>  <span class="comment">// Not all ranks in the column always hold at least a tile in the panel Ai, but all ranks in</span></div>
-<div class="line"><a id="l00530" name="l00530"></a><span class="lineno">  530</span>  <span class="comment">// the column are going to participate to the reduce. For them, it is important to set the</span></div>
-<div class="line"><a id="l00531" name="l00531"></a><span class="lineno">  531</span>  <span class="comment">// partial result W2 to zero.</span></div>
-<div class="line"><a id="l00532" name="l00532"></a><span class="lineno">  532</span>  ex::start_detached(w2.readwrite(LocalTileIndex(0, 0)) |</div>
-<div class="line"><a id="l00533" name="l00533"></a><span class="lineno">  533</span>                     tile::set0(<a class="code hl_class" href="classdlaf_1_1internal_1_1_policy.html">dlaf::internal::Policy&lt;B&gt;</a>(thread_priority::high,</div>
-<div class="line"><a id="l00534" name="l00534"></a><span class="lineno">  534</span>                                                          thread_stacksize::nostack)));</div>
-<div class="line"><a id="l00535" name="l00535"></a><span class="lineno">  535</span> </div>
-<div class="line"><a id="l00536" name="l00536"></a><span class="lineno">  536</span>  <span class="keyword">using namespace </span>blas;</div>
-<div class="line"><a id="l00537" name="l00537"></a><span class="lineno">  537</span>  <span class="comment">// GEMM W2 = W* . X</span></div>
-<div class="line"><a id="l00538" name="l00538"></a><span class="lineno">  538</span>  <span class="keywordflow">for</span> (<span class="keyword">const</span> <span class="keyword">auto</span>&amp; index_tile : w.iteratorLocal())</div>
-<div class="line"><a id="l00539" name="l00539"></a><span class="lineno">  539</span>    ex::start_detached(</div>
-<div class="line"><a id="l00540" name="l00540"></a><span class="lineno">  540</span>        dlaf::internal::whenAllLift(Op::ConjTrans, Op::NoTrans, T(1), w.read(index_tile),</div>
-<div class="line"><a id="l00541" name="l00541"></a><span class="lineno">  541</span>                                    x.read(index_tile), T(1), w2.readwrite(LocalTileIndex(0, 0))) |</div>
-<div class="line"><a id="l00542" name="l00542"></a><span class="lineno">  542</span>        tile::<a class="code hl_function" href="blas_2tile_8h.html#a1de961c6e1c01ee6a5f0039ecf51b162">gemm</a>(dlaf::internal::Policy&lt;B&gt;(thread_priority::high, thread_stacksize::nostack)));</div>
-<div class="line"><a id="l00543" name="l00543"></a><span class="lineno">  543</span>}</div>
-<div class="line"><a id="l00544" name="l00544"></a><span class="lineno">  544</span> </div>
-<div class="line"><a id="l00545" name="l00545"></a><span class="lineno">  545</span><span class="keyword">template</span> &lt;Backend B, Device D, <span class="keyword">class</span> T&gt;</div>
-<div class="line"><a id="l00546" name="l00546"></a><span class="lineno">  546</span><span class="keywordtype">void</span> her2kUpdateTrailingMatrix(<span class="keyword">const</span> matrix::SubMatrixView&amp; view, matrix::Matrix&lt;T, D&gt;&amp; a,</div>
-<div class="line"><a id="l00547" name="l00547"></a><span class="lineno">  547</span>                               matrix::Panel&lt;Coord::Col, const T, D&gt;&amp; x,</div>
-<div class="line"><a id="l00548" name="l00548"></a><span class="lineno">  548</span>                               matrix::Panel&lt;Coord::Col, const T, D&gt;&amp; v) {</div>
-<div class="line"><a id="l00549" name="l00549"></a><span class="lineno">  549</span>  <span class="keyword">static_assert</span>(std::is_signed_v&lt;BaseType&lt;T&gt;&gt;, <span class="stringliteral">&quot;alpha in computations requires to be -1&quot;</span>);</div>
-<div class="line"><a id="l00550" name="l00550"></a><span class="lineno">  550</span> </div>
-<div class="line"><a id="l00551" name="l00551"></a><span class="lineno">  551</span>  <span class="keyword">using </span>pika::execution::thread_priority;</div>
-<div class="line"><a id="l00552" name="l00552"></a><span class="lineno">  552</span> </div>
-<div class="line"><a id="l00553" name="l00553"></a><span class="lineno">  553</span>  <span class="keyword">const</span> <span class="keyword">auto</span> dist = a.distribution();</div>
+<div class="line"><a id="l00491" name="l00491"></a><span class="lineno">  491</span>      <span class="keyword">const</span> <span class="keywordtype">bool</span> is_diagonal_tile = (ij.row() == ij.col());</div>
+<div class="line"><a id="l00492" name="l00492"></a><span class="lineno">  492</span> </div>
+<div class="line"><a id="l00493" name="l00493"></a><span class="lineno">  493</span>      <span class="keyword">const</span> <span class="keyword">auto</span>&amp; tile_a = <a class="code hl_function" href="matrix_2tile_8h.html#a1f09c7706a724d254208754b5691ac8c">splitTile</a>(a.read(ij), view(ij));</div>
+<div class="line"><a id="l00494" name="l00494"></a><span class="lineno">  494</span> </div>
+<div class="line"><a id="l00495" name="l00495"></a><span class="lineno">  495</span>      <span class="keywordflow">if</span> (is_diagonal_tile) {</div>
+<div class="line"><a id="l00496" name="l00496"></a><span class="lineno">  496</span>        hemmDiag&lt;B&gt;(thread_priority::high, tile_a, w.read(ij), x.readwrite(ij));</div>
+<div class="line"><a id="l00497" name="l00497"></a><span class="lineno">  497</span>      }</div>
+<div class="line"><a id="l00498" name="l00498"></a><span class="lineno">  498</span>      <span class="keywordflow">else</span> {</div>
+<div class="line"><a id="l00499" name="l00499"></a><span class="lineno">  499</span>        <span class="comment">// Note:</span></div>
+<div class="line"><a id="l00500" name="l00500"></a><span class="lineno">  500</span>        <span class="comment">// Because A is hermitian and just the lower part contains the data, for each a(ij) not</span></div>
+<div class="line"><a id="l00501" name="l00501"></a><span class="lineno">  501</span>        <span class="comment">// on the diagonal, two computations are done:</span></div>
+<div class="line"><a id="l00502" name="l00502"></a><span class="lineno">  502</span>        <span class="comment">// - using a(ij) in its position;</span></div>
+<div class="line"><a id="l00503" name="l00503"></a><span class="lineno">  503</span>        <span class="comment">// - using a(ij) in its &quot;transposed&quot; position (applying the ConjTrans to its data)</span></div>
+<div class="line"><a id="l00504" name="l00504"></a><span class="lineno">  504</span> </div>
+<div class="line"><a id="l00505" name="l00505"></a><span class="lineno">  505</span>        {</div>
+<div class="line"><a id="l00506" name="l00506"></a><span class="lineno">  506</span>          <span class="keyword">const</span> LocalTileIndex index_x(Coord::Row, ij.row());</div>
+<div class="line"><a id="l00507" name="l00507"></a><span class="lineno">  507</span>          <span class="keyword">const</span> LocalTileIndex index_w(Coord::Row, ij.col());</div>
+<div class="line"><a id="l00508" name="l00508"></a><span class="lineno">  508</span>          hemmOffDiag&lt;B&gt;(thread_priority::high, blas::Op::NoTrans, tile_a, w.read(index_w),</div>
+<div class="line"><a id="l00509" name="l00509"></a><span class="lineno">  509</span>                         x.readwrite(index_x));</div>
+<div class="line"><a id="l00510" name="l00510"></a><span class="lineno">  510</span>        }</div>
+<div class="line"><a id="l00511" name="l00511"></a><span class="lineno">  511</span> </div>
+<div class="line"><a id="l00512" name="l00512"></a><span class="lineno">  512</span>        {</div>
+<div class="line"><a id="l00513" name="l00513"></a><span class="lineno">  513</span>          <span class="keyword">const</span> LocalTileIndex index_pretended = <a class="code hl_function" href="index2d_8h.html#a024753ac73fbefa174548c575327862b">transposed</a>(ij);</div>
+<div class="line"><a id="l00514" name="l00514"></a><span class="lineno">  514</span>          <span class="keyword">const</span> LocalTileIndex index_x(Coord::Row, index_pretended.row());</div>
+<div class="line"><a id="l00515" name="l00515"></a><span class="lineno">  515</span>          <span class="keyword">const</span> LocalTileIndex index_w(Coord::Row, index_pretended.col());</div>
+<div class="line"><a id="l00516" name="l00516"></a><span class="lineno">  516</span>          hemmOffDiag&lt;B&gt;(thread_priority::high, blas::Op::ConjTrans, tile_a, w.read(index_w),</div>
+<div class="line"><a id="l00517" name="l00517"></a><span class="lineno">  517</span>                         x.readwrite(index_x));</div>
+<div class="line"><a id="l00518" name="l00518"></a><span class="lineno">  518</span>        }</div>
+<div class="line"><a id="l00519" name="l00519"></a><span class="lineno">  519</span>      }</div>
+<div class="line"><a id="l00520" name="l00520"></a><span class="lineno">  520</span>    }</div>
+<div class="line"><a id="l00521" name="l00521"></a><span class="lineno">  521</span>  }</div>
+<div class="line"><a id="l00522" name="l00522"></a><span class="lineno">  522</span>}</div>
+<div class="line"><a id="l00523" name="l00523"></a><span class="lineno">  523</span> </div>
+<div class="line"><a id="l00524" name="l00524"></a><span class="lineno">  524</span><span class="keyword">template</span> &lt;Backend B, Device D, <span class="keyword">class</span> T&gt;</div>
+<div class="line"><a id="l00525" name="l00525"></a><span class="lineno">  525</span><span class="keywordtype">void</span> gemmComputeW2(matrix::Matrix&lt;T, D&gt;&amp; w2, matrix::Panel&lt;Coord::Col, const T, D&gt;&amp; w,</div>
+<div class="line"><a id="l00526" name="l00526"></a><span class="lineno">  526</span>                   matrix::Panel&lt;Coord::Col, const T, D&gt;&amp; x) {</div>
+<div class="line"><a id="l00527" name="l00527"></a><span class="lineno">  527</span>  <span class="keyword">using </span>pika::execution::thread_priority;</div>
+<div class="line"><a id="l00528" name="l00528"></a><span class="lineno">  528</span>  <span class="keyword">using </span>pika::execution::thread_stacksize;</div>
+<div class="line"><a id="l00529" name="l00529"></a><span class="lineno">  529</span> </div>
+<div class="line"><a id="l00530" name="l00530"></a><span class="lineno">  530</span>  <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
+<div class="line"><a id="l00531" name="l00531"></a><span class="lineno">  531</span> </div>
+<div class="line"><a id="l00532" name="l00532"></a><span class="lineno">  532</span>  <span class="comment">// Note:</span></div>
+<div class="line"><a id="l00533" name="l00533"></a><span class="lineno">  533</span>  <span class="comment">// Not all ranks in the column always hold at least a tile in the panel Ai, but all ranks in</span></div>
+<div class="line"><a id="l00534" name="l00534"></a><span class="lineno">  534</span>  <span class="comment">// the column are going to participate to the reduce. For them, it is important to set the</span></div>
+<div class="line"><a id="l00535" name="l00535"></a><span class="lineno">  535</span>  <span class="comment">// partial result W2 to zero.</span></div>
+<div class="line"><a id="l00536" name="l00536"></a><span class="lineno">  536</span>  ex::start_detached(w2.readwrite(LocalTileIndex(0, 0)) |</div>
+<div class="line"><a id="l00537" name="l00537"></a><span class="lineno">  537</span>                     tile::set0(<a class="code hl_class" href="classdlaf_1_1internal_1_1_policy.html">dlaf::internal::Policy&lt;B&gt;</a>(thread_priority::high,</div>
+<div class="line"><a id="l00538" name="l00538"></a><span class="lineno">  538</span>                                                          thread_stacksize::nostack)));</div>
+<div class="line"><a id="l00539" name="l00539"></a><span class="lineno">  539</span> </div>
+<div class="line"><a id="l00540" name="l00540"></a><span class="lineno">  540</span>  <span class="keyword">using namespace </span>blas;</div>
+<div class="line"><a id="l00541" name="l00541"></a><span class="lineno">  541</span>  <span class="comment">// GEMM W2 = W* . X</span></div>
+<div class="line"><a id="l00542" name="l00542"></a><span class="lineno">  542</span>  <span class="keywordflow">for</span> (<span class="keyword">const</span> <span class="keyword">auto</span>&amp; index_tile : w.iteratorLocal())</div>
+<div class="line"><a id="l00543" name="l00543"></a><span class="lineno">  543</span>    ex::start_detached(</div>
+<div class="line"><a id="l00544" name="l00544"></a><span class="lineno">  544</span>        dlaf::internal::whenAllLift(Op::ConjTrans, Op::NoTrans, T(1), w.read(index_tile),</div>
+<div class="line"><a id="l00545" name="l00545"></a><span class="lineno">  545</span>                                    x.read(index_tile), T(1), w2.readwrite(LocalTileIndex(0, 0))) |</div>
+<div class="line"><a id="l00546" name="l00546"></a><span class="lineno">  546</span>        tile::<a class="code hl_function" href="blas_2tile_8h.html#a1de961c6e1c01ee6a5f0039ecf51b162">gemm</a>(dlaf::internal::Policy&lt;B&gt;(thread_priority::high, thread_stacksize::nostack)));</div>
+<div class="line"><a id="l00547" name="l00547"></a><span class="lineno">  547</span>}</div>
+<div class="line"><a id="l00548" name="l00548"></a><span class="lineno">  548</span> </div>
+<div class="line"><a id="l00549" name="l00549"></a><span class="lineno">  549</span><span class="keyword">template</span> &lt;Backend B, Device D, <span class="keyword">class</span> T&gt;</div>
+<div class="line"><a id="l00550" name="l00550"></a><span class="lineno">  550</span><span class="keywordtype">void</span> her2kUpdateTrailingMatrix(<span class="keyword">const</span> matrix::SubMatrixView&amp; view, matrix::Matrix&lt;T, D&gt;&amp; a,</div>
+<div class="line"><a id="l00551" name="l00551"></a><span class="lineno">  551</span>                               matrix::Panel&lt;Coord::Col, const T, D&gt;&amp; x,</div>
+<div class="line"><a id="l00552" name="l00552"></a><span class="lineno">  552</span>                               matrix::Panel&lt;Coord::Col, const T, D&gt;&amp; v) {</div>
+<div class="line"><a id="l00553" name="l00553"></a><span class="lineno">  553</span>  <span class="keyword">static_assert</span>(std::is_signed_v&lt;BaseType&lt;T&gt;&gt;, <span class="stringliteral">&quot;alpha in computations requires to be -1&quot;</span>);</div>
 <div class="line"><a id="l00554" name="l00554"></a><span class="lineno">  554</span> </div>
-<div class="line"><a id="l00555" name="l00555"></a><span class="lineno">  555</span>  <span class="keyword">const</span> LocalTileIndex at_start = view.begin();</div>
+<div class="line"><a id="l00555" name="l00555"></a><span class="lineno">  555</span>  <span class="keyword">using </span>pika::execution::thread_priority;</div>
 <div class="line"><a id="l00556" name="l00556"></a><span class="lineno">  556</span> </div>
-<div class="line"><a id="l00557" name="l00557"></a><span class="lineno">  557</span>  <span class="keywordflow">for</span> (SizeType i = at_start.row(); i &lt; dist.localNrTiles().rows(); ++i) {</div>
-<div class="line"><a id="l00558" name="l00558"></a><span class="lineno">  558</span>    <span class="keyword">const</span> <span class="keyword">auto</span> limit = dist.template nextLocalTileFromGlobalTile&lt;Coord::Col&gt;(</div>
-<div class="line"><a id="l00559" name="l00559"></a><span class="lineno">  559</span>        dist.template globalTileFromLocalTile&lt;Coord::Row&gt;(i) + 1);</div>
-<div class="line"><a id="l00560" name="l00560"></a><span class="lineno">  560</span>    <span class="keywordflow">for</span> (SizeType j = at_start.col(); j &lt; limit; ++j) {</div>
-<div class="line"><a id="l00561" name="l00561"></a><span class="lineno">  561</span>      <span class="keyword">const</span> LocalTileIndex ij_local{i, j};</div>
-<div class="line"><a id="l00562" name="l00562"></a><span class="lineno">  562</span>      <span class="keyword">const</span> GlobalTileIndex ij = dist.globalTileIndex(ij_local);</div>
-<div class="line"><a id="l00563" name="l00563"></a><span class="lineno">  563</span> </div>
-<div class="line"><a id="l00564" name="l00564"></a><span class="lineno">  564</span>      <span class="keyword">const</span> <span class="keywordtype">bool</span> is_diagonal_tile = (ij.row() == ij.col());</div>
-<div class="line"><a id="l00565" name="l00565"></a><span class="lineno">  565</span> </div>
-<div class="line"><a id="l00566" name="l00566"></a><span class="lineno">  566</span>      <span class="keyword">auto</span> getSubA = [&amp;a, &amp;view, ij_local]() {</div>
-<div class="line"><a id="l00567" name="l00567"></a><span class="lineno">  567</span>        <span class="keywordflow">return</span> <a class="code hl_function" href="matrix_2tile_8h.html#a1f09c7706a724d254208754b5691ac8c">splitTile</a>(a.readwrite(ij_local), view(ij_local));</div>
-<div class="line"><a id="l00568" name="l00568"></a><span class="lineno">  568</span>      };</div>
+<div class="line"><a id="l00557" name="l00557"></a><span class="lineno">  557</span>  <span class="keyword">const</span> <span class="keyword">auto</span> dist = a.distribution();</div>
+<div class="line"><a id="l00558" name="l00558"></a><span class="lineno">  558</span> </div>
+<div class="line"><a id="l00559" name="l00559"></a><span class="lineno">  559</span>  <span class="keyword">const</span> LocalTileIndex at_start = view.begin();</div>
+<div class="line"><a id="l00560" name="l00560"></a><span class="lineno">  560</span> </div>
+<div class="line"><a id="l00561" name="l00561"></a><span class="lineno">  561</span>  <span class="keywordflow">for</span> (SizeType i = at_start.row(); i &lt; dist.localNrTiles().rows(); ++i) {</div>
+<div class="line"><a id="l00562" name="l00562"></a><span class="lineno">  562</span>    <span class="keyword">const</span> <span class="keyword">auto</span> limit = dist.template nextLocalTileFromGlobalTile&lt;Coord::Col&gt;(</div>
+<div class="line"><a id="l00563" name="l00563"></a><span class="lineno">  563</span>        dist.template globalTileFromLocalTile&lt;Coord::Row&gt;(i) + 1);</div>
+<div class="line"><a id="l00564" name="l00564"></a><span class="lineno">  564</span>    <span class="keywordflow">for</span> (SizeType j = at_start.col(); j &lt; limit; ++j) {</div>
+<div class="line"><a id="l00565" name="l00565"></a><span class="lineno">  565</span>      <span class="keyword">const</span> LocalTileIndex ij_local{i, j};</div>
+<div class="line"><a id="l00566" name="l00566"></a><span class="lineno">  566</span>      <span class="keyword">const</span> GlobalTileIndex ij = dist.globalTileIndex(ij_local);</div>
+<div class="line"><a id="l00567" name="l00567"></a><span class="lineno">  567</span> </div>
+<div class="line"><a id="l00568" name="l00568"></a><span class="lineno">  568</span>      <span class="keyword">const</span> <span class="keywordtype">bool</span> is_diagonal_tile = (ij.row() == ij.col());</div>
 <div class="line"><a id="l00569" name="l00569"></a><span class="lineno">  569</span> </div>
-<div class="line"><a id="l00570" name="l00570"></a><span class="lineno">  570</span>      <span class="comment">// The first column of the trailing matrix (except for the very first global tile) has to be</span></div>
-<div class="line"><a id="l00571" name="l00571"></a><span class="lineno">  571</span>      <span class="comment">// updated first, in order to unlock the next iteration as soon as possible.</span></div>
-<div class="line"><a id="l00572" name="l00572"></a><span class="lineno">  572</span>      <span class="keyword">const</span> <span class="keyword">auto</span> priority = (j == at_start.col()) ? thread_priority::high : thread_priority::normal;</div>
+<div class="line"><a id="l00570" name="l00570"></a><span class="lineno">  570</span>      <span class="keyword">auto</span> getSubA = [&amp;a, &amp;view, ij_local]() {</div>
+<div class="line"><a id="l00571" name="l00571"></a><span class="lineno">  571</span>        <span class="keywordflow">return</span> <a class="code hl_function" href="matrix_2tile_8h.html#a1f09c7706a724d254208754b5691ac8c">splitTile</a>(a.readwrite(ij_local), view(ij_local));</div>
+<div class="line"><a id="l00572" name="l00572"></a><span class="lineno">  572</span>      };</div>
 <div class="line"><a id="l00573" name="l00573"></a><span class="lineno">  573</span> </div>
-<div class="line"><a id="l00574" name="l00574"></a><span class="lineno">  574</span>      <span class="keywordflow">if</span> (is_diagonal_tile) {</div>
-<div class="line"><a id="l00575" name="l00575"></a><span class="lineno">  575</span>        her2kDiag&lt;B&gt;(priority, v.read(ij_local), x.read(ij_local), getSubA());</div>
-<div class="line"><a id="l00576" name="l00576"></a><span class="lineno">  576</span>      }</div>
-<div class="line"><a id="l00577" name="l00577"></a><span class="lineno">  577</span>      <span class="keywordflow">else</span> {</div>
-<div class="line"><a id="l00578" name="l00578"></a><span class="lineno">  578</span>        <span class="comment">// A -= X . V*</span></div>
-<div class="line"><a id="l00579" name="l00579"></a><span class="lineno">  579</span>        her2kOffDiag&lt;B&gt;(priority, x.read(ij_local), v.read(<a class="code hl_function" href="index2d_8h.html#a024753ac73fbefa174548c575327862b">transposed</a>(ij_local)), getSubA());</div>
-<div class="line"><a id="l00580" name="l00580"></a><span class="lineno">  580</span> </div>
-<div class="line"><a id="l00581" name="l00581"></a><span class="lineno">  581</span>        <span class="comment">// A -= V . X*</span></div>
-<div class="line"><a id="l00582" name="l00582"></a><span class="lineno">  582</span>        her2kOffDiag&lt;B&gt;(priority, v.read(ij_local), x.read(<a class="code hl_function" href="index2d_8h.html#a024753ac73fbefa174548c575327862b">transposed</a>(ij_local)), getSubA());</div>
-<div class="line"><a id="l00583" name="l00583"></a><span class="lineno">  583</span>      }</div>
-<div class="line"><a id="l00584" name="l00584"></a><span class="lineno">  584</span>    }</div>
-<div class="line"><a id="l00585" name="l00585"></a><span class="lineno">  585</span>  }</div>
-<div class="line"><a id="l00586" name="l00586"></a><span class="lineno">  586</span>}</div>
-<div class="line"><a id="l00587" name="l00587"></a><span class="lineno">  587</span> </div>
-<div class="line"><a id="l00588" name="l00588"></a><span class="lineno">  588</span>}</div>
-<div class="line"><a id="l00589" name="l00589"></a><span class="lineno">  589</span> </div>
-<div class="line"><a id="l00590" name="l00590"></a><span class="lineno">  590</span><span class="keyword">namespace </span>distributed {</div>
-<div class="line"><a id="l00591" name="l00591"></a><span class="lineno">  591</span><span class="keyword">template</span> &lt;Device D, <span class="keyword">class</span> T&gt;</div>
-<div class="line"><a id="l00592" name="l00592"></a><span class="lineno">  592</span>T computeReflector(<span class="keyword">const</span> <span class="keywordtype">bool</span> has_head, comm::Communicator&amp; communicator,</div>
-<div class="line"><a id="l00593" name="l00593"></a><span class="lineno">  593</span>                   <span class="keyword">const</span> std::vector&lt;matrix::Tile&lt;T, D&gt;&gt;&amp; panel, SizeType j) {</div>
-<div class="line"><a id="l00594" name="l00594"></a><span class="lineno">  594</span>  std::array&lt;T, 2&gt; x0_and_squares = computeX0AndSquares(has_head, panel, j);</div>
-<div class="line"><a id="l00595" name="l00595"></a><span class="lineno">  595</span> </div>
-<div class="line"><a id="l00596" name="l00596"></a><span class="lineno">  596</span>  <span class="comment">// Note:</span></div>
-<div class="line"><a id="l00597" name="l00597"></a><span class="lineno">  597</span>  <span class="comment">// This is an optimization for grouping two separate low bandwidth communications, respectively</span></div>
-<div class="line"><a id="l00598" name="l00598"></a><span class="lineno">  598</span>  <span class="comment">// bcast(x0) and reduce(norm), where the latency was degrading performances.</span></div>
-<div class="line"><a id="l00599" name="l00599"></a><span class="lineno">  599</span>  <span class="comment">//</span></div>
-<div class="line"><a id="l00600" name="l00600"></a><span class="lineno">  600</span>  <span class="comment">// In particular this allReduce allows to:</span></div>
-<div class="line"><a id="l00601" name="l00601"></a><span class="lineno">  601</span>  <span class="comment">// - bcast x0, since for all ranks is 0 and just the root rank has the real value;</span></div>
-<div class="line"><a id="l00602" name="l00602"></a><span class="lineno">  602</span>  <span class="comment">// - allReduce squares for the norm computation.</span></div>
+<div class="line"><a id="l00574" name="l00574"></a><span class="lineno">  574</span>      <span class="comment">// The first column of the trailing matrix (except for the very first global tile) has to be</span></div>
+<div class="line"><a id="l00575" name="l00575"></a><span class="lineno">  575</span>      <span class="comment">// updated first, in order to unlock the next iteration as soon as possible.</span></div>
+<div class="line"><a id="l00576" name="l00576"></a><span class="lineno">  576</span>      <span class="keyword">const</span> <span class="keyword">auto</span> priority = (j == at_start.col()) ? thread_priority::high : thread_priority::normal;</div>
+<div class="line"><a id="l00577" name="l00577"></a><span class="lineno">  577</span> </div>
+<div class="line"><a id="l00578" name="l00578"></a><span class="lineno">  578</span>      <span class="keywordflow">if</span> (is_diagonal_tile) {</div>
+<div class="line"><a id="l00579" name="l00579"></a><span class="lineno">  579</span>        her2kDiag&lt;B&gt;(priority, v.read(ij_local), x.read(ij_local), getSubA());</div>
+<div class="line"><a id="l00580" name="l00580"></a><span class="lineno">  580</span>      }</div>
+<div class="line"><a id="l00581" name="l00581"></a><span class="lineno">  581</span>      <span class="keywordflow">else</span> {</div>
+<div class="line"><a id="l00582" name="l00582"></a><span class="lineno">  582</span>        <span class="comment">// A -= X . V*</span></div>
+<div class="line"><a id="l00583" name="l00583"></a><span class="lineno">  583</span>        her2kOffDiag&lt;B&gt;(priority, x.read(ij_local), v.read(<a class="code hl_function" href="index2d_8h.html#a024753ac73fbefa174548c575327862b">transposed</a>(ij_local)), getSubA());</div>
+<div class="line"><a id="l00584" name="l00584"></a><span class="lineno">  584</span> </div>
+<div class="line"><a id="l00585" name="l00585"></a><span class="lineno">  585</span>        <span class="comment">// A -= V . X*</span></div>
+<div class="line"><a id="l00586" name="l00586"></a><span class="lineno">  586</span>        her2kOffDiag&lt;B&gt;(priority, v.read(ij_local), x.read(<a class="code hl_function" href="index2d_8h.html#a024753ac73fbefa174548c575327862b">transposed</a>(ij_local)), getSubA());</div>
+<div class="line"><a id="l00587" name="l00587"></a><span class="lineno">  587</span>      }</div>
+<div class="line"><a id="l00588" name="l00588"></a><span class="lineno">  588</span>    }</div>
+<div class="line"><a id="l00589" name="l00589"></a><span class="lineno">  589</span>  }</div>
+<div class="line"><a id="l00590" name="l00590"></a><span class="lineno">  590</span>}</div>
+<div class="line"><a id="l00591" name="l00591"></a><span class="lineno">  591</span> </div>
+<div class="line"><a id="l00592" name="l00592"></a><span class="lineno">  592</span>}</div>
+<div class="line"><a id="l00593" name="l00593"></a><span class="lineno">  593</span> </div>
+<div class="line"><a id="l00594" name="l00594"></a><span class="lineno">  594</span><span class="keyword">namespace </span>distributed {</div>
+<div class="line"><a id="l00595" name="l00595"></a><span class="lineno">  595</span><span class="keyword">template</span> &lt;Device D, <span class="keyword">class</span> T&gt;</div>
+<div class="line"><a id="l00596" name="l00596"></a><span class="lineno">  596</span>T computeReflector(<span class="keyword">const</span> <span class="keywordtype">bool</span> has_head, comm::Communicator&amp; communicator,</div>
+<div class="line"><a id="l00597" name="l00597"></a><span class="lineno">  597</span>                   <span class="keyword">const</span> std::vector&lt;matrix::Tile&lt;T, D&gt;&gt;&amp; panel, SizeType j) {</div>
+<div class="line"><a id="l00598" name="l00598"></a><span class="lineno">  598</span>  std::array&lt;T, 2&gt; x0_and_squares = computeX0AndSquares(has_head, panel, j);</div>
+<div class="line"><a id="l00599" name="l00599"></a><span class="lineno">  599</span> </div>
+<div class="line"><a id="l00600" name="l00600"></a><span class="lineno">  600</span>  <span class="comment">// Note:</span></div>
+<div class="line"><a id="l00601" name="l00601"></a><span class="lineno">  601</span>  <span class="comment">// This is an optimization for grouping two separate low bandwidth communications, respectively</span></div>
+<div class="line"><a id="l00602" name="l00602"></a><span class="lineno">  602</span>  <span class="comment">// bcast(x0) and reduce(norm), where the latency was degrading performances.</span></div>
 <div class="line"><a id="l00603" name="l00603"></a><span class="lineno">  603</span>  <span class="comment">//</span></div>
-<div class="line"><a id="l00604" name="l00604"></a><span class="lineno">  604</span>  <span class="comment">// Moreover, by all-reducing squares and broadcasting x0, all ranks have all the information to</span></div>
-<div class="line"><a id="l00605" name="l00605"></a><span class="lineno">  605</span>  <span class="comment">// update locally the reflectors (section they have). This is more efficient than computing params</span></div>
-<div class="line"><a id="l00606" name="l00606"></a><span class="lineno">  606</span>  <span class="comment">// (e.g. norm, y, tau) just on the root rank and then having to broadcast them (i.e. additional</span></div>
-<div class="line"><a id="l00607" name="l00607"></a><span class="lineno">  607</span>  <span class="comment">// communication).</span></div>
-<div class="line"><a id="l00608" name="l00608"></a><span class="lineno">  608</span>  comm::sync::allReduceInPlace(communicator, MPI_SUM,</div>
-<div class="line"><a id="l00609" name="l00609"></a><span class="lineno">  609</span>                               common::make_data(x0_and_squares.data(),</div>
-<div class="line"><a id="l00610" name="l00610"></a><span class="lineno">  610</span>                                                 <a class="code hl_function" href="types_8h.html#ab1f0edc8e1281293c9c1325cb9d4bec9">to_SizeType</a>(x0_and_squares.size())));</div>
-<div class="line"><a id="l00611" name="l00611"></a><span class="lineno">  611</span> </div>
-<div class="line"><a id="l00612" name="l00612"></a><span class="lineno">  612</span>  <span class="keyword">auto</span> tau = computeReflectorAndTau(has_head, panel, j, std::move(x0_and_squares));</div>
-<div class="line"><a id="l00613" name="l00613"></a><span class="lineno">  613</span> </div>
-<div class="line"><a id="l00614" name="l00614"></a><span class="lineno">  614</span>  <span class="keywordflow">return</span> tau;</div>
-<div class="line"><a id="l00615" name="l00615"></a><span class="lineno">  615</span>}</div>
-<div class="line"><a id="l00616" name="l00616"></a><span class="lineno">  616</span> </div>
-<div class="line"><a id="l00617" name="l00617"></a><span class="lineno">  617</span><span class="keyword">template</span> &lt;<span class="keyword">class</span> MatrixLikeA, <span class="keyword">class</span> MatrixLikeTaus, <span class="keyword">class</span> TriggerSender, <span class="keyword">class</span> CommSender&gt;</div>
-<div class="line"><a id="l00618" name="l00618"></a><span class="lineno">  618</span><span class="keywordtype">void</span> computePanelReflectors(TriggerSender&amp;&amp; trigger, comm::IndexT_MPI rank_v0,</div>
-<div class="line"><a id="l00619" name="l00619"></a><span class="lineno">  619</span>                            CommSender&amp;&amp; mpi_col_chain_panel, MatrixLikeA&amp; mat_a,</div>
-<div class="line"><a id="l00620" name="l00620"></a><span class="lineno">  620</span>                            MatrixLikeTaus&amp; mat_taus, SizeType j_sub,</div>
-<div class="line"><a id="l00621" name="l00621"></a><span class="lineno">  621</span>                            <span class="keyword">const</span> matrix::SubPanelView&amp; panel_view) {</div>
-<div class="line"><a id="l00622" name="l00622"></a><span class="lineno">  622</span>  <span class="keyword">static</span> Device <span class="keyword">constexpr</span> D = MatrixLikeA::device;</div>
-<div class="line"><a id="l00623" name="l00623"></a><span class="lineno">  623</span>  <span class="keyword">using </span>T = <span class="keyword">typename</span> MatrixLikeA::ElementType;</div>
-<div class="line"><a id="l00624" name="l00624"></a><span class="lineno">  624</span>  <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
-<div class="line"><a id="l00625" name="l00625"></a><span class="lineno">  625</span>  <span class="keyword">namespace </span>di = dlaf::internal;</div>
-<div class="line"><a id="l00626" name="l00626"></a><span class="lineno">  626</span> </div>
-<div class="line"><a id="l00627" name="l00627"></a><span class="lineno">  627</span>  std::vector&lt;matrix::ReadWriteTileSender&lt;T, D&gt;&gt; panel_tiles;</div>
-<div class="line"><a id="l00628" name="l00628"></a><span class="lineno">  628</span>  panel_tiles.reserve(<a class="code hl_function" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(std::distance(panel_view.iteratorLocal().begin(),</div>
-<div class="line"><a id="l00629" name="l00629"></a><span class="lineno">  629</span>                                             panel_view.iteratorLocal().end())));</div>
-<div class="line"><a id="l00630" name="l00630"></a><span class="lineno">  630</span>  <span class="keywordflow">for</span> (<span class="keyword">const</span> <span class="keyword">auto</span>&amp; i : panel_view.iteratorLocal()) {</div>
-<div class="line"><a id="l00631" name="l00631"></a><span class="lineno">  631</span>    <span class="keyword">const</span> matrix::SubTileSpec&amp; spec = panel_view(i);</div>
-<div class="line"><a id="l00632" name="l00632"></a><span class="lineno">  632</span>    panel_tiles.emplace_back(matrix::splitTile(mat_a.readwrite(i), spec));</div>
-<div class="line"><a id="l00633" name="l00633"></a><span class="lineno">  633</span>  }</div>
-<div class="line"><a id="l00634" name="l00634"></a><span class="lineno">  634</span> </div>
-<div class="line"><a id="l00635" name="l00635"></a><span class="lineno">  635</span>  <span class="keyword">const</span> std::size_t nthreads = getReductionToBandPanelNWorkers();</div>
-<div class="line"><a id="l00636" name="l00636"></a><span class="lineno">  636</span>  <span class="keyword">auto</span> s =</div>
-<div class="line"><a id="l00637" name="l00637"></a><span class="lineno">  637</span>      ex::when_all(ex::just(std::make_unique&lt;pika::barrier&lt;&gt;&gt;(nthreads),</div>
-<div class="line"><a id="l00638" name="l00638"></a><span class="lineno">  638</span>                            std::vector&lt;common::internal::vector&lt;T&gt;&gt;{}),  <span class="comment">// w (internally required)</span></div>
-<div class="line"><a id="l00639" name="l00639"></a><span class="lineno">  639</span>                   mat_taus.readwrite(GlobalTileIndex(j_sub, 0)),</div>
-<div class="line"><a id="l00640" name="l00640"></a><span class="lineno">  640</span>                   ex::when_all_vector(std::move(panel_tiles)),</div>
-<div class="line"><a id="l00641" name="l00641"></a><span class="lineno">  641</span>                   std::forward&lt;CommSender&gt;(mpi_col_chain_panel), std::forward&lt;TriggerSender&gt;(trigger)) |</div>
-<div class="line"><a id="l00642" name="l00642"></a><span class="lineno">  642</span>      di::continues_on(di::getBackendScheduler&lt;Backend::MC&gt;(pika::execution::thread_priority::high)) |</div>
-<div class="line"><a id="l00643" name="l00643"></a><span class="lineno">  643</span>      ex::bulk(nthreads, [nthreads, rank_v0,</div>
-<div class="line"><a id="l00644" name="l00644"></a><span class="lineno">  644</span>                          cols = panel_view.cols()](<span class="keyword">const</span> std::size_t index, <span class="keyword">auto</span>&amp; barrier_ptr, <span class="keyword">auto</span>&amp; w,</div>
-<div class="line"><a id="l00645" name="l00645"></a><span class="lineno">  645</span>                                                    <span class="keyword">auto</span>&amp; taus, <span class="keyword">auto</span>&amp; tiles, <span class="keyword">auto</span>&amp;&amp; pcomm) {</div>
-<div class="line"><a id="l00646" name="l00646"></a><span class="lineno">  646</span>        const bool rankHasHead = rank_v0 == pcomm.get().rank();</div>
-<div class="line"><a id="l00647" name="l00647"></a><span class="lineno">  647</span> </div>
-<div class="line"><a id="l00648" name="l00648"></a><span class="lineno">  648</span>        const auto barrier_busy_wait = getReductionToBandBarrierBusyWait();</div>
-<div class="line"><a id="l00649" name="l00649"></a><span class="lineno">  649</span>        const std::size_t batch_size = util::ceilDiv(tiles.size(), nthreads);</div>
-<div class="line"><a id="l00650" name="l00650"></a><span class="lineno">  650</span>        const std::size_t begin = index * batch_size;</div>
-<div class="line"><a id="l00651" name="l00651"></a><span class="lineno">  651</span>        const std::size_t end = std::min(index * batch_size + batch_size, tiles.size());</div>
-<div class="line"><a id="l00652" name="l00652"></a><span class="lineno">  652</span>        const SizeType nrefls = taus.size().rows();</div>
-<div class="line"><a id="l00653" name="l00653"></a><span class="lineno">  653</span> </div>
-<div class="line"><a id="l00654" name="l00654"></a><span class="lineno">  654</span>        if (index == 0) {</div>
-<div class="line"><a id="l00655" name="l00655"></a><span class="lineno">  655</span>          w.resize(nthreads);</div>
-<div class="line"><a id="l00656" name="l00656"></a><span class="lineno">  656</span>        }</div>
+<div class="line"><a id="l00604" name="l00604"></a><span class="lineno">  604</span>  <span class="comment">// In particular this allReduce allows to:</span></div>
+<div class="line"><a id="l00605" name="l00605"></a><span class="lineno">  605</span>  <span class="comment">// - bcast x0, since for all ranks is 0 and just the root rank has the real value;</span></div>
+<div class="line"><a id="l00606" name="l00606"></a><span class="lineno">  606</span>  <span class="comment">// - allReduce squares for the norm computation.</span></div>
+<div class="line"><a id="l00607" name="l00607"></a><span class="lineno">  607</span>  <span class="comment">//</span></div>
+<div class="line"><a id="l00608" name="l00608"></a><span class="lineno">  608</span>  <span class="comment">// Moreover, by all-reducing squares and broadcasting x0, all ranks have all the information to</span></div>
+<div class="line"><a id="l00609" name="l00609"></a><span class="lineno">  609</span>  <span class="comment">// update locally the reflectors (section they have). This is more efficient than computing params</span></div>
+<div class="line"><a id="l00610" name="l00610"></a><span class="lineno">  610</span>  <span class="comment">// (e.g. norm, y, tau) just on the root rank and then having to broadcast them (i.e. additional</span></div>
+<div class="line"><a id="l00611" name="l00611"></a><span class="lineno">  611</span>  <span class="comment">// communication).</span></div>
+<div class="line"><a id="l00612" name="l00612"></a><span class="lineno">  612</span>  comm::sync::allReduceInPlace(communicator, MPI_SUM,</div>
+<div class="line"><a id="l00613" name="l00613"></a><span class="lineno">  613</span>                               common::make_data(x0_and_squares.data(),</div>
+<div class="line"><a id="l00614" name="l00614"></a><span class="lineno">  614</span>                                                 <a class="code hl_function" href="types_8h.html#ab1f0edc8e1281293c9c1325cb9d4bec9">to_SizeType</a>(x0_and_squares.size())));</div>
+<div class="line"><a id="l00615" name="l00615"></a><span class="lineno">  615</span> </div>
+<div class="line"><a id="l00616" name="l00616"></a><span class="lineno">  616</span>  <span class="keyword">auto</span> tau = computeReflectorAndTau(has_head, panel, j, std::move(x0_and_squares));</div>
+<div class="line"><a id="l00617" name="l00617"></a><span class="lineno">  617</span> </div>
+<div class="line"><a id="l00618" name="l00618"></a><span class="lineno">  618</span>  <span class="keywordflow">return</span> tau;</div>
+<div class="line"><a id="l00619" name="l00619"></a><span class="lineno">  619</span>}</div>
+<div class="line"><a id="l00620" name="l00620"></a><span class="lineno">  620</span> </div>
+<div class="line"><a id="l00621" name="l00621"></a><span class="lineno">  621</span><span class="keyword">template</span> &lt;<span class="keyword">class</span> MatrixLikeA, <span class="keyword">class</span> MatrixLikeTaus, <span class="keyword">class</span> TriggerSender, <span class="keyword">class</span> CommSender&gt;</div>
+<div class="line"><a id="l00622" name="l00622"></a><span class="lineno">  622</span><span class="keywordtype">void</span> computePanelReflectors(TriggerSender&amp;&amp; trigger, comm::IndexT_MPI rank_v0,</div>
+<div class="line"><a id="l00623" name="l00623"></a><span class="lineno">  623</span>                            CommSender&amp;&amp; mpi_col_chain_panel, MatrixLikeA&amp; mat_a,</div>
+<div class="line"><a id="l00624" name="l00624"></a><span class="lineno">  624</span>                            MatrixLikeTaus&amp; mat_taus, SizeType j_sub,</div>
+<div class="line"><a id="l00625" name="l00625"></a><span class="lineno">  625</span>                            <span class="keyword">const</span> matrix::SubPanelView&amp; panel_view) {</div>
+<div class="line"><a id="l00626" name="l00626"></a><span class="lineno">  626</span>  <span class="keyword">static</span> Device <span class="keyword">constexpr</span> D = MatrixLikeA::device;</div>
+<div class="line"><a id="l00627" name="l00627"></a><span class="lineno">  627</span>  <span class="keyword">using </span>T = <span class="keyword">typename</span> MatrixLikeA::ElementType;</div>
+<div class="line"><a id="l00628" name="l00628"></a><span class="lineno">  628</span>  <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
+<div class="line"><a id="l00629" name="l00629"></a><span class="lineno">  629</span>  <span class="keyword">namespace </span>di = dlaf::internal;</div>
+<div class="line"><a id="l00630" name="l00630"></a><span class="lineno">  630</span> </div>
+<div class="line"><a id="l00631" name="l00631"></a><span class="lineno">  631</span>  std::vector&lt;matrix::ReadWriteTileSender&lt;T, D&gt;&gt; panel_tiles;</div>
+<div class="line"><a id="l00632" name="l00632"></a><span class="lineno">  632</span>  panel_tiles.reserve(<a class="code hl_function" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(std::distance(panel_view.iteratorLocal().begin(),</div>
+<div class="line"><a id="l00633" name="l00633"></a><span class="lineno">  633</span>                                             panel_view.iteratorLocal().end())));</div>
+<div class="line"><a id="l00634" name="l00634"></a><span class="lineno">  634</span>  <span class="keywordflow">for</span> (<span class="keyword">const</span> <span class="keyword">auto</span>&amp; i : panel_view.iteratorLocal()) {</div>
+<div class="line"><a id="l00635" name="l00635"></a><span class="lineno">  635</span>    <span class="keyword">const</span> matrix::SubTileSpec&amp; spec = panel_view(i);</div>
+<div class="line"><a id="l00636" name="l00636"></a><span class="lineno">  636</span>    panel_tiles.emplace_back(matrix::splitTile(mat_a.readwrite(i), spec));</div>
+<div class="line"><a id="l00637" name="l00637"></a><span class="lineno">  637</span>  }</div>
+<div class="line"><a id="l00638" name="l00638"></a><span class="lineno">  638</span> </div>
+<div class="line"><a id="l00639" name="l00639"></a><span class="lineno">  639</span>  <span class="keyword">const</span> std::size_t nworkers = [nrtiles = panel_tiles.size()]() {</div>
+<div class="line"><a id="l00640" name="l00640"></a><span class="lineno">  640</span>    <span class="keyword">const</span> std::size_t min_workers = 1;</div>
+<div class="line"><a id="l00641" name="l00641"></a><span class="lineno">  641</span>    <span class="keyword">const</span> std::size_t available_workers = get_red2band_panel_nworkers();</div>
+<div class="line"><a id="l00642" name="l00642"></a><span class="lineno">  642</span>    <span class="keyword">const</span> std::size_t ideal_workers = util::ceilDiv(<a class="code hl_function" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(nrtiles), <a class="code hl_function" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(2));</div>
+<div class="line"><a id="l00643" name="l00643"></a><span class="lineno">  643</span>    <span class="keywordflow">return</span> std::clamp(ideal_workers, min_workers, available_workers);</div>
+<div class="line"><a id="l00644" name="l00644"></a><span class="lineno">  644</span>  }();</div>
+<div class="line"><a id="l00645" name="l00645"></a><span class="lineno">  645</span> </div>
+<div class="line"><a id="l00646" name="l00646"></a><span class="lineno">  646</span>  ex::start_detached(</div>
+<div class="line"><a id="l00647" name="l00647"></a><span class="lineno">  647</span>      ex::when_all(ex::just(std::make_unique&lt;pika::barrier&lt;&gt;&gt;(nworkers),</div>
+<div class="line"><a id="l00648" name="l00648"></a><span class="lineno">  648</span>                            std::vector&lt;common::internal::vector&lt;T&gt;&gt;{}),  <span class="comment">// w (internally required)</span></div>
+<div class="line"><a id="l00649" name="l00649"></a><span class="lineno">  649</span>                   mat_taus.readwrite(GlobalTileIndex(j_sub, 0)),</div>
+<div class="line"><a id="l00650" name="l00650"></a><span class="lineno">  650</span>                   ex::when_all_vector(std::move(panel_tiles)),</div>
+<div class="line"><a id="l00651" name="l00651"></a><span class="lineno">  651</span>                   std::forward&lt;CommSender&gt;(mpi_col_chain_panel), std::forward&lt;TriggerSender&gt;(trigger)) |</div>
+<div class="line"><a id="l00652" name="l00652"></a><span class="lineno">  652</span>      di::continues_on(di::getBackendScheduler&lt;Backend::MC&gt;(pika::execution::thread_priority::high)) |</div>
+<div class="line"><a id="l00653" name="l00653"></a><span class="lineno">  653</span>      ex::bulk(nworkers, [nworkers, rank_v0,</div>
+<div class="line"><a id="l00654" name="l00654"></a><span class="lineno">  654</span>                          cols = panel_view.cols()](<span class="keyword">const</span> std::size_t index, <span class="keyword">auto</span>&amp; barrier_ptr, <span class="keyword">auto</span>&amp; w,</div>
+<div class="line"><a id="l00655" name="l00655"></a><span class="lineno">  655</span>                                                    <span class="keyword">auto</span>&amp; taus, <span class="keyword">auto</span>&amp; tiles, <span class="keyword">auto</span>&amp;&amp; pcomm) {</div>
+<div class="line"><a id="l00656" name="l00656"></a><span class="lineno">  656</span>        const bool rankHasHead = rank_v0 == pcomm.get().rank();</div>
 <div class="line"><a id="l00657" name="l00657"></a><span class="lineno">  657</span> </div>
-<div class="line"><a id="l00658" name="l00658"></a><span class="lineno">  658</span>        for (SizeType j = 0; j &lt; nrefls; ++j) {</div>
-<div class="line"><a id="l00659" name="l00659"></a><span class="lineno">  659</span>          <span class="comment">// STEP1: compute tau and reflector (single-thread)</span></div>
-<div class="line"><a id="l00660" name="l00660"></a><span class="lineno">  660</span>          <span class="keywordflow">if</span> (index == 0) {</div>
-<div class="line"><a id="l00661" name="l00661"></a><span class="lineno">  661</span>            <span class="keyword">const</span> <span class="keywordtype">bool</span> has_head = rankHasHead;</div>
-<div class="line"><a id="l00662" name="l00662"></a><span class="lineno">  662</span>            taus({j, 0}) = computeReflector(has_head, pcomm.get(), tiles, j);</div>
-<div class="line"><a id="l00663" name="l00663"></a><span class="lineno">  663</span>          }</div>
-<div class="line"><a id="l00664" name="l00664"></a><span class="lineno">  664</span>          barrier_ptr-&gt;arrive_and_wait(barrier_busy_wait);</div>
-<div class="line"><a id="l00665" name="l00665"></a><span class="lineno">  665</span> </div>
-<div class="line"><a id="l00666" name="l00666"></a><span class="lineno">  666</span>          <span class="comment">// STEP2a: compute w (multi-threaded)</span></div>
-<div class="line"><a id="l00667" name="l00667"></a><span class="lineno">  667</span>          <span class="keyword">const</span> SizeType pt_cols = cols - (j + 1);</div>
-<div class="line"><a id="l00668" name="l00668"></a><span class="lineno">  668</span>          <span class="keywordflow">if</span> (pt_cols == 0)</div>
-<div class="line"><a id="l00669" name="l00669"></a><span class="lineno">  669</span>            <span class="keywordflow">break</span>;</div>
-<div class="line"><a id="l00670" name="l00670"></a><span class="lineno">  670</span> </div>
-<div class="line"><a id="l00671" name="l00671"></a><span class="lineno">  671</span>          <span class="keyword">const</span> <span class="keywordtype">bool</span> has_head = rankHasHead &amp;&amp; (index == 0);</div>
-<div class="line"><a id="l00672" name="l00672"></a><span class="lineno">  672</span> </div>
-<div class="line"><a id="l00673" name="l00673"></a><span class="lineno">  673</span>          w[index] = common::internal::vector&lt;T&gt;(pt_cols, 0);</div>
-<div class="line"><a id="l00674" name="l00674"></a><span class="lineno">  674</span>          computeWTrailingPanel(has_head, tiles, w[index], j, pt_cols, begin, end);</div>
-<div class="line"><a id="l00675" name="l00675"></a><span class="lineno">  675</span>          barrier_ptr-&gt;arrive_and_wait(barrier_busy_wait);</div>
-<div class="line"><a id="l00676" name="l00676"></a><span class="lineno">  676</span> </div>
-<div class="line"><a id="l00677" name="l00677"></a><span class="lineno">  677</span>          <span class="comment">// STEP2b: reduce w results (single-threaded)</span></div>
-<div class="line"><a id="l00678" name="l00678"></a><span class="lineno">  678</span>          <span class="keywordflow">if</span> (index == 0) {</div>
-<div class="line"><a id="l00679" name="l00679"></a><span class="lineno">  679</span>            dlaf::eigensolver::internal::reduceColumnVectors(w);</div>
-<div class="line"><a id="l00680" name="l00680"></a><span class="lineno">  680</span>            comm::sync::allReduceInPlace(pcomm.get(), MPI_SUM, common::make_data(w[0].data(), pt_cols));</div>
-<div class="line"><a id="l00681" name="l00681"></a><span class="lineno">  681</span>          }</div>
-<div class="line"><a id="l00682" name="l00682"></a><span class="lineno">  682</span>          barrier_ptr-&gt;arrive_and_wait(barrier_busy_wait);</div>
-<div class="line"><a id="l00683" name="l00683"></a><span class="lineno">  683</span> </div>
-<div class="line"><a id="l00684" name="l00684"></a><span class="lineno">  684</span>          <span class="comment">// STEP3: update trailing panel (multi-threaded)</span></div>
-<div class="line"><a id="l00685" name="l00685"></a><span class="lineno">  685</span>          updateTrailingPanel(has_head, tiles, j, w[0], taus({j, 0}), begin, end);</div>
-<div class="line"><a id="l00686" name="l00686"></a><span class="lineno">  686</span>          barrier_ptr-&gt;arrive_and_wait(barrier_busy_wait);</div>
-<div class="line"><a id="l00687" name="l00687"></a><span class="lineno">  687</span>        }</div>
-<div class="line"><a id="l00688" name="l00688"></a><span class="lineno">  688</span>      });</div>
-<div class="line"><a id="l00689" name="l00689"></a><span class="lineno">  689</span>  ex::start_detached(std::move(s));</div>
-<div class="line"><a id="l00690" name="l00690"></a><span class="lineno">  690</span>}</div>
-<div class="line"><a id="l00691" name="l00691"></a><span class="lineno">  691</span> </div>
-<div class="line"><a id="l00692" name="l00692"></a><span class="lineno">  692</span><span class="keyword">template</span> &lt;Backend B, Device D, <span class="keyword">class</span> T&gt;</div>
-<div class="line"><a id="l00693" name="l00693"></a><span class="lineno">  693</span><span class="keywordtype">void</span> hemmComputeX(comm::IndexT_MPI reducer_col, matrix::Panel&lt;Coord::Col, T, D&gt;&amp; x,</div>
-<div class="line"><a id="l00694" name="l00694"></a><span class="lineno">  694</span>                  matrix::Panel&lt;Coord::Row, T, D, matrix::StoreTransposed::Yes&gt;&amp; xt,</div>
-<div class="line"><a id="l00695" name="l00695"></a><span class="lineno">  695</span>                  <span class="keyword">const</span> matrix::SubMatrixView&amp; view, matrix::Matrix&lt;const T, D&gt;&amp; a,</div>
-<div class="line"><a id="l00696" name="l00696"></a><span class="lineno">  696</span>                  matrix::Panel&lt;Coord::Col, const T, D&gt;&amp; w,</div>
-<div class="line"><a id="l00697" name="l00697"></a><span class="lineno">  697</span>                  matrix::Panel&lt;Coord::Row, const T, D, matrix::StoreTransposed::Yes&gt;&amp; wt,</div>
-<div class="line"><a id="l00698" name="l00698"></a><span class="lineno">  698</span>                  comm::CommunicatorPipeline&lt;comm::CommunicatorType::Row&gt;&amp; mpi_row_chain,</div>
-<div class="line"><a id="l00699" name="l00699"></a><span class="lineno">  699</span>                  comm::CommunicatorPipeline&lt;comm::CommunicatorType::Col&gt;&amp; mpi_col_chain) {</div>
-<div class="line"><a id="l00700" name="l00700"></a><span class="lineno">  700</span>  <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
-<div class="line"><a id="l00701" name="l00701"></a><span class="lineno">  701</span> </div>
-<div class="line"><a id="l00702" name="l00702"></a><span class="lineno">  702</span>  <span class="keyword">using </span>pika::execution::thread_priority;</div>
-<div class="line"><a id="l00703" name="l00703"></a><span class="lineno">  703</span> </div>
-<div class="line"><a id="l00704" name="l00704"></a><span class="lineno">  704</span>  <span class="keyword">const</span> <span class="keyword">auto</span> dist = a.distribution();</div>
-<div class="line"><a id="l00705" name="l00705"></a><span class="lineno">  705</span>  <span class="keyword">const</span> <span class="keyword">auto</span> rank = dist.rankIndex();</div>
-<div class="line"><a id="l00706" name="l00706"></a><span class="lineno">  706</span> </div>
-<div class="line"><a id="l00707" name="l00707"></a><span class="lineno">  707</span>  <span class="comment">// Note:</span></div>
-<div class="line"><a id="l00708" name="l00708"></a><span class="lineno">  708</span>  <span class="comment">// They have to be set to zero, because all tiles are going to be reduced, and some tiles may not get</span></div>
-<div class="line"><a id="l00709" name="l00709"></a><span class="lineno">  709</span>  <span class="comment">// &quot;initialized&quot; during computation, so they should not contribute with any spurious value to the final</span></div>
-<div class="line"><a id="l00710" name="l00710"></a><span class="lineno">  710</span>  <span class="comment">// result.</span></div>
-<div class="line"><a id="l00711" name="l00711"></a><span class="lineno">  711</span>  matrix::util::set0&lt;B&gt;(thread_priority::high, x);</div>
-<div class="line"><a id="l00712" name="l00712"></a><span class="lineno">  712</span>  matrix::util::set0&lt;B&gt;(thread_priority::high, xt);</div>
-<div class="line"><a id="l00713" name="l00713"></a><span class="lineno">  713</span> </div>
-<div class="line"><a id="l00714" name="l00714"></a><span class="lineno">  714</span>  <span class="keyword">const</span> LocalTileIndex at_offset = view.begin();</div>
+<div class="line"><a id="l00658" name="l00658"></a><span class="lineno">  658</span>        const auto barrier_busy_wait = getReductionToBandBarrierBusyWait();</div>
+<div class="line"><a id="l00659" name="l00659"></a><span class="lineno">  659</span>        const std::size_t batch_size = util::ceilDiv(tiles.size(), nworkers);</div>
+<div class="line"><a id="l00660" name="l00660"></a><span class="lineno">  660</span>        const std::size_t begin = index * batch_size;</div>
+<div class="line"><a id="l00661" name="l00661"></a><span class="lineno">  661</span>        const std::size_t end = std::min(index * batch_size + batch_size, tiles.size());</div>
+<div class="line"><a id="l00662" name="l00662"></a><span class="lineno">  662</span>        const SizeType nrefls = taus.size().rows();</div>
+<div class="line"><a id="l00663" name="l00663"></a><span class="lineno">  663</span> </div>
+<div class="line"><a id="l00664" name="l00664"></a><span class="lineno">  664</span>        if (index == 0) {</div>
+<div class="line"><a id="l00665" name="l00665"></a><span class="lineno">  665</span>          w.resize(nworkers);</div>
+<div class="line"><a id="l00666" name="l00666"></a><span class="lineno">  666</span>        }</div>
+<div class="line"><a id="l00667" name="l00667"></a><span class="lineno">  667</span> </div>
+<div class="line"><a id="l00668" name="l00668"></a><span class="lineno">  668</span>        for (SizeType j = 0; j &lt; nrefls; ++j) {</div>
+<div class="line"><a id="l00669" name="l00669"></a><span class="lineno">  669</span>          <span class="comment">// STEP1: compute tau and reflector (single-thread)</span></div>
+<div class="line"><a id="l00670" name="l00670"></a><span class="lineno">  670</span>          <span class="keywordflow">if</span> (index == 0) {</div>
+<div class="line"><a id="l00671" name="l00671"></a><span class="lineno">  671</span>            <span class="keyword">const</span> <span class="keywordtype">bool</span> has_head = rankHasHead;</div>
+<div class="line"><a id="l00672" name="l00672"></a><span class="lineno">  672</span>            taus({j, 0}) = computeReflector(has_head, pcomm.get(), tiles, j);</div>
+<div class="line"><a id="l00673" name="l00673"></a><span class="lineno">  673</span>          }</div>
+<div class="line"><a id="l00674" name="l00674"></a><span class="lineno">  674</span>          barrier_ptr-&gt;arrive_and_wait(barrier_busy_wait);</div>
+<div class="line"><a id="l00675" name="l00675"></a><span class="lineno">  675</span> </div>
+<div class="line"><a id="l00676" name="l00676"></a><span class="lineno">  676</span>          <span class="comment">// STEP2a: compute w (multi-threaded)</span></div>
+<div class="line"><a id="l00677" name="l00677"></a><span class="lineno">  677</span>          <span class="keyword">const</span> SizeType pt_cols = cols - (j + 1);</div>
+<div class="line"><a id="l00678" name="l00678"></a><span class="lineno">  678</span>          <span class="keywordflow">if</span> (pt_cols == 0)</div>
+<div class="line"><a id="l00679" name="l00679"></a><span class="lineno">  679</span>            <span class="keywordflow">break</span>;</div>
+<div class="line"><a id="l00680" name="l00680"></a><span class="lineno">  680</span> </div>
+<div class="line"><a id="l00681" name="l00681"></a><span class="lineno">  681</span>          <span class="keyword">const</span> <span class="keywordtype">bool</span> has_head = rankHasHead &amp;&amp; (index == 0);</div>
+<div class="line"><a id="l00682" name="l00682"></a><span class="lineno">  682</span> </div>
+<div class="line"><a id="l00683" name="l00683"></a><span class="lineno">  683</span>          w[index] = common::internal::vector&lt;T&gt;(pt_cols, 0);</div>
+<div class="line"><a id="l00684" name="l00684"></a><span class="lineno">  684</span>          computeWTrailingPanel(has_head, tiles, w[index], j, pt_cols, begin, end);</div>
+<div class="line"><a id="l00685" name="l00685"></a><span class="lineno">  685</span>          barrier_ptr-&gt;arrive_and_wait(barrier_busy_wait);</div>
+<div class="line"><a id="l00686" name="l00686"></a><span class="lineno">  686</span> </div>
+<div class="line"><a id="l00687" name="l00687"></a><span class="lineno">  687</span>          <span class="comment">// STEP2b: reduce w results (single-threaded)</span></div>
+<div class="line"><a id="l00688" name="l00688"></a><span class="lineno">  688</span>          <span class="keywordflow">if</span> (index == 0) {</div>
+<div class="line"><a id="l00689" name="l00689"></a><span class="lineno">  689</span>            dlaf::eigensolver::internal::reduceColumnVectors(w);</div>
+<div class="line"><a id="l00690" name="l00690"></a><span class="lineno">  690</span>            comm::sync::allReduceInPlace(pcomm.get(), MPI_SUM, common::make_data(w[0].data(), pt_cols));</div>
+<div class="line"><a id="l00691" name="l00691"></a><span class="lineno">  691</span>          }</div>
+<div class="line"><a id="l00692" name="l00692"></a><span class="lineno">  692</span>          barrier_ptr-&gt;arrive_and_wait(barrier_busy_wait);</div>
+<div class="line"><a id="l00693" name="l00693"></a><span class="lineno">  693</span> </div>
+<div class="line"><a id="l00694" name="l00694"></a><span class="lineno">  694</span>          <span class="comment">// STEP3: update trailing panel (multi-threaded)</span></div>
+<div class="line"><a id="l00695" name="l00695"></a><span class="lineno">  695</span>          updateTrailingPanel(has_head, tiles, j, w[0], taus({j, 0}), begin, end);</div>
+<div class="line"><a id="l00696" name="l00696"></a><span class="lineno">  696</span>          barrier_ptr-&gt;arrive_and_wait(barrier_busy_wait);</div>
+<div class="line"><a id="l00697" name="l00697"></a><span class="lineno">  697</span>        }</div>
+<div class="line"><a id="l00698" name="l00698"></a><span class="lineno">  698</span>      }));</div>
+<div class="line"><a id="l00699" name="l00699"></a><span class="lineno">  699</span>}</div>
+<div class="line"><a id="l00700" name="l00700"></a><span class="lineno">  700</span> </div>
+<div class="line"><a id="l00701" name="l00701"></a><span class="lineno">  701</span><span class="keyword">template</span> &lt;Backend B, Device D, <span class="keyword">class</span> T&gt;</div>
+<div class="line"><a id="l00702" name="l00702"></a><span class="lineno">  702</span><span class="keywordtype">void</span> hemmComputeX(comm::IndexT_MPI reducer_col, matrix::Panel&lt;Coord::Col, T, D&gt;&amp; x,</div>
+<div class="line"><a id="l00703" name="l00703"></a><span class="lineno">  703</span>                  matrix::Panel&lt;Coord::Row, T, D, matrix::StoreTransposed::Yes&gt;&amp; xt,</div>
+<div class="line"><a id="l00704" name="l00704"></a><span class="lineno">  704</span>                  <span class="keyword">const</span> matrix::SubMatrixView&amp; view, matrix::Matrix&lt;const T, D&gt;&amp; a,</div>
+<div class="line"><a id="l00705" name="l00705"></a><span class="lineno">  705</span>                  matrix::Panel&lt;Coord::Col, const T, D&gt;&amp; w,</div>
+<div class="line"><a id="l00706" name="l00706"></a><span class="lineno">  706</span>                  matrix::Panel&lt;Coord::Row, const T, D, matrix::StoreTransposed::Yes&gt;&amp; wt,</div>
+<div class="line"><a id="l00707" name="l00707"></a><span class="lineno">  707</span>                  comm::CommunicatorPipeline&lt;comm::CommunicatorType::Row&gt;&amp; mpi_row_chain,</div>
+<div class="line"><a id="l00708" name="l00708"></a><span class="lineno">  708</span>                  comm::CommunicatorPipeline&lt;comm::CommunicatorType::Col&gt;&amp; mpi_col_chain) {</div>
+<div class="line"><a id="l00709" name="l00709"></a><span class="lineno">  709</span>  <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
+<div class="line"><a id="l00710" name="l00710"></a><span class="lineno">  710</span> </div>
+<div class="line"><a id="l00711" name="l00711"></a><span class="lineno">  711</span>  <span class="keyword">using </span>pika::execution::thread_priority;</div>
+<div class="line"><a id="l00712" name="l00712"></a><span class="lineno">  712</span> </div>
+<div class="line"><a id="l00713" name="l00713"></a><span class="lineno">  713</span>  <span class="keyword">const</span> <span class="keyword">auto</span> dist = a.distribution();</div>
+<div class="line"><a id="l00714" name="l00714"></a><span class="lineno">  714</span>  <span class="keyword">const</span> <span class="keyword">auto</span> rank = dist.rankIndex();</div>
 <div class="line"><a id="l00715" name="l00715"></a><span class="lineno">  715</span> </div>
-<div class="line"><a id="l00716" name="l00716"></a><span class="lineno">  716</span>  <span class="keywordflow">for</span> (SizeType i = at_offset.row(); i &lt; dist.localNrTiles().rows(); ++i) {</div>
-<div class="line"><a id="l00717" name="l00717"></a><span class="lineno">  717</span>    <span class="keyword">const</span> <span class="keyword">auto</span> limit = dist.template nextLocalTileFromGlobalTile&lt;Coord::Col&gt;(</div>
-<div class="line"><a id="l00718" name="l00718"></a><span class="lineno">  718</span>        dist.template globalTileFromLocalTile&lt;Coord::Row&gt;(i) + 1);</div>
-<div class="line"><a id="l00719" name="l00719"></a><span class="lineno">  719</span>    <span class="keywordflow">for</span> (SizeType j = limit - 1; j &gt;= at_offset.col(); --j) {</div>
-<div class="line"><a id="l00720" name="l00720"></a><span class="lineno">  720</span>      <span class="keyword">const</span> LocalTileIndex ij_local{i, j};</div>
-<div class="line"><a id="l00721" name="l00721"></a><span class="lineno">  721</span>      <span class="keyword">const</span> GlobalTileIndex ij = dist.globalTileIndex(ij_local);</div>
+<div class="line"><a id="l00716" name="l00716"></a><span class="lineno">  716</span>  <span class="comment">// Note:</span></div>
+<div class="line"><a id="l00717" name="l00717"></a><span class="lineno">  717</span>  <span class="comment">// They have to be set to zero, because all tiles are going to be reduced, and some tiles may not get</span></div>
+<div class="line"><a id="l00718" name="l00718"></a><span class="lineno">  718</span>  <span class="comment">// &quot;initialized&quot; during computation, so they should not contribute with any spurious value to the final</span></div>
+<div class="line"><a id="l00719" name="l00719"></a><span class="lineno">  719</span>  <span class="comment">// result.</span></div>
+<div class="line"><a id="l00720" name="l00720"></a><span class="lineno">  720</span>  matrix::util::set0&lt;B&gt;(thread_priority::high, x);</div>
+<div class="line"><a id="l00721" name="l00721"></a><span class="lineno">  721</span>  matrix::util::set0&lt;B&gt;(thread_priority::high, xt);</div>
 <div class="line"><a id="l00722" name="l00722"></a><span class="lineno">  722</span> </div>
-<div class="line"><a id="l00723" name="l00723"></a><span class="lineno">  723</span>      <span class="keyword">const</span> <span class="keywordtype">bool</span> is_diagonal_tile = (ij.row() == ij.col());</div>
+<div class="line"><a id="l00723" name="l00723"></a><span class="lineno">  723</span>  <span class="keyword">const</span> LocalTileIndex at_offset = view.begin();</div>
 <div class="line"><a id="l00724" name="l00724"></a><span class="lineno">  724</span> </div>
-<div class="line"><a id="l00725" name="l00725"></a><span class="lineno">  725</span>      <span class="keyword">auto</span> tile_a = <a class="code hl_function" href="matrix_2tile_8h.html#a1f09c7706a724d254208754b5691ac8c">splitTile</a>(a.read(ij), view(ij_local));</div>
-<div class="line"><a id="l00726" name="l00726"></a><span class="lineno">  726</span> </div>
-<div class="line"><a id="l00727" name="l00727"></a><span class="lineno">  727</span>      <span class="keywordflow">if</span> (is_diagonal_tile) {</div>
-<div class="line"><a id="l00728" name="l00728"></a><span class="lineno">  728</span>        hemmDiag&lt;B&gt;(thread_priority::high, std::move(tile_a), w.read(ij_local), x.readwrite(ij_local));</div>
-<div class="line"><a id="l00729" name="l00729"></a><span class="lineno">  729</span>      }</div>
-<div class="line"><a id="l00730" name="l00730"></a><span class="lineno">  730</span>      <span class="keywordflow">else</span> {</div>
-<div class="line"><a id="l00731" name="l00731"></a><span class="lineno">  731</span>        <span class="comment">// Note:</span></div>
-<div class="line"><a id="l00732" name="l00732"></a><span class="lineno">  732</span>        <span class="comment">// Since it is not a diagonal tile, otherwise it would have been managed in the previous</span></div>
-<div class="line"><a id="l00733" name="l00733"></a><span class="lineno">  733</span>        <span class="comment">// branch, the second operand is not available in W but it is accessible through the</span></div>
-<div class="line"><a id="l00734" name="l00734"></a><span class="lineno">  734</span>        <span class="comment">// support panel Wt.</span></div>
-<div class="line"><a id="l00735" name="l00735"></a><span class="lineno">  735</span>        <span class="comment">// However, since we are still computing the &quot;straight&quot; part, the result can be stored</span></div>
-<div class="line"><a id="l00736" name="l00736"></a><span class="lineno">  736</span>        <span class="comment">// in the &quot;local&quot; panel X.</span></div>
-<div class="line"><a id="l00737" name="l00737"></a><span class="lineno">  737</span>        hemmOffDiag&lt;B&gt;(thread_priority::high, blas::Op::NoTrans, tile_a, wt.read(ij_local),</div>
-<div class="line"><a id="l00738" name="l00738"></a><span class="lineno">  738</span>                       x.readwrite(ij_local));</div>
-<div class="line"><a id="l00739" name="l00739"></a><span class="lineno">  739</span> </div>
+<div class="line"><a id="l00725" name="l00725"></a><span class="lineno">  725</span>  <span class="keywordflow">for</span> (SizeType i = at_offset.row(); i &lt; dist.localNrTiles().rows(); ++i) {</div>
+<div class="line"><a id="l00726" name="l00726"></a><span class="lineno">  726</span>    <span class="keyword">const</span> <span class="keyword">auto</span> limit = dist.template nextLocalTileFromGlobalTile&lt;Coord::Col&gt;(</div>
+<div class="line"><a id="l00727" name="l00727"></a><span class="lineno">  727</span>        dist.template globalTileFromLocalTile&lt;Coord::Row&gt;(i) + 1);</div>
+<div class="line"><a id="l00728" name="l00728"></a><span class="lineno">  728</span>    <span class="keywordflow">for</span> (SizeType j = limit - 1; j &gt;= at_offset.col(); --j) {</div>
+<div class="line"><a id="l00729" name="l00729"></a><span class="lineno">  729</span>      <span class="keyword">const</span> LocalTileIndex ij_local{i, j};</div>
+<div class="line"><a id="l00730" name="l00730"></a><span class="lineno">  730</span>      <span class="keyword">const</span> GlobalTileIndex ij = dist.globalTileIndex(ij_local);</div>
+<div class="line"><a id="l00731" name="l00731"></a><span class="lineno">  731</span> </div>
+<div class="line"><a id="l00732" name="l00732"></a><span class="lineno">  732</span>      <span class="keyword">const</span> <span class="keywordtype">bool</span> is_diagonal_tile = (ij.row() == ij.col());</div>
+<div class="line"><a id="l00733" name="l00733"></a><span class="lineno">  733</span> </div>
+<div class="line"><a id="l00734" name="l00734"></a><span class="lineno">  734</span>      <span class="keyword">auto</span> tile_a = <a class="code hl_function" href="matrix_2tile_8h.html#a1f09c7706a724d254208754b5691ac8c">splitTile</a>(a.read(ij), view(ij_local));</div>
+<div class="line"><a id="l00735" name="l00735"></a><span class="lineno">  735</span> </div>
+<div class="line"><a id="l00736" name="l00736"></a><span class="lineno">  736</span>      <span class="keywordflow">if</span> (is_diagonal_tile) {</div>
+<div class="line"><a id="l00737" name="l00737"></a><span class="lineno">  737</span>        hemmDiag&lt;B&gt;(thread_priority::high, std::move(tile_a), w.read(ij_local), x.readwrite(ij_local));</div>
+<div class="line"><a id="l00738" name="l00738"></a><span class="lineno">  738</span>      }</div>
+<div class="line"><a id="l00739" name="l00739"></a><span class="lineno">  739</span>      <span class="keywordflow">else</span> {</div>
 <div class="line"><a id="l00740" name="l00740"></a><span class="lineno">  740</span>        <span class="comment">// Note:</span></div>
-<div class="line"><a id="l00741" name="l00741"></a><span class="lineno">  741</span>        <span class="comment">// Here we are considering the hermitian part of A, so coordinates have to be &quot;mirrored&quot;.</span></div>
-<div class="line"><a id="l00742" name="l00742"></a><span class="lineno">  742</span>        <span class="comment">// So, first step is identifying the mirrored cell coordinate, i.e. swap row/col, together</span></div>
-<div class="line"><a id="l00743" name="l00743"></a><span class="lineno">  743</span>        <span class="comment">// with realizing if the new coord lays on an owned row or not.</span></div>
-<div class="line"><a id="l00744" name="l00744"></a><span class="lineno">  744</span>        <span class="comment">// If yes, the result can be stored in the X, otherwise Xt support panel will be used.</span></div>
-<div class="line"><a id="l00745" name="l00745"></a><span class="lineno">  745</span>        <span class="comment">// For what concerns the second operand, it can be found for sure in W. In fact, the</span></div>
-<div class="line"><a id="l00746" name="l00746"></a><span class="lineno">  746</span>        <span class="comment">// multiplication requires matching col(A) == row(W), but since coordinates are mirrored,</span></div>
-<div class="line"><a id="l00747" name="l00747"></a><span class="lineno">  747</span>        <span class="comment">// we are matching row(A) == row(W), so it is local by construction.</span></div>
-<div class="line"><a id="l00748" name="l00748"></a><span class="lineno">  748</span>        <span class="keyword">const</span> <span class="keyword">auto</span> owner = dist.template rankGlobalTile&lt;Coord::Row&gt;(ij.col());</div>
-<div class="line"><a id="l00749" name="l00749"></a><span class="lineno">  749</span> </div>
-<div class="line"><a id="l00750" name="l00750"></a><span class="lineno">  750</span>        <span class="keyword">const</span> LocalTileIndex index_x{dist.template localTileFromGlobalTile&lt;Coord::Row&gt;(ij.col()), 0};</div>
-<div class="line"><a id="l00751" name="l00751"></a><span class="lineno">  751</span>        <span class="keyword">const</span> LocalTileIndex index_xt{0, ij_local.col()};</div>
-<div class="line"><a id="l00752" name="l00752"></a><span class="lineno">  752</span> </div>
-<div class="line"><a id="l00753" name="l00753"></a><span class="lineno">  753</span>        <span class="keyword">auto</span> tile_x = (dist.rankIndex().row() == owner) ? x.readwrite(index_x) : xt.readwrite(index_xt);</div>
-<div class="line"><a id="l00754" name="l00754"></a><span class="lineno">  754</span> </div>
-<div class="line"><a id="l00755" name="l00755"></a><span class="lineno">  755</span>        hemmOffDiag&lt;B&gt;(thread_priority::high, blas::Op::ConjTrans, std::move(tile_a), w.read(ij_local),</div>
-<div class="line"><a id="l00756" name="l00756"></a><span class="lineno">  756</span>                       std::move(tile_x));</div>
-<div class="line"><a id="l00757" name="l00757"></a><span class="lineno">  757</span>      }</div>
-<div class="line"><a id="l00758" name="l00758"></a><span class="lineno">  758</span>    }</div>
-<div class="line"><a id="l00759" name="l00759"></a><span class="lineno">  759</span>  }</div>
-<div class="line"><a id="l00760" name="l00760"></a><span class="lineno">  760</span> </div>
-<div class="line"><a id="l00761" name="l00761"></a><span class="lineno">  761</span>  <span class="comment">// Note:</span></div>
-<div class="line"><a id="l00762" name="l00762"></a><span class="lineno">  762</span>  <span class="comment">// At this point, partial results of X and Xt are available in the panels, and they have to be reduced,</span></div>
-<div class="line"><a id="l00763" name="l00763"></a><span class="lineno">  763</span>  <span class="comment">// both row-wise and col-wise.</span></div>
-<div class="line"><a id="l00764" name="l00764"></a><span class="lineno">  764</span>  <span class="comment">// The final X result will be available just on Ai panel column.</span></div>
-<div class="line"><a id="l00765" name="l00765"></a><span class="lineno">  765</span> </div>
-<div class="line"><a id="l00766" name="l00766"></a><span class="lineno">  766</span>  <span class="comment">// Note:</span></div>
-<div class="line"><a id="l00767" name="l00767"></a><span class="lineno">  767</span>  <span class="comment">// The first step in reducing partial results distributed over X and Xt, it is to reduce the row</span></div>
-<div class="line"><a id="l00768" name="l00768"></a><span class="lineno">  768</span>  <span class="comment">// panel Xt col-wise, by collecting all Xt results on the rank which can &quot;mirror&quot; the result on its</span></div>
-<div class="line"><a id="l00769" name="l00769"></a><span class="lineno">  769</span>  <span class="comment">// rows (i.e. diagonal). So, for each tile of the row panel, select who is the &quot;diagonal&quot; rank that can</span></div>
-<div class="line"><a id="l00770" name="l00770"></a><span class="lineno">  770</span>  <span class="comment">// mirror and reduce on it.</span></div>
-<div class="line"><a id="l00771" name="l00771"></a><span class="lineno">  771</span>  <span class="keywordflow">if</span> (mpi_col_chain.size() &gt; 1) {</div>
-<div class="line"><a id="l00772" name="l00772"></a><span class="lineno">  772</span>    <span class="keywordflow">for</span> (<span class="keyword">const</span> <span class="keyword">auto</span>&amp; index_xt : xt.iteratorLocal()) {</div>
-<div class="line"><a id="l00773" name="l00773"></a><span class="lineno">  773</span>      <span class="keyword">const</span> <span class="keyword">auto</span> index_k = dist.template globalTileFromLocalTile&lt;Coord::Col&gt;(index_xt.col());</div>
-<div class="line"><a id="l00774" name="l00774"></a><span class="lineno">  774</span>      <span class="keyword">const</span> <span class="keyword">auto</span> rank_owner_row = dist.template rankGlobalTile&lt;Coord::Row&gt;(index_k);</div>
-<div class="line"><a id="l00775" name="l00775"></a><span class="lineno">  775</span> </div>
-<div class="line"><a id="l00776" name="l00776"></a><span class="lineno">  776</span>      <span class="keywordflow">if</span> (rank_owner_row == rank.row()) {</div>
-<div class="line"><a id="l00777" name="l00777"></a><span class="lineno">  777</span>        <span class="comment">// Note:</span></div>
-<div class="line"><a id="l00778" name="l00778"></a><span class="lineno">  778</span>        <span class="comment">// Since it is the owner, it has to perform the &quot;mirroring&quot; of the results from columns to</span></div>
-<div class="line"><a id="l00779" name="l00779"></a><span class="lineno">  779</span>        <span class="comment">// rows.</span></div>
-<div class="line"><a id="l00780" name="l00780"></a><span class="lineno">  780</span>        <span class="comment">//</span></div>
-<div class="line"><a id="l00781" name="l00781"></a><span class="lineno">  781</span>        <span class="comment">// Moreover, it reduces in place because the owner of the diagonal stores the partial result</span></div>
-<div class="line"><a id="l00782" name="l00782"></a><span class="lineno">  782</span>        <span class="comment">// directly in x (without using xt)</span></div>
-<div class="line"><a id="l00783" name="l00783"></a><span class="lineno">  783</span>        <span class="keyword">const</span> <span class="keyword">auto</span> i = dist.template localTileFromGlobalTile&lt;Coord::Row&gt;(index_k);</div>
-<div class="line"><a id="l00784" name="l00784"></a><span class="lineno">  784</span>        ex::start_detached(comm::schedule_reduce_recv_in_place(mpi_col_chain.exclusive(), MPI_SUM,</div>
-<div class="line"><a id="l00785" name="l00785"></a><span class="lineno">  785</span>                                                               x.readwrite({i, 0})));</div>
-<div class="line"><a id="l00786" name="l00786"></a><span class="lineno">  786</span>      }</div>
-<div class="line"><a id="l00787" name="l00787"></a><span class="lineno">  787</span>      <span class="keywordflow">else</span> {</div>
-<div class="line"><a id="l00788" name="l00788"></a><span class="lineno">  788</span>        ex::start_detached(comm::schedule_reduce_send(mpi_col_chain.exclusive(), rank_owner_row, MPI_SUM,</div>
-<div class="line"><a id="l00789" name="l00789"></a><span class="lineno">  789</span>                                                      xt.read(index_xt)));</div>
-<div class="line"><a id="l00790" name="l00790"></a><span class="lineno">  790</span>      }</div>
-<div class="line"><a id="l00791" name="l00791"></a><span class="lineno">  791</span>    }</div>
-<div class="line"><a id="l00792" name="l00792"></a><span class="lineno">  792</span>  }</div>
-<div class="line"><a id="l00793" name="l00793"></a><span class="lineno">  793</span> </div>
-<div class="line"><a id="l00794" name="l00794"></a><span class="lineno">  794</span>  <span class="comment">// Note:</span></div>
-<div class="line"><a id="l00795" name="l00795"></a><span class="lineno">  795</span>  <span class="comment">// At this point partial results are all collected in X (Xt has been embedded in previous step),</span></div>
-<div class="line"><a id="l00796" name="l00796"></a><span class="lineno">  796</span>  <span class="comment">// so the last step needed is to reduce these last partial results in the final results.</span></div>
-<div class="line"><a id="l00797" name="l00797"></a><span class="lineno">  797</span>  <span class="comment">// The result is needed just on the column with reflectors.</span></div>
-<div class="line"><a id="l00798" name="l00798"></a><span class="lineno">  798</span>  <span class="keywordflow">if</span> (mpi_row_chain.size() &gt; 1) {</div>
-<div class="line"><a id="l00799" name="l00799"></a><span class="lineno">  799</span>    <span class="keywordflow">for</span> (<span class="keyword">const</span> <span class="keyword">auto</span>&amp; index_x : x.iteratorLocal()) {</div>
-<div class="line"><a id="l00800" name="l00800"></a><span class="lineno">  800</span>      <span class="keywordflow">if</span> (reducer_col == rank.col())</div>
-<div class="line"><a id="l00801" name="l00801"></a><span class="lineno">  801</span>        ex::start_detached(comm::schedule_reduce_recv_in_place(mpi_row_chain.exclusive(), MPI_SUM,</div>
-<div class="line"><a id="l00802" name="l00802"></a><span class="lineno">  802</span>                                                               x.readwrite(index_x)));</div>
-<div class="line"><a id="l00803" name="l00803"></a><span class="lineno">  803</span>      <span class="keywordflow">else</span></div>
-<div class="line"><a id="l00804" name="l00804"></a><span class="lineno">  804</span>        ex::start_detached(comm::schedule_reduce_send(mpi_row_chain.exclusive(), reducer_col, MPI_SUM,</div>
-<div class="line"><a id="l00805" name="l00805"></a><span class="lineno">  805</span>                                                      x.read(index_x)));</div>
-<div class="line"><a id="l00806" name="l00806"></a><span class="lineno">  806</span>    }</div>
-<div class="line"><a id="l00807" name="l00807"></a><span class="lineno">  807</span>  }</div>
-<div class="line"><a id="l00808" name="l00808"></a><span class="lineno">  808</span>}</div>
-<div class="line"><a id="l00809" name="l00809"></a><span class="lineno">  809</span> </div>
-<div class="line"><a id="l00810" name="l00810"></a><span class="lineno">  810</span><span class="keyword">template</span> &lt;Backend B, Device D, <span class="keyword">class</span> T&gt;</div>
-<div class="line"><a id="l00811" name="l00811"></a><span class="lineno">  811</span><span class="keywordtype">void</span> her2kUpdateTrailingMatrix(<span class="keyword">const</span> matrix::SubMatrixView&amp; view, Matrix&lt;T, D&gt;&amp; a,</div>
-<div class="line"><a id="l00812" name="l00812"></a><span class="lineno">  812</span>                               matrix::Panel&lt;Coord::Col, const T, D&gt;&amp; x,</div>
-<div class="line"><a id="l00813" name="l00813"></a><span class="lineno">  813</span>                               matrix::Panel&lt;Coord::Row, const T, D, matrix::StoreTransposed::Yes&gt;&amp; vt,</div>
-<div class="line"><a id="l00814" name="l00814"></a><span class="lineno">  814</span>                               matrix::Panel&lt;Coord::Col, const T, D&gt;&amp; v,</div>
-<div class="line"><a id="l00815" name="l00815"></a><span class="lineno">  815</span>                               matrix::Panel&lt;Coord::Row, const T, D, matrix::StoreTransposed::Yes&gt;&amp; xt) {</div>
-<div class="line"><a id="l00816" name="l00816"></a><span class="lineno">  816</span>  <span class="keyword">static_assert</span>(std::is_signed_v&lt;BaseType&lt;T&gt;&gt;, <span class="stringliteral">&quot;alpha in computations requires to be -1&quot;</span>);</div>
-<div class="line"><a id="l00817" name="l00817"></a><span class="lineno">  817</span> </div>
-<div class="line"><a id="l00818" name="l00818"></a><span class="lineno">  818</span>  <span class="keyword">using </span>pika::execution::thread_priority;</div>
-<div class="line"><a id="l00819" name="l00819"></a><span class="lineno">  819</span> </div>
-<div class="line"><a id="l00820" name="l00820"></a><span class="lineno">  820</span>  <span class="keyword">const</span> <span class="keyword">auto</span> dist = a.distribution();</div>
-<div class="line"><a id="l00821" name="l00821"></a><span class="lineno">  821</span> </div>
-<div class="line"><a id="l00822" name="l00822"></a><span class="lineno">  822</span>  <span class="keyword">const</span> LocalTileIndex at_start = view.begin();</div>
-<div class="line"><a id="l00823" name="l00823"></a><span class="lineno">  823</span> </div>
-<div class="line"><a id="l00824" name="l00824"></a><span class="lineno">  824</span>  <span class="keywordflow">for</span> (SizeType i = at_start.row(); i &lt; dist.localNrTiles().rows(); ++i) {</div>
-<div class="line"><a id="l00825" name="l00825"></a><span class="lineno">  825</span>    <span class="keyword">const</span> <span class="keyword">auto</span> limit = dist.template nextLocalTileFromGlobalTile&lt;Coord::Col&gt;(</div>
-<div class="line"><a id="l00826" name="l00826"></a><span class="lineno">  826</span>        dist.template globalTileFromLocalTile&lt;Coord::Row&gt;(i) + 1);</div>
-<div class="line"><a id="l00827" name="l00827"></a><span class="lineno">  827</span>    <span class="keywordflow">for</span> (SizeType j = at_start.col(); j &lt; limit; ++j) {</div>
-<div class="line"><a id="l00828" name="l00828"></a><span class="lineno">  828</span>      <span class="keyword">const</span> LocalTileIndex ij_local{i, j};</div>
-<div class="line"><a id="l00829" name="l00829"></a><span class="lineno">  829</span>      <span class="keyword">const</span> GlobalTileIndex ij = dist.globalTileIndex(ij_local);</div>
+<div class="line"><a id="l00741" name="l00741"></a><span class="lineno">  741</span>        <span class="comment">// Since it is not a diagonal tile, otherwise it would have been managed in the previous</span></div>
+<div class="line"><a id="l00742" name="l00742"></a><span class="lineno">  742</span>        <span class="comment">// branch, the second operand is not available in W but it is accessible through the</span></div>
+<div class="line"><a id="l00743" name="l00743"></a><span class="lineno">  743</span>        <span class="comment">// support panel Wt.</span></div>
+<div class="line"><a id="l00744" name="l00744"></a><span class="lineno">  744</span>        <span class="comment">// However, since we are still computing the &quot;straight&quot; part, the result can be stored</span></div>
+<div class="line"><a id="l00745" name="l00745"></a><span class="lineno">  745</span>        <span class="comment">// in the &quot;local&quot; panel X.</span></div>
+<div class="line"><a id="l00746" name="l00746"></a><span class="lineno">  746</span>        hemmOffDiag&lt;B&gt;(thread_priority::high, blas::Op::NoTrans, tile_a, wt.read(ij_local),</div>
+<div class="line"><a id="l00747" name="l00747"></a><span class="lineno">  747</span>                       x.readwrite(ij_local));</div>
+<div class="line"><a id="l00748" name="l00748"></a><span class="lineno">  748</span> </div>
+<div class="line"><a id="l00749" name="l00749"></a><span class="lineno">  749</span>        <span class="comment">// Note:</span></div>
+<div class="line"><a id="l00750" name="l00750"></a><span class="lineno">  750</span>        <span class="comment">// Here we are considering the hermitian part of A, so coordinates have to be &quot;mirrored&quot;.</span></div>
+<div class="line"><a id="l00751" name="l00751"></a><span class="lineno">  751</span>        <span class="comment">// So, first step is identifying the mirrored cell coordinate, i.e. swap row/col, together</span></div>
+<div class="line"><a id="l00752" name="l00752"></a><span class="lineno">  752</span>        <span class="comment">// with realizing if the new coord lays on an owned row or not.</span></div>
+<div class="line"><a id="l00753" name="l00753"></a><span class="lineno">  753</span>        <span class="comment">// If yes, the result can be stored in the X, otherwise Xt support panel will be used.</span></div>
+<div class="line"><a id="l00754" name="l00754"></a><span class="lineno">  754</span>        <span class="comment">// For what concerns the second operand, it can be found for sure in W. In fact, the</span></div>
+<div class="line"><a id="l00755" name="l00755"></a><span class="lineno">  755</span>        <span class="comment">// multiplication requires matching col(A) == row(W), but since coordinates are mirrored,</span></div>
+<div class="line"><a id="l00756" name="l00756"></a><span class="lineno">  756</span>        <span class="comment">// we are matching row(A) == row(W), so it is local by construction.</span></div>
+<div class="line"><a id="l00757" name="l00757"></a><span class="lineno">  757</span>        <span class="keyword">const</span> <span class="keyword">auto</span> owner = dist.template rankGlobalTile&lt;Coord::Row&gt;(ij.col());</div>
+<div class="line"><a id="l00758" name="l00758"></a><span class="lineno">  758</span> </div>
+<div class="line"><a id="l00759" name="l00759"></a><span class="lineno">  759</span>        <span class="keyword">const</span> LocalTileIndex index_x{dist.template localTileFromGlobalTile&lt;Coord::Row&gt;(ij.col()), 0};</div>
+<div class="line"><a id="l00760" name="l00760"></a><span class="lineno">  760</span>        <span class="keyword">const</span> LocalTileIndex index_xt{0, ij_local.col()};</div>
+<div class="line"><a id="l00761" name="l00761"></a><span class="lineno">  761</span> </div>
+<div class="line"><a id="l00762" name="l00762"></a><span class="lineno">  762</span>        <span class="keyword">auto</span> tile_x = (dist.rankIndex().row() == owner) ? x.readwrite(index_x) : xt.readwrite(index_xt);</div>
+<div class="line"><a id="l00763" name="l00763"></a><span class="lineno">  763</span> </div>
+<div class="line"><a id="l00764" name="l00764"></a><span class="lineno">  764</span>        hemmOffDiag&lt;B&gt;(thread_priority::high, blas::Op::ConjTrans, std::move(tile_a), w.read(ij_local),</div>
+<div class="line"><a id="l00765" name="l00765"></a><span class="lineno">  765</span>                       std::move(tile_x));</div>
+<div class="line"><a id="l00766" name="l00766"></a><span class="lineno">  766</span>      }</div>
+<div class="line"><a id="l00767" name="l00767"></a><span class="lineno">  767</span>    }</div>
+<div class="line"><a id="l00768" name="l00768"></a><span class="lineno">  768</span>  }</div>
+<div class="line"><a id="l00769" name="l00769"></a><span class="lineno">  769</span> </div>
+<div class="line"><a id="l00770" name="l00770"></a><span class="lineno">  770</span>  <span class="comment">// Note:</span></div>
+<div class="line"><a id="l00771" name="l00771"></a><span class="lineno">  771</span>  <span class="comment">// At this point, partial results of X and Xt are available in the panels, and they have to be reduced,</span></div>
+<div class="line"><a id="l00772" name="l00772"></a><span class="lineno">  772</span>  <span class="comment">// both row-wise and col-wise.</span></div>
+<div class="line"><a id="l00773" name="l00773"></a><span class="lineno">  773</span>  <span class="comment">// The final X result will be available just on Ai panel column.</span></div>
+<div class="line"><a id="l00774" name="l00774"></a><span class="lineno">  774</span> </div>
+<div class="line"><a id="l00775" name="l00775"></a><span class="lineno">  775</span>  <span class="comment">// Note:</span></div>
+<div class="line"><a id="l00776" name="l00776"></a><span class="lineno">  776</span>  <span class="comment">// The first step in reducing partial results distributed over X and Xt, it is to reduce the row</span></div>
+<div class="line"><a id="l00777" name="l00777"></a><span class="lineno">  777</span>  <span class="comment">// panel Xt col-wise, by collecting all Xt results on the rank which can &quot;mirror&quot; the result on its</span></div>
+<div class="line"><a id="l00778" name="l00778"></a><span class="lineno">  778</span>  <span class="comment">// rows (i.e. diagonal). So, for each tile of the row panel, select who is the &quot;diagonal&quot; rank that can</span></div>
+<div class="line"><a id="l00779" name="l00779"></a><span class="lineno">  779</span>  <span class="comment">// mirror and reduce on it.</span></div>
+<div class="line"><a id="l00780" name="l00780"></a><span class="lineno">  780</span>  <span class="keywordflow">if</span> (mpi_col_chain.size() &gt; 1) {</div>
+<div class="line"><a id="l00781" name="l00781"></a><span class="lineno">  781</span>    <span class="keywordflow">for</span> (<span class="keyword">const</span> <span class="keyword">auto</span>&amp; index_xt : xt.iteratorLocal()) {</div>
+<div class="line"><a id="l00782" name="l00782"></a><span class="lineno">  782</span>      <span class="keyword">const</span> <span class="keyword">auto</span> index_k = dist.template globalTileFromLocalTile&lt;Coord::Col&gt;(index_xt.col());</div>
+<div class="line"><a id="l00783" name="l00783"></a><span class="lineno">  783</span>      <span class="keyword">const</span> <span class="keyword">auto</span> rank_owner_row = dist.template rankGlobalTile&lt;Coord::Row&gt;(index_k);</div>
+<div class="line"><a id="l00784" name="l00784"></a><span class="lineno">  784</span> </div>
+<div class="line"><a id="l00785" name="l00785"></a><span class="lineno">  785</span>      <span class="keywordflow">if</span> (rank_owner_row == rank.row()) {</div>
+<div class="line"><a id="l00786" name="l00786"></a><span class="lineno">  786</span>        <span class="comment">// Note:</span></div>
+<div class="line"><a id="l00787" name="l00787"></a><span class="lineno">  787</span>        <span class="comment">// Since it is the owner, it has to perform the &quot;mirroring&quot; of the results from columns to</span></div>
+<div class="line"><a id="l00788" name="l00788"></a><span class="lineno">  788</span>        <span class="comment">// rows.</span></div>
+<div class="line"><a id="l00789" name="l00789"></a><span class="lineno">  789</span>        <span class="comment">//</span></div>
+<div class="line"><a id="l00790" name="l00790"></a><span class="lineno">  790</span>        <span class="comment">// Moreover, it reduces in place because the owner of the diagonal stores the partial result</span></div>
+<div class="line"><a id="l00791" name="l00791"></a><span class="lineno">  791</span>        <span class="comment">// directly in x (without using xt)</span></div>
+<div class="line"><a id="l00792" name="l00792"></a><span class="lineno">  792</span>        <span class="keyword">const</span> <span class="keyword">auto</span> i = dist.template localTileFromGlobalTile&lt;Coord::Row&gt;(index_k);</div>
+<div class="line"><a id="l00793" name="l00793"></a><span class="lineno">  793</span>        ex::start_detached(comm::schedule_reduce_recv_in_place(mpi_col_chain.exclusive(), MPI_SUM,</div>
+<div class="line"><a id="l00794" name="l00794"></a><span class="lineno">  794</span>                                                               x.readwrite({i, 0})));</div>
+<div class="line"><a id="l00795" name="l00795"></a><span class="lineno">  795</span>      }</div>
+<div class="line"><a id="l00796" name="l00796"></a><span class="lineno">  796</span>      <span class="keywordflow">else</span> {</div>
+<div class="line"><a id="l00797" name="l00797"></a><span class="lineno">  797</span>        ex::start_detached(comm::schedule_reduce_send(mpi_col_chain.exclusive(), rank_owner_row, MPI_SUM,</div>
+<div class="line"><a id="l00798" name="l00798"></a><span class="lineno">  798</span>                                                      xt.read(index_xt)));</div>
+<div class="line"><a id="l00799" name="l00799"></a><span class="lineno">  799</span>      }</div>
+<div class="line"><a id="l00800" name="l00800"></a><span class="lineno">  800</span>    }</div>
+<div class="line"><a id="l00801" name="l00801"></a><span class="lineno">  801</span>  }</div>
+<div class="line"><a id="l00802" name="l00802"></a><span class="lineno">  802</span> </div>
+<div class="line"><a id="l00803" name="l00803"></a><span class="lineno">  803</span>  <span class="comment">// Note:</span></div>
+<div class="line"><a id="l00804" name="l00804"></a><span class="lineno">  804</span>  <span class="comment">// At this point partial results are all collected in X (Xt has been embedded in previous step),</span></div>
+<div class="line"><a id="l00805" name="l00805"></a><span class="lineno">  805</span>  <span class="comment">// so the last step needed is to reduce these last partial results in the final results.</span></div>
+<div class="line"><a id="l00806" name="l00806"></a><span class="lineno">  806</span>  <span class="comment">// The result is needed just on the column with reflectors.</span></div>
+<div class="line"><a id="l00807" name="l00807"></a><span class="lineno">  807</span>  <span class="keywordflow">if</span> (mpi_row_chain.size() &gt; 1) {</div>
+<div class="line"><a id="l00808" name="l00808"></a><span class="lineno">  808</span>    <span class="keywordflow">for</span> (<span class="keyword">const</span> <span class="keyword">auto</span>&amp; index_x : x.iteratorLocal()) {</div>
+<div class="line"><a id="l00809" name="l00809"></a><span class="lineno">  809</span>      <span class="keywordflow">if</span> (reducer_col == rank.col())</div>
+<div class="line"><a id="l00810" name="l00810"></a><span class="lineno">  810</span>        ex::start_detached(comm::schedule_reduce_recv_in_place(mpi_row_chain.exclusive(), MPI_SUM,</div>
+<div class="line"><a id="l00811" name="l00811"></a><span class="lineno">  811</span>                                                               x.readwrite(index_x)));</div>
+<div class="line"><a id="l00812" name="l00812"></a><span class="lineno">  812</span>      <span class="keywordflow">else</span></div>
+<div class="line"><a id="l00813" name="l00813"></a><span class="lineno">  813</span>        ex::start_detached(comm::schedule_reduce_send(mpi_row_chain.exclusive(), reducer_col, MPI_SUM,</div>
+<div class="line"><a id="l00814" name="l00814"></a><span class="lineno">  814</span>                                                      x.read(index_x)));</div>
+<div class="line"><a id="l00815" name="l00815"></a><span class="lineno">  815</span>    }</div>
+<div class="line"><a id="l00816" name="l00816"></a><span class="lineno">  816</span>  }</div>
+<div class="line"><a id="l00817" name="l00817"></a><span class="lineno">  817</span>}</div>
+<div class="line"><a id="l00818" name="l00818"></a><span class="lineno">  818</span> </div>
+<div class="line"><a id="l00819" name="l00819"></a><span class="lineno">  819</span><span class="keyword">template</span> &lt;Backend B, Device D, <span class="keyword">class</span> T&gt;</div>
+<div class="line"><a id="l00820" name="l00820"></a><span class="lineno">  820</span><span class="keywordtype">void</span> her2kUpdateTrailingMatrix(<span class="keyword">const</span> matrix::SubMatrixView&amp; view, Matrix&lt;T, D&gt;&amp; a,</div>
+<div class="line"><a id="l00821" name="l00821"></a><span class="lineno">  821</span>                               matrix::Panel&lt;Coord::Col, const T, D&gt;&amp; x,</div>
+<div class="line"><a id="l00822" name="l00822"></a><span class="lineno">  822</span>                               matrix::Panel&lt;Coord::Row, const T, D, matrix::StoreTransposed::Yes&gt;&amp; vt,</div>
+<div class="line"><a id="l00823" name="l00823"></a><span class="lineno">  823</span>                               matrix::Panel&lt;Coord::Col, const T, D&gt;&amp; v,</div>
+<div class="line"><a id="l00824" name="l00824"></a><span class="lineno">  824</span>                               matrix::Panel&lt;Coord::Row, const T, D, matrix::StoreTransposed::Yes&gt;&amp; xt) {</div>
+<div class="line"><a id="l00825" name="l00825"></a><span class="lineno">  825</span>  <span class="keyword">static_assert</span>(std::is_signed_v&lt;BaseType&lt;T&gt;&gt;, <span class="stringliteral">&quot;alpha in computations requires to be -1&quot;</span>);</div>
+<div class="line"><a id="l00826" name="l00826"></a><span class="lineno">  826</span> </div>
+<div class="line"><a id="l00827" name="l00827"></a><span class="lineno">  827</span>  <span class="keyword">using </span>pika::execution::thread_priority;</div>
+<div class="line"><a id="l00828" name="l00828"></a><span class="lineno">  828</span> </div>
+<div class="line"><a id="l00829" name="l00829"></a><span class="lineno">  829</span>  <span class="keyword">const</span> <span class="keyword">auto</span> dist = a.distribution();</div>
 <div class="line"><a id="l00830" name="l00830"></a><span class="lineno">  830</span> </div>
-<div class="line"><a id="l00831" name="l00831"></a><span class="lineno">  831</span>      <span class="keyword">const</span> <span class="keywordtype">bool</span> is_diagonal_tile = (ij.row() == ij.col());</div>
+<div class="line"><a id="l00831" name="l00831"></a><span class="lineno">  831</span>  <span class="keyword">const</span> LocalTileIndex at_start = view.begin();</div>
 <div class="line"><a id="l00832" name="l00832"></a><span class="lineno">  832</span> </div>
-<div class="line"><a id="l00833" name="l00833"></a><span class="lineno">  833</span>      <span class="keyword">auto</span> getSubA = [&amp;a, &amp;view, ij_local]() {</div>
-<div class="line"><a id="l00834" name="l00834"></a><span class="lineno">  834</span>        <span class="keywordflow">return</span> <a class="code hl_function" href="matrix_2tile_8h.html#a1f09c7706a724d254208754b5691ac8c">splitTile</a>(a.readwrite(ij_local), view(ij_local));</div>
-<div class="line"><a id="l00835" name="l00835"></a><span class="lineno">  835</span>      };</div>
-<div class="line"><a id="l00836" name="l00836"></a><span class="lineno">  836</span> </div>
-<div class="line"><a id="l00837" name="l00837"></a><span class="lineno">  837</span>      <span class="comment">// The first column of the trailing matrix (except for the very first global tile) has to be</span></div>
-<div class="line"><a id="l00838" name="l00838"></a><span class="lineno">  838</span>      <span class="comment">// updated first, in order to unlock the next iteration as soon as possible.</span></div>
-<div class="line"><a id="l00839" name="l00839"></a><span class="lineno">  839</span>      <span class="keyword">const</span> <span class="keyword">auto</span> priority = (j == at_start.col()) ? thread_priority::high : thread_priority::normal;</div>
-<div class="line"><a id="l00840" name="l00840"></a><span class="lineno">  840</span> </div>
-<div class="line"><a id="l00841" name="l00841"></a><span class="lineno">  841</span>      <span class="keywordflow">if</span> (is_diagonal_tile) {</div>
-<div class="line"><a id="l00842" name="l00842"></a><span class="lineno">  842</span>        her2kDiag&lt;B&gt;(priority, v.read(ij_local), x.read(ij_local), getSubA());</div>
-<div class="line"><a id="l00843" name="l00843"></a><span class="lineno">  843</span>      }</div>
-<div class="line"><a id="l00844" name="l00844"></a><span class="lineno">  844</span>      <span class="keywordflow">else</span> {</div>
-<div class="line"><a id="l00845" name="l00845"></a><span class="lineno">  845</span>        <span class="comment">// A -= X . V*</span></div>
-<div class="line"><a id="l00846" name="l00846"></a><span class="lineno">  846</span>        her2kOffDiag&lt;B&gt;(priority, x.read(ij_local), vt.read(ij_local), getSubA());</div>
-<div class="line"><a id="l00847" name="l00847"></a><span class="lineno">  847</span> </div>
-<div class="line"><a id="l00848" name="l00848"></a><span class="lineno">  848</span>        <span class="comment">// A -= V . X*</span></div>
-<div class="line"><a id="l00849" name="l00849"></a><span class="lineno">  849</span>        her2kOffDiag&lt;B&gt;(priority, v.read(ij_local), xt.read(ij_local), getSubA());</div>
-<div class="line"><a id="l00850" name="l00850"></a><span class="lineno">  850</span>      }</div>
-<div class="line"><a id="l00851" name="l00851"></a><span class="lineno">  851</span>    }</div>
-<div class="line"><a id="l00852" name="l00852"></a><span class="lineno">  852</span>  }</div>
-<div class="line"><a id="l00853" name="l00853"></a><span class="lineno">  853</span>}</div>
-<div class="line"><a id="l00854" name="l00854"></a><span class="lineno">  854</span>}</div>
-<div class="line"><a id="l00855" name="l00855"></a><span class="lineno">  855</span> </div>
-<div class="line"><a id="l00856" name="l00856"></a><span class="lineno">  856</span><span class="keyword">template</span> &lt;Backend B, Device D, <span class="keyword">class</span> T&gt;</div>
-<div class="line"><a id="l00857" name="l00857"></a><span class="lineno"><a class="line" href="structdlaf_1_1eigensolver_1_1internal_1_1red2band_1_1_compute_panel_helper.html">  857</a></span><span class="keyword">struct </span><a class="code hl_struct" href="structdlaf_1_1eigensolver_1_1internal_1_1red2band_1_1_compute_panel_helper.html">ComputePanelHelper</a>;</div>
-<div class="line"><a id="l00858" name="l00858"></a><span class="lineno">  858</span> </div>
-<div class="line"><a id="l00859" name="l00859"></a><span class="lineno">  859</span><span class="keyword">template</span> &lt;<span class="keyword">class</span> T&gt;</div>
-<div class="foldopen" id="foldopen00860" data-start="{" data-end="};">
-<div class="line"><a id="l00860" name="l00860"></a><span class="lineno"><a class="line" href="structdlaf_1_1eigensolver_1_1internal_1_1red2band_1_1_compute_panel_helper_3_01_backend_1_1_m_c_f6049763c467d19a4a2bae31f1d19649.html">  860</a></span><span class="keyword">struct </span><a class="code hl_struct" href="structdlaf_1_1eigensolver_1_1internal_1_1red2band_1_1_compute_panel_helper.html">ComputePanelHelper</a>&lt;Backend::MC, Device::CPU, T&gt; {</div>
-<div class="line"><a id="l00861" name="l00861"></a><span class="lineno">  861</span>  <a class="code hl_struct" href="structdlaf_1_1eigensolver_1_1internal_1_1red2band_1_1_compute_panel_helper.html">ComputePanelHelper</a>(<span class="keyword">const</span> std::size_t, <a class="code hl_class" href="classdlaf_1_1matrix_1_1_distribution.html">matrix::Distribution</a>) {}</div>
-<div class="line"><a id="l00862" name="l00862"></a><span class="lineno">  862</span> </div>
-<div class="line"><a id="l00863" name="l00863"></a><span class="lineno">  863</span>  <span class="keywordtype">void</span> call(Matrix&lt;T, Device::CPU&gt;&amp; mat_a, Matrix&lt;T, Device::CPU&gt;&amp; mat_taus, <span class="keyword">const</span> SizeType j_sub,</div>
-<div class="line"><a id="l00864" name="l00864"></a><span class="lineno">  864</span>            <span class="keyword">const</span> <a class="code hl_struct" href="structdlaf_1_1matrix_1_1_sub_panel_view.html">matrix::SubPanelView</a>&amp; panel_view) {</div>
-<div class="line"><a id="l00865" name="l00865"></a><span class="lineno">  865</span>    <span class="keyword">using </span>red2band::local::computePanelReflectors;</div>
-<div class="line"><a id="l00866" name="l00866"></a><span class="lineno">  866</span>    computePanelReflectors(mat_a, mat_taus, j_sub, panel_view);</div>
-<div class="line"><a id="l00867" name="l00867"></a><span class="lineno">  867</span>  }</div>
-<div class="line"><a id="l00868" name="l00868"></a><span class="lineno">  868</span> </div>
-<div class="line"><a id="l00869" name="l00869"></a><span class="lineno">  869</span>  <span class="keyword">template</span> &lt;Device D, <span class="keyword">class</span> CommSender, <span class="keyword">class</span> TriggerSender&gt;</div>
-<div class="line"><a id="l00870" name="l00870"></a><span class="lineno">  870</span>  <span class="keywordtype">void</span> call(TriggerSender&amp;&amp; trigger, <a class="code hl_typedef" href="communication_2index_8h.html#a2b48f62607e5e128dff19ceac22093e9">comm::IndexT_MPI</a> rank_v0, CommSender&amp;&amp; mpi_col_chain_panel,</div>
-<div class="line"><a id="l00871" name="l00871"></a><span class="lineno">  871</span>            Matrix&lt;T, D&gt;&amp; mat_a, Matrix&lt;T, Device::CPU&gt;&amp; mat_taus, <span class="keyword">const</span> SizeType j_sub,</div>
-<div class="line"><a id="l00872" name="l00872"></a><span class="lineno">  872</span>            <span class="keyword">const</span> <a class="code hl_struct" href="structdlaf_1_1matrix_1_1_sub_panel_view.html">matrix::SubPanelView</a>&amp; panel_view) {</div>
-<div class="line"><a id="l00873" name="l00873"></a><span class="lineno">  873</span>    <span class="keyword">using </span>red2band::distributed::computePanelReflectors;</div>
-<div class="line"><a id="l00874" name="l00874"></a><span class="lineno">  874</span>    computePanelReflectors(std::forward&lt;TriggerSender&gt;(trigger), rank_v0,</div>
-<div class="line"><a id="l00875" name="l00875"></a><span class="lineno">  875</span>                           std::forward&lt;CommSender&gt;(mpi_col_chain_panel), mat_a, mat_taus, j_sub,</div>
-<div class="line"><a id="l00876" name="l00876"></a><span class="lineno">  876</span>                           panel_view);</div>
-<div class="line"><a id="l00877" name="l00877"></a><span class="lineno">  877</span>  }</div>
-<div class="line"><a id="l00878" name="l00878"></a><span class="lineno">  878</span>};</div>
+<div class="line"><a id="l00833" name="l00833"></a><span class="lineno">  833</span>  <span class="keywordflow">for</span> (SizeType i = at_start.row(); i &lt; dist.localNrTiles().rows(); ++i) {</div>
+<div class="line"><a id="l00834" name="l00834"></a><span class="lineno">  834</span>    <span class="keyword">const</span> <span class="keyword">auto</span> limit = dist.template nextLocalTileFromGlobalTile&lt;Coord::Col&gt;(</div>
+<div class="line"><a id="l00835" name="l00835"></a><span class="lineno">  835</span>        dist.template globalTileFromLocalTile&lt;Coord::Row&gt;(i) + 1);</div>
+<div class="line"><a id="l00836" name="l00836"></a><span class="lineno">  836</span>    <span class="keywordflow">for</span> (SizeType j = at_start.col(); j &lt; limit; ++j) {</div>
+<div class="line"><a id="l00837" name="l00837"></a><span class="lineno">  837</span>      <span class="keyword">const</span> LocalTileIndex ij_local{i, j};</div>
+<div class="line"><a id="l00838" name="l00838"></a><span class="lineno">  838</span>      <span class="keyword">const</span> GlobalTileIndex ij = dist.globalTileIndex(ij_local);</div>
+<div class="line"><a id="l00839" name="l00839"></a><span class="lineno">  839</span> </div>
+<div class="line"><a id="l00840" name="l00840"></a><span class="lineno">  840</span>      <span class="keyword">const</span> <span class="keywordtype">bool</span> is_diagonal_tile = (ij.row() == ij.col());</div>
+<div class="line"><a id="l00841" name="l00841"></a><span class="lineno">  841</span> </div>
+<div class="line"><a id="l00842" name="l00842"></a><span class="lineno">  842</span>      <span class="keyword">auto</span> getSubA = [&amp;a, &amp;view, ij_local]() {</div>
+<div class="line"><a id="l00843" name="l00843"></a><span class="lineno">  843</span>        <span class="keywordflow">return</span> <a class="code hl_function" href="matrix_2tile_8h.html#a1f09c7706a724d254208754b5691ac8c">splitTile</a>(a.readwrite(ij_local), view(ij_local));</div>
+<div class="line"><a id="l00844" name="l00844"></a><span class="lineno">  844</span>      };</div>
+<div class="line"><a id="l00845" name="l00845"></a><span class="lineno">  845</span> </div>
+<div class="line"><a id="l00846" name="l00846"></a><span class="lineno">  846</span>      <span class="comment">// The first column of the trailing matrix (except for the very first global tile) has to be</span></div>
+<div class="line"><a id="l00847" name="l00847"></a><span class="lineno">  847</span>      <span class="comment">// updated first, in order to unlock the next iteration as soon as possible.</span></div>
+<div class="line"><a id="l00848" name="l00848"></a><span class="lineno">  848</span>      <span class="keyword">const</span> <span class="keyword">auto</span> priority = (j == at_start.col()) ? thread_priority::high : thread_priority::normal;</div>
+<div class="line"><a id="l00849" name="l00849"></a><span class="lineno">  849</span> </div>
+<div class="line"><a id="l00850" name="l00850"></a><span class="lineno">  850</span>      <span class="keywordflow">if</span> (is_diagonal_tile) {</div>
+<div class="line"><a id="l00851" name="l00851"></a><span class="lineno">  851</span>        her2kDiag&lt;B&gt;(priority, v.read(ij_local), x.read(ij_local), getSubA());</div>
+<div class="line"><a id="l00852" name="l00852"></a><span class="lineno">  852</span>      }</div>
+<div class="line"><a id="l00853" name="l00853"></a><span class="lineno">  853</span>      <span class="keywordflow">else</span> {</div>
+<div class="line"><a id="l00854" name="l00854"></a><span class="lineno">  854</span>        <span class="comment">// A -= X . V*</span></div>
+<div class="line"><a id="l00855" name="l00855"></a><span class="lineno">  855</span>        her2kOffDiag&lt;B&gt;(priority, x.read(ij_local), vt.read(ij_local), getSubA());</div>
+<div class="line"><a id="l00856" name="l00856"></a><span class="lineno">  856</span> </div>
+<div class="line"><a id="l00857" name="l00857"></a><span class="lineno">  857</span>        <span class="comment">// A -= V . X*</span></div>
+<div class="line"><a id="l00858" name="l00858"></a><span class="lineno">  858</span>        her2kOffDiag&lt;B&gt;(priority, v.read(ij_local), xt.read(ij_local), getSubA());</div>
+<div class="line"><a id="l00859" name="l00859"></a><span class="lineno">  859</span>      }</div>
+<div class="line"><a id="l00860" name="l00860"></a><span class="lineno">  860</span>    }</div>
+<div class="line"><a id="l00861" name="l00861"></a><span class="lineno">  861</span>  }</div>
+<div class="line"><a id="l00862" name="l00862"></a><span class="lineno">  862</span>}</div>
+<div class="line"><a id="l00863" name="l00863"></a><span class="lineno">  863</span>}</div>
+<div class="line"><a id="l00864" name="l00864"></a><span class="lineno">  864</span> </div>
+<div class="line"><a id="l00865" name="l00865"></a><span class="lineno">  865</span><span class="keyword">template</span> &lt;Backend B, Device D, <span class="keyword">class</span> T&gt;</div>
+<div class="line"><a id="l00866" name="l00866"></a><span class="lineno"><a class="line" href="structdlaf_1_1eigensolver_1_1internal_1_1red2band_1_1_compute_panel_helper.html">  866</a></span><span class="keyword">struct </span><a class="code hl_struct" href="structdlaf_1_1eigensolver_1_1internal_1_1red2band_1_1_compute_panel_helper.html">ComputePanelHelper</a>;</div>
+<div class="line"><a id="l00867" name="l00867"></a><span class="lineno">  867</span> </div>
+<div class="line"><a id="l00868" name="l00868"></a><span class="lineno">  868</span><span class="keyword">template</span> &lt;<span class="keyword">class</span> T&gt;</div>
+<div class="foldopen" id="foldopen00869" data-start="{" data-end="};">
+<div class="line"><a id="l00869" name="l00869"></a><span class="lineno"><a class="line" href="structdlaf_1_1eigensolver_1_1internal_1_1red2band_1_1_compute_panel_helper_3_01_backend_1_1_m_c_f6049763c467d19a4a2bae31f1d19649.html">  869</a></span><span class="keyword">struct </span><a class="code hl_struct" href="structdlaf_1_1eigensolver_1_1internal_1_1red2band_1_1_compute_panel_helper.html">ComputePanelHelper</a>&lt;Backend::MC, Device::CPU, T&gt; {</div>
+<div class="line"><a id="l00870" name="l00870"></a><span class="lineno">  870</span>  <a class="code hl_struct" href="structdlaf_1_1eigensolver_1_1internal_1_1red2band_1_1_compute_panel_helper.html">ComputePanelHelper</a>(<span class="keyword">const</span> std::size_t, <a class="code hl_class" href="classdlaf_1_1matrix_1_1_distribution.html">matrix::Distribution</a>) {}</div>
+<div class="line"><a id="l00871" name="l00871"></a><span class="lineno">  871</span> </div>
+<div class="line"><a id="l00872" name="l00872"></a><span class="lineno">  872</span>  <span class="keywordtype">void</span> call(Matrix&lt;T, Device::CPU&gt;&amp; mat_a, Matrix&lt;T, Device::CPU&gt;&amp; mat_taus, <span class="keyword">const</span> SizeType j_sub,</div>
+<div class="line"><a id="l00873" name="l00873"></a><span class="lineno">  873</span>            <span class="keyword">const</span> <a class="code hl_struct" href="structdlaf_1_1matrix_1_1_sub_panel_view.html">matrix::SubPanelView</a>&amp; panel_view) {</div>
+<div class="line"><a id="l00874" name="l00874"></a><span class="lineno">  874</span>    <span class="keyword">using </span>red2band::local::computePanelReflectors;</div>
+<div class="line"><a id="l00875" name="l00875"></a><span class="lineno">  875</span>    computePanelReflectors(mat_a, mat_taus, j_sub, panel_view);</div>
+<div class="line"><a id="l00876" name="l00876"></a><span class="lineno">  876</span>  }</div>
+<div class="line"><a id="l00877" name="l00877"></a><span class="lineno">  877</span> </div>
+<div class="line"><a id="l00878" name="l00878"></a><span class="lineno">  878</span>  <span class="keyword">template</span> &lt;Device D, <span class="keyword">class</span> CommSender, <span class="keyword">class</span> TriggerSender&gt;</div>
+<div class="line"><a id="l00879" name="l00879"></a><span class="lineno">  879</span>  <span class="keywordtype">void</span> call(TriggerSender&amp;&amp; trigger, <a class="code hl_typedef" href="communication_2index_8h.html#a2b48f62607e5e128dff19ceac22093e9">comm::IndexT_MPI</a> rank_v0, CommSender&amp;&amp; mpi_col_chain_panel,</div>
+<div class="line"><a id="l00880" name="l00880"></a><span class="lineno">  880</span>            Matrix&lt;T, D&gt;&amp; mat_a, Matrix&lt;T, Device::CPU&gt;&amp; mat_taus, <span class="keyword">const</span> SizeType j_sub,</div>
+<div class="line"><a id="l00881" name="l00881"></a><span class="lineno">  881</span>            <span class="keyword">const</span> <a class="code hl_struct" href="structdlaf_1_1matrix_1_1_sub_panel_view.html">matrix::SubPanelView</a>&amp; panel_view) {</div>
+<div class="line"><a id="l00882" name="l00882"></a><span class="lineno">  882</span>    <span class="keyword">using </span>red2band::distributed::computePanelReflectors;</div>
+<div class="line"><a id="l00883" name="l00883"></a><span class="lineno">  883</span>    computePanelReflectors(std::forward&lt;TriggerSender&gt;(trigger), rank_v0,</div>
+<div class="line"><a id="l00884" name="l00884"></a><span class="lineno">  884</span>                           std::forward&lt;CommSender&gt;(mpi_col_chain_panel), mat_a, mat_taus, j_sub,</div>
+<div class="line"><a id="l00885" name="l00885"></a><span class="lineno">  885</span>                           panel_view);</div>
+<div class="line"><a id="l00886" name="l00886"></a><span class="lineno">  886</span>  }</div>
+<div class="line"><a id="l00887" name="l00887"></a><span class="lineno">  887</span>};</div>
 </div>
-<div class="line"><a id="l00879" name="l00879"></a><span class="lineno">  879</span> </div>
-<div class="line"><a id="l00880" name="l00880"></a><span class="lineno">  880</span><span class="preprocessor">#ifdef DLAF_WITH_GPU</span></div>
-<div class="line"><a id="l00881" name="l00881"></a><span class="lineno">  881</span><span class="keyword">template</span> &lt;<span class="keyword">class</span> T&gt;</div>
-<div class="foldopen" id="foldopen00882" data-start="{" data-end="};">
-<div class="line"><a id="l00882" name="l00882"></a><span class="lineno"><a class="line" href="structdlaf_1_1eigensolver_1_1internal_1_1red2band_1_1_compute_panel_helper_3_01_backend_1_1_g_p_e566a066992e6980ee13cab3c8831bc5.html">  882</a></span><span class="keyword">struct </span><a class="code hl_struct" href="structdlaf_1_1eigensolver_1_1internal_1_1red2band_1_1_compute_panel_helper.html">ComputePanelHelper</a>&lt;Backend::GPU, Device::GPU, T&gt; {</div>
-<div class="line"><a id="l00883" name="l00883"></a><span class="lineno">  883</span>  <a class="code hl_struct" href="structdlaf_1_1eigensolver_1_1internal_1_1red2band_1_1_compute_panel_helper.html">ComputePanelHelper</a>(<span class="keyword">const</span> std::size_t n_workspaces, <a class="code hl_class" href="classdlaf_1_1matrix_1_1_distribution.html">matrix::Distribution</a> dist_a)</div>
-<div class="line"><a id="l00884" name="l00884"></a><span class="lineno">  884</span>      : panels_v(n_workspaces, dist_a) {}</div>
-<div class="line"><a id="l00885" name="l00885"></a><span class="lineno">  885</span> </div>
-<div class="line"><a id="l00886" name="l00886"></a><span class="lineno">  886</span>  <span class="keywordtype">void</span> call(Matrix&lt;T, Device::GPU&gt;&amp; mat_a, Matrix&lt;T, Device::CPU&gt;&amp; mat_taus, <span class="keyword">const</span> SizeType j_sub,</div>
-<div class="line"><a id="l00887" name="l00887"></a><span class="lineno">  887</span>            <span class="keyword">const</span> <a class="code hl_struct" href="structdlaf_1_1matrix_1_1_sub_panel_view.html">matrix::SubPanelView</a>&amp; panel_view) {</div>
-<div class="line"><a id="l00888" name="l00888"></a><span class="lineno">  888</span>    <span class="keyword">using </span>red2band::local::computePanelReflectors;</div>
-<div class="line"><a id="l00889" name="l00889"></a><span class="lineno">  889</span> </div>
-<div class="line"><a id="l00890" name="l00890"></a><span class="lineno">  890</span>    <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
-<div class="line"><a id="l00891" name="l00891"></a><span class="lineno">  891</span> </div>
-<div class="line"><a id="l00892" name="l00892"></a><span class="lineno">  892</span>    <span class="comment">// Note:</span></div>
-<div class="line"><a id="l00893" name="l00893"></a><span class="lineno">  893</span>    <span class="comment">// - copy panel_view from GPU to CPU</span></div>
-<div class="line"><a id="l00894" name="l00894"></a><span class="lineno">  894</span>    <span class="comment">// - computePanelReflectors on CPU (on a matrix like, with just a panel)</span></div>
-<div class="line"><a id="l00895" name="l00895"></a><span class="lineno">  895</span>    <span class="comment">// - copy back matrix &quot;panel&quot; from CPU to GPU</span></div>
-<div class="line"><a id="l00896" name="l00896"></a><span class="lineno">  896</span> </div>
-<div class="line"><a id="l00897" name="l00897"></a><span class="lineno">  897</span>    <span class="keyword">auto</span>&amp; v = panels_v.nextResource();</div>
+<div class="line"><a id="l00888" name="l00888"></a><span class="lineno">  888</span> </div>
+<div class="line"><a id="l00889" name="l00889"></a><span class="lineno">  889</span><span class="preprocessor">#ifdef DLAF_WITH_GPU</span></div>
+<div class="line"><a id="l00890" name="l00890"></a><span class="lineno">  890</span><span class="keyword">template</span> &lt;<span class="keyword">class</span> T&gt;</div>
+<div class="foldopen" id="foldopen00891" data-start="{" data-end="};">
+<div class="line"><a id="l00891" name="l00891"></a><span class="lineno"><a class="line" href="structdlaf_1_1eigensolver_1_1internal_1_1red2band_1_1_compute_panel_helper_3_01_backend_1_1_g_p_e566a066992e6980ee13cab3c8831bc5.html">  891</a></span><span class="keyword">struct </span><a class="code hl_struct" href="structdlaf_1_1eigensolver_1_1internal_1_1red2band_1_1_compute_panel_helper.html">ComputePanelHelper</a>&lt;Backend::GPU, Device::GPU, T&gt; {</div>
+<div class="line"><a id="l00892" name="l00892"></a><span class="lineno">  892</span>  <a class="code hl_struct" href="structdlaf_1_1eigensolver_1_1internal_1_1red2band_1_1_compute_panel_helper.html">ComputePanelHelper</a>(<span class="keyword">const</span> std::size_t n_workspaces, <a class="code hl_class" href="classdlaf_1_1matrix_1_1_distribution.html">matrix::Distribution</a> dist_a)</div>
+<div class="line"><a id="l00893" name="l00893"></a><span class="lineno">  893</span>      : panels_v(n_workspaces, dist_a) {}</div>
+<div class="line"><a id="l00894" name="l00894"></a><span class="lineno">  894</span> </div>
+<div class="line"><a id="l00895" name="l00895"></a><span class="lineno">  895</span>  <span class="keywordtype">void</span> call(Matrix&lt;T, Device::GPU&gt;&amp; mat_a, Matrix&lt;T, Device::CPU&gt;&amp; mat_taus, <span class="keyword">const</span> SizeType j_sub,</div>
+<div class="line"><a id="l00896" name="l00896"></a><span class="lineno">  896</span>            <span class="keyword">const</span> <a class="code hl_struct" href="structdlaf_1_1matrix_1_1_sub_panel_view.html">matrix::SubPanelView</a>&amp; panel_view) {</div>
+<div class="line"><a id="l00897" name="l00897"></a><span class="lineno">  897</span>    <span class="keyword">using </span>red2band::local::computePanelReflectors;</div>
 <div class="line"><a id="l00898" name="l00898"></a><span class="lineno">  898</span> </div>
-<div class="line"><a id="l00899" name="l00899"></a><span class="lineno">  899</span>    copyToCPU(panel_view, mat_a, v);</div>
-<div class="line"><a id="l00900" name="l00900"></a><span class="lineno">  900</span>    computePanelReflectors(v, mat_taus, j_sub, panel_view);</div>
-<div class="line"><a id="l00901" name="l00901"></a><span class="lineno">  901</span>    copyFromCPU(panel_view, v, mat_a);</div>
-<div class="line"><a id="l00902" name="l00902"></a><span class="lineno">  902</span>  }</div>
-<div class="line"><a id="l00903" name="l00903"></a><span class="lineno">  903</span> </div>
-<div class="line"><a id="l00904" name="l00904"></a><span class="lineno">  904</span>  <span class="keyword">template</span> &lt;Device D, <span class="keyword">class</span> CommSender, <span class="keyword">class</span> TriggerSender&gt;</div>
-<div class="line"><a id="l00905" name="l00905"></a><span class="lineno">  905</span>  <span class="keywordtype">void</span> call(TriggerSender&amp;&amp; trigger, <a class="code hl_typedef" href="communication_2index_8h.html#a2b48f62607e5e128dff19ceac22093e9">comm::IndexT_MPI</a> rank_v0, CommSender&amp;&amp; mpi_col_chain_panel,</div>
-<div class="line"><a id="l00906" name="l00906"></a><span class="lineno">  906</span>            Matrix&lt;T, D&gt;&amp; mat_a, Matrix&lt;T, Device::CPU&gt;&amp; mat_taus, SizeType j_sub,</div>
-<div class="line"><a id="l00907" name="l00907"></a><span class="lineno">  907</span>            <span class="keyword">const</span> <a class="code hl_struct" href="structdlaf_1_1matrix_1_1_sub_panel_view.html">matrix::SubPanelView</a>&amp; panel_view) {</div>
-<div class="line"><a id="l00908" name="l00908"></a><span class="lineno">  908</span>    <span class="keyword">auto</span>&amp; v = panels_v.nextResource();</div>
-<div class="line"><a id="l00909" name="l00909"></a><span class="lineno">  909</span> </div>
-<div class="line"><a id="l00910" name="l00910"></a><span class="lineno">  910</span>    <span class="comment">// copy to CPU</span></div>
-<div class="line"><a id="l00911" name="l00911"></a><span class="lineno">  911</span>    copyToCPU(panel_view, mat_a, v);</div>
+<div class="line"><a id="l00899" name="l00899"></a><span class="lineno">  899</span>    <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
+<div class="line"><a id="l00900" name="l00900"></a><span class="lineno">  900</span> </div>
+<div class="line"><a id="l00901" name="l00901"></a><span class="lineno">  901</span>    <span class="comment">// Note:</span></div>
+<div class="line"><a id="l00902" name="l00902"></a><span class="lineno">  902</span>    <span class="comment">// - copy panel_view from GPU to CPU</span></div>
+<div class="line"><a id="l00903" name="l00903"></a><span class="lineno">  903</span>    <span class="comment">// - computePanelReflectors on CPU (on a matrix like, with just a panel)</span></div>
+<div class="line"><a id="l00904" name="l00904"></a><span class="lineno">  904</span>    <span class="comment">// - copy back matrix &quot;panel&quot; from CPU to GPU</span></div>
+<div class="line"><a id="l00905" name="l00905"></a><span class="lineno">  905</span> </div>
+<div class="line"><a id="l00906" name="l00906"></a><span class="lineno">  906</span>    <span class="keyword">auto</span>&amp; v = panels_v.nextResource();</div>
+<div class="line"><a id="l00907" name="l00907"></a><span class="lineno">  907</span> </div>
+<div class="line"><a id="l00908" name="l00908"></a><span class="lineno">  908</span>    copyToCPU(panel_view, mat_a, v);</div>
+<div class="line"><a id="l00909" name="l00909"></a><span class="lineno">  909</span>    computePanelReflectors(v, mat_taus, j_sub, panel_view);</div>
+<div class="line"><a id="l00910" name="l00910"></a><span class="lineno">  910</span>    copyFromCPU(panel_view, v, mat_a);</div>
+<div class="line"><a id="l00911" name="l00911"></a><span class="lineno">  911</span>  }</div>
 <div class="line"><a id="l00912" name="l00912"></a><span class="lineno">  912</span> </div>
-<div class="line"><a id="l00913" name="l00913"></a><span class="lineno">  913</span>    <span class="comment">// compute on CPU</span></div>
-<div class="line"><a id="l00914" name="l00914"></a><span class="lineno">  914</span>    <span class="keyword">using </span>dlaf::eigensolver::internal::red2band::distributed::computePanelReflectors;</div>
-<div class="line"><a id="l00915" name="l00915"></a><span class="lineno">  915</span>    computePanelReflectors(std::forward&lt;TriggerSender&gt;(trigger), rank_v0,</div>
-<div class="line"><a id="l00916" name="l00916"></a><span class="lineno">  916</span>                           std::forward&lt;CommSender&gt;(mpi_col_chain_panel), v, mat_taus, j_sub,</div>
-<div class="line"><a id="l00917" name="l00917"></a><span class="lineno">  917</span>                           panel_view);</div>
+<div class="line"><a id="l00913" name="l00913"></a><span class="lineno">  913</span>  <span class="keyword">template</span> &lt;Device D, <span class="keyword">class</span> CommSender, <span class="keyword">class</span> TriggerSender&gt;</div>
+<div class="line"><a id="l00914" name="l00914"></a><span class="lineno">  914</span>  <span class="keywordtype">void</span> call(TriggerSender&amp;&amp; trigger, <a class="code hl_typedef" href="communication_2index_8h.html#a2b48f62607e5e128dff19ceac22093e9">comm::IndexT_MPI</a> rank_v0, CommSender&amp;&amp; mpi_col_chain_panel,</div>
+<div class="line"><a id="l00915" name="l00915"></a><span class="lineno">  915</span>            Matrix&lt;T, D&gt;&amp; mat_a, Matrix&lt;T, Device::CPU&gt;&amp; mat_taus, SizeType j_sub,</div>
+<div class="line"><a id="l00916" name="l00916"></a><span class="lineno">  916</span>            <span class="keyword">const</span> <a class="code hl_struct" href="structdlaf_1_1matrix_1_1_sub_panel_view.html">matrix::SubPanelView</a>&amp; panel_view) {</div>
+<div class="line"><a id="l00917" name="l00917"></a><span class="lineno">  917</span>    <span class="keyword">auto</span>&amp; v = panels_v.nextResource();</div>
 <div class="line"><a id="l00918" name="l00918"></a><span class="lineno">  918</span> </div>
-<div class="line"><a id="l00919" name="l00919"></a><span class="lineno">  919</span>    <span class="comment">// copy back to GPU</span></div>
-<div class="line"><a id="l00920" name="l00920"></a><span class="lineno">  920</span>    copyFromCPU(panel_view, v, mat_a);</div>
-<div class="line"><a id="l00921" name="l00921"></a><span class="lineno">  921</span>  }</div>
-<div class="line"><a id="l00922" name="l00922"></a><span class="lineno">  922</span> </div>
-<div class="line"><a id="l00923" name="l00923"></a><span class="lineno">  923</span><span class="keyword">protected</span>:</div>
-<div class="line"><a id="l00924" name="l00924"></a><span class="lineno">  924</span>  <a class="code hl_class" href="classdlaf_1_1common_1_1_round_robin.html">common::RoundRobin&lt;matrix::Panel&lt;Coord::Col, T, Device::CPU&gt;</a>&gt; panels_v;</div>
-<div class="line"><a id="l00925" name="l00925"></a><span class="lineno">  925</span> </div>
-<div class="line"><a id="l00926" name="l00926"></a><span class="lineno">  926</span>  <span class="keywordtype">void</span> copyToCPU(<span class="keyword">const</span> <a class="code hl_struct" href="structdlaf_1_1matrix_1_1_sub_panel_view.html">matrix::SubPanelView</a> panel_view, <a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::Matrix&lt;T, Device::GPU&gt;</a>&amp; mat_a,</div>
-<div class="line"><a id="l00927" name="l00927"></a><span class="lineno">  927</span>                 <a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::Panel&lt;Coord::Col, T, Device::CPU&gt;</a>&amp; v) {</div>
-<div class="line"><a id="l00928" name="l00928"></a><span class="lineno">  928</span>    <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
-<div class="line"><a id="l00929" name="l00929"></a><span class="lineno">  929</span> </div>
-<div class="line"><a id="l00930" name="l00930"></a><span class="lineno">  930</span>    <span class="keyword">using </span><a class="code hl_class" href="classdlaf_1_1internal_1_1_policy.html">dlaf::internal::Policy</a>;</div>
-<div class="line"><a id="l00931" name="l00931"></a><span class="lineno">  931</span>    <span class="keyword">using </span>dlaf::matrix::internal::CopyBackend_v;</div>
-<div class="line"><a id="l00932" name="l00932"></a><span class="lineno">  932</span>    <span class="keyword">using </span>pika::execution::thread_priority;</div>
-<div class="line"><a id="l00933" name="l00933"></a><span class="lineno">  933</span>    <span class="keyword">using </span>pika::execution::thread_stacksize;</div>
+<div class="line"><a id="l00919" name="l00919"></a><span class="lineno">  919</span>    <span class="comment">// copy to CPU</span></div>
+<div class="line"><a id="l00920" name="l00920"></a><span class="lineno">  920</span>    copyToCPU(panel_view, mat_a, v);</div>
+<div class="line"><a id="l00921" name="l00921"></a><span class="lineno">  921</span> </div>
+<div class="line"><a id="l00922" name="l00922"></a><span class="lineno">  922</span>    <span class="comment">// compute on CPU</span></div>
+<div class="line"><a id="l00923" name="l00923"></a><span class="lineno">  923</span>    <span class="keyword">using </span>dlaf::eigensolver::internal::red2band::distributed::computePanelReflectors;</div>
+<div class="line"><a id="l00924" name="l00924"></a><span class="lineno">  924</span>    computePanelReflectors(std::forward&lt;TriggerSender&gt;(trigger), rank_v0,</div>
+<div class="line"><a id="l00925" name="l00925"></a><span class="lineno">  925</span>                           std::forward&lt;CommSender&gt;(mpi_col_chain_panel), v, mat_taus, j_sub,</div>
+<div class="line"><a id="l00926" name="l00926"></a><span class="lineno">  926</span>                           panel_view);</div>
+<div class="line"><a id="l00927" name="l00927"></a><span class="lineno">  927</span> </div>
+<div class="line"><a id="l00928" name="l00928"></a><span class="lineno">  928</span>    <span class="comment">// copy back to GPU</span></div>
+<div class="line"><a id="l00929" name="l00929"></a><span class="lineno">  929</span>    copyFromCPU(panel_view, v, mat_a);</div>
+<div class="line"><a id="l00930" name="l00930"></a><span class="lineno">  930</span>  }</div>
+<div class="line"><a id="l00931" name="l00931"></a><span class="lineno">  931</span> </div>
+<div class="line"><a id="l00932" name="l00932"></a><span class="lineno">  932</span><span class="keyword">protected</span>:</div>
+<div class="line"><a id="l00933" name="l00933"></a><span class="lineno">  933</span>  <a class="code hl_class" href="classdlaf_1_1common_1_1_round_robin.html">common::RoundRobin&lt;matrix::Panel&lt;Coord::Col, T, Device::CPU&gt;</a>&gt; panels_v;</div>
 <div class="line"><a id="l00934" name="l00934"></a><span class="lineno">  934</span> </div>
-<div class="line"><a id="l00935" name="l00935"></a><span class="lineno">  935</span>    <span class="keywordflow">for</span> (<span class="keyword">const</span> <span class="keyword">auto</span>&amp; i : panel_view.<a class="code hl_function" href="structdlaf_1_1matrix_1_1internal_1_1_view.html#a7c25686d3fb7e47b627af360592168ad">iteratorLocal</a>()) {</div>
-<div class="line"><a id="l00936" name="l00936"></a><span class="lineno">  936</span>      <span class="keyword">auto</span> spec = panel_view(i);</div>
-<div class="line"><a id="l00937" name="l00937"></a><span class="lineno">  937</span>      <span class="keyword">auto</span> tmp_tile = v.<a class="code hl_function" href="classdlaf_1_1matrix_1_1_matrix.html#ad11e9036fe317b6328ae71585b19c811">readwrite</a>(i);</div>
-<div class="line"><a id="l00938" name="l00938"></a><span class="lineno">  938</span>      ex::start_detached(</div>
-<div class="line"><a id="l00939" name="l00939"></a><span class="lineno">  939</span>          ex::when_all(splitTile(mat_a.read(i), spec), splitTile(std::move(tmp_tile), spec)) |</div>
-<div class="line"><a id="l00940" name="l00940"></a><span class="lineno">  940</span>          matrix::copy(Policy&lt;CopyBackend_v&lt;Device::GPU, Device::CPU&gt;&gt;(thread_priority::high,</div>
-<div class="line"><a id="l00941" name="l00941"></a><span class="lineno">  941</span>                                                                       thread_stacksize::nostack)));</div>
-<div class="line"><a id="l00942" name="l00942"></a><span class="lineno">  942</span>    }</div>
-<div class="line"><a id="l00943" name="l00943"></a><span class="lineno">  943</span>  }</div>
-<div class="line"><a id="l00944" name="l00944"></a><span class="lineno">  944</span> </div>
-<div class="line"><a id="l00945" name="l00945"></a><span class="lineno">  945</span>  <span class="keywordtype">void</span> copyFromCPU(<span class="keyword">const</span> <a class="code hl_struct" href="structdlaf_1_1matrix_1_1_sub_panel_view.html">matrix::SubPanelView</a> panel_view, <a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::Panel&lt;Coord::Col, T, Device::CPU&gt;</a>&amp; v,</div>
-<div class="line"><a id="l00946" name="l00946"></a><span class="lineno">  946</span>                   <a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::Matrix&lt;T, Device::GPU&gt;</a>&amp; mat_a) {</div>
-<div class="line"><a id="l00947" name="l00947"></a><span class="lineno">  947</span>    <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
-<div class="line"><a id="l00948" name="l00948"></a><span class="lineno">  948</span> </div>
-<div class="line"><a id="l00949" name="l00949"></a><span class="lineno">  949</span>    <span class="keyword">using </span><a class="code hl_class" href="classdlaf_1_1internal_1_1_policy.html">dlaf::internal::Policy</a>;</div>
-<div class="line"><a id="l00950" name="l00950"></a><span class="lineno">  950</span>    <span class="keyword">using </span>dlaf::matrix::internal::CopyBackend_v;</div>
-<div class="line"><a id="l00951" name="l00951"></a><span class="lineno">  951</span>    <span class="keyword">using </span>pika::execution::thread_priority;</div>
-<div class="line"><a id="l00952" name="l00952"></a><span class="lineno">  952</span>    <span class="keyword">using </span>pika::execution::thread_stacksize;</div>
+<div class="line"><a id="l00935" name="l00935"></a><span class="lineno">  935</span>  <span class="keywordtype">void</span> copyToCPU(<span class="keyword">const</span> <a class="code hl_struct" href="structdlaf_1_1matrix_1_1_sub_panel_view.html">matrix::SubPanelView</a> panel_view, <a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::Matrix&lt;T, Device::GPU&gt;</a>&amp; mat_a,</div>
+<div class="line"><a id="l00936" name="l00936"></a><span class="lineno">  936</span>                 <a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::Panel&lt;Coord::Col, T, Device::CPU&gt;</a>&amp; v) {</div>
+<div class="line"><a id="l00937" name="l00937"></a><span class="lineno">  937</span>    <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
+<div class="line"><a id="l00938" name="l00938"></a><span class="lineno">  938</span> </div>
+<div class="line"><a id="l00939" name="l00939"></a><span class="lineno">  939</span>    <span class="keyword">using </span><a class="code hl_class" href="classdlaf_1_1internal_1_1_policy.html">dlaf::internal::Policy</a>;</div>
+<div class="line"><a id="l00940" name="l00940"></a><span class="lineno">  940</span>    <span class="keyword">using </span>dlaf::matrix::internal::CopyBackend_v;</div>
+<div class="line"><a id="l00941" name="l00941"></a><span class="lineno">  941</span>    <span class="keyword">using </span>pika::execution::thread_priority;</div>
+<div class="line"><a id="l00942" name="l00942"></a><span class="lineno">  942</span>    <span class="keyword">using </span>pika::execution::thread_stacksize;</div>
+<div class="line"><a id="l00943" name="l00943"></a><span class="lineno">  943</span> </div>
+<div class="line"><a id="l00944" name="l00944"></a><span class="lineno">  944</span>    <span class="keywordflow">for</span> (<span class="keyword">const</span> <span class="keyword">auto</span>&amp; i : panel_view.<a class="code hl_function" href="structdlaf_1_1matrix_1_1internal_1_1_view.html#a7c25686d3fb7e47b627af360592168ad">iteratorLocal</a>()) {</div>
+<div class="line"><a id="l00945" name="l00945"></a><span class="lineno">  945</span>      <span class="keyword">auto</span> spec = panel_view(i);</div>
+<div class="line"><a id="l00946" name="l00946"></a><span class="lineno">  946</span>      <span class="keyword">auto</span> tmp_tile = v.<a class="code hl_function" href="classdlaf_1_1matrix_1_1_matrix.html#ad11e9036fe317b6328ae71585b19c811">readwrite</a>(i);</div>
+<div class="line"><a id="l00947" name="l00947"></a><span class="lineno">  947</span>      ex::start_detached(</div>
+<div class="line"><a id="l00948" name="l00948"></a><span class="lineno">  948</span>          ex::when_all(splitTile(mat_a.read(i), spec), splitTile(std::move(tmp_tile), spec)) |</div>
+<div class="line"><a id="l00949" name="l00949"></a><span class="lineno">  949</span>          matrix::copy(Policy&lt;CopyBackend_v&lt;Device::GPU, Device::CPU&gt;&gt;(thread_priority::high,</div>
+<div class="line"><a id="l00950" name="l00950"></a><span class="lineno">  950</span>                                                                       thread_stacksize::nostack)));</div>
+<div class="line"><a id="l00951" name="l00951"></a><span class="lineno">  951</span>    }</div>
+<div class="line"><a id="l00952" name="l00952"></a><span class="lineno">  952</span>  }</div>
 <div class="line"><a id="l00953" name="l00953"></a><span class="lineno">  953</span> </div>
-<div class="line"><a id="l00954" name="l00954"></a><span class="lineno">  954</span>    <span class="keywordflow">for</span> (<span class="keyword">const</span> <span class="keyword">auto</span>&amp; i : panel_view.<a class="code hl_function" href="structdlaf_1_1matrix_1_1internal_1_1_view.html#a7c25686d3fb7e47b627af360592168ad">iteratorLocal</a>()) {</div>
-<div class="line"><a id="l00955" name="l00955"></a><span class="lineno">  955</span>      <span class="keyword">auto</span> spec = panel_view(i);</div>
-<div class="line"><a id="l00956" name="l00956"></a><span class="lineno">  956</span>      <span class="keyword">auto</span> tile_a = mat_a.<a class="code hl_function" href="classdlaf_1_1matrix_1_1_matrix.html#ad11e9036fe317b6328ae71585b19c811">readwrite</a>(i);</div>
-<div class="line"><a id="l00957" name="l00957"></a><span class="lineno">  957</span>      ex::start_detached(ex::when_all(splitTile(v.read(i), spec), splitTile(std::move(tile_a), spec)) |</div>
-<div class="line"><a id="l00958" name="l00958"></a><span class="lineno">  958</span>                         matrix::copy(Policy&lt;CopyBackend_v&lt;Device::CPU, Device::GPU&gt;&gt;(</div>
-<div class="line"><a id="l00959" name="l00959"></a><span class="lineno">  959</span>                             thread_priority::high, thread_stacksize::nostack)));</div>
-<div class="line"><a id="l00960" name="l00960"></a><span class="lineno">  960</span>    }</div>
-<div class="line"><a id="l00961" name="l00961"></a><span class="lineno">  961</span>  }</div>
-<div class="line"><a id="l00962" name="l00962"></a><span class="lineno">  962</span>};</div>
+<div class="line"><a id="l00954" name="l00954"></a><span class="lineno">  954</span>  <span class="keywordtype">void</span> copyFromCPU(<span class="keyword">const</span> <a class="code hl_struct" href="structdlaf_1_1matrix_1_1_sub_panel_view.html">matrix::SubPanelView</a> panel_view, <a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::Panel&lt;Coord::Col, T, Device::CPU&gt;</a>&amp; v,</div>
+<div class="line"><a id="l00955" name="l00955"></a><span class="lineno">  955</span>                   <a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::Matrix&lt;T, Device::GPU&gt;</a>&amp; mat_a) {</div>
+<div class="line"><a id="l00956" name="l00956"></a><span class="lineno">  956</span>    <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
+<div class="line"><a id="l00957" name="l00957"></a><span class="lineno">  957</span> </div>
+<div class="line"><a id="l00958" name="l00958"></a><span class="lineno">  958</span>    <span class="keyword">using </span><a class="code hl_class" href="classdlaf_1_1internal_1_1_policy.html">dlaf::internal::Policy</a>;</div>
+<div class="line"><a id="l00959" name="l00959"></a><span class="lineno">  959</span>    <span class="keyword">using </span>dlaf::matrix::internal::CopyBackend_v;</div>
+<div class="line"><a id="l00960" name="l00960"></a><span class="lineno">  960</span>    <span class="keyword">using </span>pika::execution::thread_priority;</div>
+<div class="line"><a id="l00961" name="l00961"></a><span class="lineno">  961</span>    <span class="keyword">using </span>pika::execution::thread_stacksize;</div>
+<div class="line"><a id="l00962" name="l00962"></a><span class="lineno">  962</span> </div>
+<div class="line"><a id="l00963" name="l00963"></a><span class="lineno">  963</span>    <span class="keywordflow">for</span> (<span class="keyword">const</span> <span class="keyword">auto</span>&amp; i : panel_view.<a class="code hl_function" href="structdlaf_1_1matrix_1_1internal_1_1_view.html#a7c25686d3fb7e47b627af360592168ad">iteratorLocal</a>()) {</div>
+<div class="line"><a id="l00964" name="l00964"></a><span class="lineno">  964</span>      <span class="keyword">auto</span> spec = panel_view(i);</div>
+<div class="line"><a id="l00965" name="l00965"></a><span class="lineno">  965</span>      <span class="keyword">auto</span> tile_a = mat_a.<a class="code hl_function" href="classdlaf_1_1matrix_1_1_matrix.html#ad11e9036fe317b6328ae71585b19c811">readwrite</a>(i);</div>
+<div class="line"><a id="l00966" name="l00966"></a><span class="lineno">  966</span>      ex::start_detached(ex::when_all(splitTile(v.read(i), spec), splitTile(std::move(tile_a), spec)) |</div>
+<div class="line"><a id="l00967" name="l00967"></a><span class="lineno">  967</span>                         matrix::copy(Policy&lt;CopyBackend_v&lt;Device::CPU, Device::GPU&gt;&gt;(</div>
+<div class="line"><a id="l00968" name="l00968"></a><span class="lineno">  968</span>                             thread_priority::high, thread_stacksize::nostack)));</div>
+<div class="line"><a id="l00969" name="l00969"></a><span class="lineno">  969</span>    }</div>
+<div class="line"><a id="l00970" name="l00970"></a><span class="lineno">  970</span>  }</div>
+<div class="line"><a id="l00971" name="l00971"></a><span class="lineno">  971</span>};</div>
 </div>
-<div class="line"><a id="l00963" name="l00963"></a><span class="lineno">  963</span><span class="preprocessor">#endif</span></div>
-<div class="line"><a id="l00964" name="l00964"></a><span class="lineno">  964</span> </div>
-<div class="line"><a id="l00965" name="l00965"></a><span class="lineno">  965</span>}</div>
-<div class="line"><a id="l00966" name="l00966"></a><span class="lineno">  966</span> </div>
-<div class="line"><a id="l00967" name="l00967"></a><span class="lineno">  967</span><span class="comment">// Local implementation of reduction to band</span></div>
-<div class="line"><a id="l00968" name="l00968"></a><span class="lineno">  968</span><span class="keyword">template</span> &lt;Backend B, Device D, <span class="keyword">class</span> T&gt;</div>
-<div class="line"><a id="l00969" name="l00969"></a><span class="lineno">  969</span>Matrix&lt;T, Device::CPU&gt; <a class="code hl_struct" href="structdlaf_1_1eigensolver_1_1internal_1_1_reduction_to_band.html">ReductionToBand&lt;B, D, T&gt;::call</a>(Matrix&lt;T, D&gt;&amp; mat_a, <span class="keyword">const</span> SizeType band_size) {</div>
-<div class="line"><a id="l00970" name="l00970"></a><span class="lineno">  970</span>  <span class="keyword">using </span><a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">dlaf::matrix::Matrix</a>;</div>
-<div class="line"><a id="l00971" name="l00971"></a><span class="lineno">  971</span>  <span class="keyword">using </span><a class="code hl_struct" href="structdlaf_1_1matrix_1_1_panel.html">dlaf::matrix::Panel</a>;</div>
-<div class="line"><a id="l00972" name="l00972"></a><span class="lineno">  972</span> </div>
-<div class="line"><a id="l00973" name="l00973"></a><span class="lineno">  973</span>  <span class="keyword">using namespace </span>red2band::local;</div>
-<div class="line"><a id="l00974" name="l00974"></a><span class="lineno">  974</span> </div>
-<div class="line"><a id="l00975" name="l00975"></a><span class="lineno">  975</span>  <span class="keyword">using </span>common::iterate_range2d;</div>
-<div class="line"><a id="l00976" name="l00976"></a><span class="lineno">  976</span>  <span class="keyword">using </span>factorization::internal::computeTFactor;</div>
-<div class="line"><a id="l00977" name="l00977"></a><span class="lineno">  977</span> </div>
-<div class="line"><a id="l00978" name="l00978"></a><span class="lineno">  978</span>  <span class="keyword">using </span>pika::execution::experimental::any_sender;</div>
-<div class="line"><a id="l00979" name="l00979"></a><span class="lineno">  979</span> </div>
-<div class="line"><a id="l00980" name="l00980"></a><span class="lineno">  980</span>  <span class="keyword">const</span> <span class="keyword">auto</span> dist_a = mat_a.distribution();</div>
-<div class="line"><a id="l00981" name="l00981"></a><span class="lineno">  981</span>  <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1matrix_1_1_distribution.html">matrix::Distribution</a> dist({mat_a.size().rows(), band_size},</div>
-<div class="line"><a id="l00982" name="l00982"></a><span class="lineno">  982</span>                                  {dist_a.blockSize().rows(), band_size});</div>
+<div class="line"><a id="l00972" name="l00972"></a><span class="lineno">  972</span><span class="preprocessor">#endif</span></div>
+<div class="line"><a id="l00973" name="l00973"></a><span class="lineno">  973</span> </div>
+<div class="line"><a id="l00974" name="l00974"></a><span class="lineno">  974</span>}</div>
+<div class="line"><a id="l00975" name="l00975"></a><span class="lineno">  975</span> </div>
+<div class="line"><a id="l00976" name="l00976"></a><span class="lineno">  976</span><span class="comment">// Local implementation of reduction to band</span></div>
+<div class="line"><a id="l00977" name="l00977"></a><span class="lineno">  977</span><span class="keyword">template</span> &lt;Backend B, Device D, <span class="keyword">class</span> T&gt;</div>
+<div class="line"><a id="l00978" name="l00978"></a><span class="lineno">  978</span>Matrix&lt;T, Device::CPU&gt; <a class="code hl_struct" href="structdlaf_1_1eigensolver_1_1internal_1_1_reduction_to_band.html">ReductionToBand&lt;B, D, T&gt;::call</a>(Matrix&lt;T, D&gt;&amp; mat_a, <span class="keyword">const</span> SizeType band_size) {</div>
+<div class="line"><a id="l00979" name="l00979"></a><span class="lineno">  979</span>  <span class="keyword">using </span><a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">dlaf::matrix::Matrix</a>;</div>
+<div class="line"><a id="l00980" name="l00980"></a><span class="lineno">  980</span>  <span class="keyword">using </span><a class="code hl_struct" href="structdlaf_1_1matrix_1_1_panel.html">dlaf::matrix::Panel</a>;</div>
+<div class="line"><a id="l00981" name="l00981"></a><span class="lineno">  981</span> </div>
+<div class="line"><a id="l00982" name="l00982"></a><span class="lineno">  982</span>  <span class="keyword">using namespace </span>red2band::local;</div>
 <div class="line"><a id="l00983" name="l00983"></a><span class="lineno">  983</span> </div>
-<div class="line"><a id="l00984" name="l00984"></a><span class="lineno">  984</span>  <span class="comment">// Note:</span></div>
-<div class="line"><a id="l00985" name="l00985"></a><span class="lineno">  985</span>  <span class="comment">// Reflector of size = 1 is not considered whatever T is (i.e. neither real nor complex)</span></div>
-<div class="line"><a id="l00986" name="l00986"></a><span class="lineno">  986</span>  <span class="keyword">const</span> SizeType nrefls = std::max&lt;SizeType&gt;(0, dist_a.size().rows() - band_size - 1);</div>
-<div class="line"><a id="l00987" name="l00987"></a><span class="lineno">  987</span> </div>
-<div class="line"><a id="l00988" name="l00988"></a><span class="lineno">  988</span>  <span class="comment">// Row-vector that is distributed over columns, but exists locally on all rows of the grid</span></div>
-<div class="line"><a id="l00989" name="l00989"></a><span class="lineno">  989</span>  DLAF_ASSERT(mat_a.blockSize().cols() % band_size == 0, mat_a.blockSize().cols(), band_size);</div>
-<div class="line"><a id="l00990" name="l00990"></a><span class="lineno">  990</span>  Matrix&lt;T, Device::CPU&gt; mat_taus(<a class="code hl_class" href="classdlaf_1_1matrix_1_1_distribution.html">matrix::Distribution</a>(<a class="code hl_class" href="classdlaf_1_1common_1_1_size2_d.html">GlobalElementSize</a>(nrefls, 1),</div>
-<div class="line"><a id="l00991" name="l00991"></a><span class="lineno">  991</span>                                                       <a class="code hl_class" href="classdlaf_1_1common_1_1_size2_d.html">TileElementSize</a>(mat_a.blockSize().cols(), 1),</div>
-<div class="line"><a id="l00992" name="l00992"></a><span class="lineno">  992</span>                                                       <a class="code hl_class" href="classdlaf_1_1common_1_1_size2_d.html">comm::Size2D</a>(mat_a.commGridSize().cols(), 1),</div>
-<div class="line"><a id="l00993" name="l00993"></a><span class="lineno">  993</span>                                                       <a class="code hl_class" href="classdlaf_1_1common_1_1_index2_d.html">comm::Index2D</a>(mat_a.rankIndex().col(), 0),</div>
-<div class="line"><a id="l00994" name="l00994"></a><span class="lineno">  994</span>                                                       <a class="code hl_class" href="classdlaf_1_1common_1_1_index2_d.html">comm::Index2D</a>(mat_a.sourceRankIndex().col(), 0)));</div>
-<div class="line"><a id="l00995" name="l00995"></a><span class="lineno">  995</span> </div>
-<div class="line"><a id="l00996" name="l00996"></a><span class="lineno">  996</span>  <span class="keywordflow">if</span> (nrefls == 0)</div>
-<div class="line"><a id="l00997" name="l00997"></a><span class="lineno">  997</span>    <span class="keywordflow">return</span> mat_taus;</div>
-<div class="line"><a id="l00998" name="l00998"></a><span class="lineno">  998</span> </div>
-<div class="line"><a id="l00999" name="l00999"></a><span class="lineno">  999</span>  Matrix&lt;T, Device::CPU&gt; mat_taus_retiled =</div>
-<div class="line"><a id="l01000" name="l01000"></a><span class="lineno"> 1000</span>      mat_taus.retiledSubPipeline(<a class="code hl_class" href="classdlaf_1_1common_1_1_size2_d.html">LocalTileSize</a>(mat_a.blockSize().cols() / band_size, 1));</div>
-<div class="line"><a id="l01001" name="l01001"></a><span class="lineno"> 1001</span> </div>
-<div class="line"><a id="l01002" name="l01002"></a><span class="lineno"> 1002</span>  <span class="keyword">const</span> SizeType ntiles = (nrefls - 1) / band_size + 1;</div>
-<div class="line"><a id="l01003" name="l01003"></a><span class="lineno"> 1003</span>  DLAF_ASSERT(ntiles == mat_taus_retiled.nrTiles().rows(), ntiles, mat_taus_retiled.nrTiles().rows());</div>
+<div class="line"><a id="l00984" name="l00984"></a><span class="lineno">  984</span>  <span class="keyword">using </span>common::iterate_range2d;</div>
+<div class="line"><a id="l00985" name="l00985"></a><span class="lineno">  985</span>  <span class="keyword">using </span>factorization::internal::computeTFactor;</div>
+<div class="line"><a id="l00986" name="l00986"></a><span class="lineno">  986</span> </div>
+<div class="line"><a id="l00987" name="l00987"></a><span class="lineno">  987</span>  <span class="keyword">using </span>pika::execution::experimental::any_sender;</div>
+<div class="line"><a id="l00988" name="l00988"></a><span class="lineno">  988</span> </div>
+<div class="line"><a id="l00989" name="l00989"></a><span class="lineno">  989</span>  <span class="keyword">const</span> <span class="keyword">auto</span> dist_a = mat_a.distribution();</div>
+<div class="line"><a id="l00990" name="l00990"></a><span class="lineno">  990</span>  <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1matrix_1_1_distribution.html">matrix::Distribution</a> dist({mat_a.size().rows(), band_size},</div>
+<div class="line"><a id="l00991" name="l00991"></a><span class="lineno">  991</span>                                  {dist_a.blockSize().rows(), band_size});</div>
+<div class="line"><a id="l00992" name="l00992"></a><span class="lineno">  992</span> </div>
+<div class="line"><a id="l00993" name="l00993"></a><span class="lineno">  993</span>  <span class="comment">// Note:</span></div>
+<div class="line"><a id="l00994" name="l00994"></a><span class="lineno">  994</span>  <span class="comment">// Reflector of size = 1 is not considered whatever T is (i.e. neither real nor complex)</span></div>
+<div class="line"><a id="l00995" name="l00995"></a><span class="lineno">  995</span>  <span class="keyword">const</span> SizeType nrefls = std::max&lt;SizeType&gt;(0, dist_a.size().rows() - band_size - 1);</div>
+<div class="line"><a id="l00996" name="l00996"></a><span class="lineno">  996</span> </div>
+<div class="line"><a id="l00997" name="l00997"></a><span class="lineno">  997</span>  <span class="comment">// Row-vector that is distributed over columns, but exists locally on all rows of the grid</span></div>
+<div class="line"><a id="l00998" name="l00998"></a><span class="lineno">  998</span>  DLAF_ASSERT(mat_a.blockSize().cols() % band_size == 0, mat_a.blockSize().cols(), band_size);</div>
+<div class="line"><a id="l00999" name="l00999"></a><span class="lineno">  999</span>  Matrix&lt;T, Device::CPU&gt; mat_taus(<a class="code hl_class" href="classdlaf_1_1matrix_1_1_distribution.html">matrix::Distribution</a>(<a class="code hl_class" href="classdlaf_1_1common_1_1_size2_d.html">GlobalElementSize</a>(nrefls, 1),</div>
+<div class="line"><a id="l01000" name="l01000"></a><span class="lineno"> 1000</span>                                                       <a class="code hl_class" href="classdlaf_1_1common_1_1_size2_d.html">TileElementSize</a>(mat_a.blockSize().cols(), 1),</div>
+<div class="line"><a id="l01001" name="l01001"></a><span class="lineno"> 1001</span>                                                       <a class="code hl_class" href="classdlaf_1_1common_1_1_size2_d.html">comm::Size2D</a>(mat_a.commGridSize().cols(), 1),</div>
+<div class="line"><a id="l01002" name="l01002"></a><span class="lineno"> 1002</span>                                                       <a class="code hl_class" href="classdlaf_1_1common_1_1_index2_d.html">comm::Index2D</a>(mat_a.rankIndex().col(), 0),</div>
+<div class="line"><a id="l01003" name="l01003"></a><span class="lineno"> 1003</span>                                                       <a class="code hl_class" href="classdlaf_1_1common_1_1_index2_d.html">comm::Index2D</a>(mat_a.sourceRankIndex().col(), 0)));</div>
 <div class="line"><a id="l01004" name="l01004"></a><span class="lineno"> 1004</span> </div>
-<div class="line"><a id="l01005" name="l01005"></a><span class="lineno"> 1005</span>  <span class="keyword">const</span> <span class="keywordtype">bool</span> is_full_band = (band_size == dist_a.blockSize().cols());</div>
-<div class="line"><a id="l01006" name="l01006"></a><span class="lineno"> 1006</span> </div>
-<div class="line"><a id="l01007" name="l01007"></a><span class="lineno"> 1007</span>  <span class="keyword">constexpr</span> std::size_t n_workspaces = 2;</div>
-<div class="line"><a id="l01008" name="l01008"></a><span class="lineno"> 1008</span>  <a class="code hl_class" href="classdlaf_1_1common_1_1_round_robin.html">common::RoundRobin&lt;Panel&lt;Coord::Col, T, D&gt;</a>&gt; panels_v(n_workspaces, dist);</div>
-<div class="line"><a id="l01009" name="l01009"></a><span class="lineno"> 1009</span>  <a class="code hl_class" href="classdlaf_1_1common_1_1_round_robin.html">common::RoundRobin&lt;Panel&lt;Coord::Col, T, D&gt;</a>&gt; panels_w(n_workspaces, dist);</div>
-<div class="line"><a id="l01010" name="l01010"></a><span class="lineno"> 1010</span>  <a class="code hl_class" href="classdlaf_1_1common_1_1_round_robin.html">common::RoundRobin&lt;Panel&lt;Coord::Col, T, D&gt;</a>&gt; panels_x(n_workspaces, dist);</div>
-<div class="line"><a id="l01011" name="l01011"></a><span class="lineno"> 1011</span> </div>
-<div class="line"><a id="l01012" name="l01012"></a><span class="lineno"> 1012</span>  <span class="comment">// Note:</span></div>
-<div class="line"><a id="l01013" name="l01013"></a><span class="lineno"> 1013</span>  <span class="comment">// Here dist_a is given with full panel size instead of dist with just the part actually needeed,</span></div>
-<div class="line"><a id="l01014" name="l01014"></a><span class="lineno"> 1014</span>  <span class="comment">// because the GPU Helper internally exploits Panel data-structure. Indeed, the full size panel is</span></div>
-<div class="line"><a id="l01015" name="l01015"></a><span class="lineno"> 1015</span>  <span class="comment">// needed in order to mimick Matrix with Panel, so it is possible to apply a SubPanelView to it.</span></div>
-<div class="line"><a id="l01016" name="l01016"></a><span class="lineno"> 1016</span>  <span class="comment">//</span></div>
-<div class="line"><a id="l01017" name="l01017"></a><span class="lineno"> 1017</span>  <span class="comment">// It is a bit hacky usage, because SubPanelView is not meant to be used with Panel, but just with</span></div>
-<div class="line"><a id="l01018" name="l01018"></a><span class="lineno"> 1018</span>  <span class="comment">// Matrix. This results in a variable waste of memory, depending no the ratio band_size/nb.</span></div>
-<div class="line"><a id="l01019" name="l01019"></a><span class="lineno"> 1019</span>  red2band::ComputePanelHelper&lt;B, D, T&gt; compute_panel_helper(n_workspaces, dist_a);</div>
+<div class="line"><a id="l01005" name="l01005"></a><span class="lineno"> 1005</span>  <span class="keywordflow">if</span> (nrefls == 0)</div>
+<div class="line"><a id="l01006" name="l01006"></a><span class="lineno"> 1006</span>    <span class="keywordflow">return</span> mat_taus;</div>
+<div class="line"><a id="l01007" name="l01007"></a><span class="lineno"> 1007</span> </div>
+<div class="line"><a id="l01008" name="l01008"></a><span class="lineno"> 1008</span>  Matrix&lt;T, Device::CPU&gt; mat_taus_retiled =</div>
+<div class="line"><a id="l01009" name="l01009"></a><span class="lineno"> 1009</span>      mat_taus.retiledSubPipeline(<a class="code hl_class" href="classdlaf_1_1common_1_1_size2_d.html">LocalTileSize</a>(mat_a.blockSize().cols() / band_size, 1));</div>
+<div class="line"><a id="l01010" name="l01010"></a><span class="lineno"> 1010</span> </div>
+<div class="line"><a id="l01011" name="l01011"></a><span class="lineno"> 1011</span>  <span class="keyword">const</span> SizeType ntiles = (nrefls - 1) / band_size + 1;</div>
+<div class="line"><a id="l01012" name="l01012"></a><span class="lineno"> 1012</span>  DLAF_ASSERT(ntiles == mat_taus_retiled.nrTiles().rows(), ntiles, mat_taus_retiled.nrTiles().rows());</div>
+<div class="line"><a id="l01013" name="l01013"></a><span class="lineno"> 1013</span> </div>
+<div class="line"><a id="l01014" name="l01014"></a><span class="lineno"> 1014</span>  <span class="keyword">const</span> <span class="keywordtype">bool</span> is_full_band = (band_size == dist_a.blockSize().cols());</div>
+<div class="line"><a id="l01015" name="l01015"></a><span class="lineno"> 1015</span> </div>
+<div class="line"><a id="l01016" name="l01016"></a><span class="lineno"> 1016</span>  <span class="keyword">constexpr</span> std::size_t n_workspaces = 2;</div>
+<div class="line"><a id="l01017" name="l01017"></a><span class="lineno"> 1017</span>  <a class="code hl_class" href="classdlaf_1_1common_1_1_round_robin.html">common::RoundRobin&lt;Panel&lt;Coord::Col, T, D&gt;</a>&gt; panels_v(n_workspaces, dist);</div>
+<div class="line"><a id="l01018" name="l01018"></a><span class="lineno"> 1018</span>  <a class="code hl_class" href="classdlaf_1_1common_1_1_round_robin.html">common::RoundRobin&lt;Panel&lt;Coord::Col, T, D&gt;</a>&gt; panels_w(n_workspaces, dist);</div>
+<div class="line"><a id="l01019" name="l01019"></a><span class="lineno"> 1019</span>  <a class="code hl_class" href="classdlaf_1_1common_1_1_round_robin.html">common::RoundRobin&lt;Panel&lt;Coord::Col, T, D&gt;</a>&gt; panels_x(n_workspaces, dist);</div>
 <div class="line"><a id="l01020" name="l01020"></a><span class="lineno"> 1020</span> </div>
-<div class="line"><a id="l01021" name="l01021"></a><span class="lineno"> 1021</span>  <span class="keywordflow">for</span> (SizeType j_sub = 0; j_sub &lt; ntiles; ++j_sub) {</div>
-<div class="line"><a id="l01022" name="l01022"></a><span class="lineno"> 1022</span>    <span class="keyword">const</span> <span class="keyword">auto</span> i_sub = j_sub + 1;</div>
-<div class="line"><a id="l01023" name="l01023"></a><span class="lineno"> 1023</span> </div>
-<div class="line"><a id="l01024" name="l01024"></a><span class="lineno"> 1024</span>    <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1common_1_1_index2_d.html">GlobalElementIndex</a> ij_offset(i_sub * band_size, j_sub * band_size);</div>
-<div class="line"><a id="l01025" name="l01025"></a><span class="lineno"> 1025</span> </div>
-<div class="line"><a id="l01026" name="l01026"></a><span class="lineno"> 1026</span>    <span class="keyword">const</span> SizeType nrefls_tile = mat_taus_retiled.tileSize(<a class="code hl_class" href="classdlaf_1_1common_1_1_index2_d.html">GlobalTileIndex</a>(j_sub, 0)).rows();</div>
-<div class="line"><a id="l01027" name="l01027"></a><span class="lineno"> 1027</span> </div>
-<div class="line"><a id="l01028" name="l01028"></a><span class="lineno"> 1028</span>    <span class="keyword">const</span> <span class="keywordtype">bool</span> isPanelIncomplete = (nrefls_tile != band_size);</div>
+<div class="line"><a id="l01021" name="l01021"></a><span class="lineno"> 1021</span>  <span class="comment">// Note:</span></div>
+<div class="line"><a id="l01022" name="l01022"></a><span class="lineno"> 1022</span>  <span class="comment">// Here dist_a is given with full panel size instead of dist with just the part actually needeed,</span></div>
+<div class="line"><a id="l01023" name="l01023"></a><span class="lineno"> 1023</span>  <span class="comment">// because the GPU Helper internally exploits Panel data-structure. Indeed, the full size panel is</span></div>
+<div class="line"><a id="l01024" name="l01024"></a><span class="lineno"> 1024</span>  <span class="comment">// needed in order to mimick Matrix with Panel, so it is possible to apply a SubPanelView to it.</span></div>
+<div class="line"><a id="l01025" name="l01025"></a><span class="lineno"> 1025</span>  <span class="comment">//</span></div>
+<div class="line"><a id="l01026" name="l01026"></a><span class="lineno"> 1026</span>  <span class="comment">// It is a bit hacky usage, because SubPanelView is not meant to be used with Panel, but just with</span></div>
+<div class="line"><a id="l01027" name="l01027"></a><span class="lineno"> 1027</span>  <span class="comment">// Matrix. This results in a variable waste of memory, depending no the ratio band_size/nb.</span></div>
+<div class="line"><a id="l01028" name="l01028"></a><span class="lineno"> 1028</span>  red2band::ComputePanelHelper&lt;B, D, T&gt; compute_panel_helper(n_workspaces, dist_a);</div>
 <div class="line"><a id="l01029" name="l01029"></a><span class="lineno"> 1029</span> </div>
-<div class="line"><a id="l01030" name="l01030"></a><span class="lineno"> 1030</span>    <span class="comment">// Note: if this is running, it must have at least one valid reflector (i.e. with size &gt; 1)</span></div>
-<div class="line"><a id="l01031" name="l01031"></a><span class="lineno"> 1031</span>    DLAF_ASSERT_HEAVY(nrefls_tile != 0, nrefls_tile);</div>
+<div class="line"><a id="l01030" name="l01030"></a><span class="lineno"> 1030</span>  <span class="keywordflow">for</span> (SizeType j_sub = 0; j_sub &lt; ntiles; ++j_sub) {</div>
+<div class="line"><a id="l01031" name="l01031"></a><span class="lineno"> 1031</span>    <span class="keyword">const</span> <span class="keyword">auto</span> i_sub = j_sub + 1;</div>
 <div class="line"><a id="l01032" name="l01032"></a><span class="lineno"> 1032</span> </div>
-<div class="line"><a id="l01033" name="l01033"></a><span class="lineno"> 1033</span>    <span class="comment">// Note:  SubPanelView is (at most) band_size wide, but it may contain a smaller number of</span></div>
-<div class="line"><a id="l01034" name="l01034"></a><span class="lineno"> 1034</span>    <span class="comment">//        reflectors (i.e. at the end when last reflector size is 1)</span></div>
-<div class="line"><a id="l01035" name="l01035"></a><span class="lineno"> 1035</span>    <span class="keyword">const</span> <a class="code hl_struct" href="structdlaf_1_1matrix_1_1_sub_panel_view.html">matrix::SubPanelView</a> panel_view(dist_a, ij_offset, band_size);</div>
+<div class="line"><a id="l01033" name="l01033"></a><span class="lineno"> 1033</span>    <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1common_1_1_index2_d.html">GlobalElementIndex</a> ij_offset(i_sub * band_size, j_sub * band_size);</div>
+<div class="line"><a id="l01034" name="l01034"></a><span class="lineno"> 1034</span> </div>
+<div class="line"><a id="l01035" name="l01035"></a><span class="lineno"> 1035</span>    <span class="keyword">const</span> SizeType nrefls_tile = mat_taus_retiled.tileSize(<a class="code hl_class" href="classdlaf_1_1common_1_1_index2_d.html">GlobalTileIndex</a>(j_sub, 0)).rows();</div>
 <div class="line"><a id="l01036" name="l01036"></a><span class="lineno"> 1036</span> </div>
-<div class="line"><a id="l01037" name="l01037"></a><span class="lineno"> 1037</span>    Panel&lt;Coord::Col, T, D&gt;&amp; v = panels_v.nextResource();</div>
-<div class="line"><a id="l01038" name="l01038"></a><span class="lineno"> 1038</span>    v.setRangeStart(ij_offset);</div>
-<div class="line"><a id="l01039" name="l01039"></a><span class="lineno"> 1039</span>    <span class="keywordflow">if</span> (isPanelIncomplete)</div>
-<div class="line"><a id="l01040" name="l01040"></a><span class="lineno"> 1040</span>      v.setWidth(nrefls_tile);</div>
+<div class="line"><a id="l01037" name="l01037"></a><span class="lineno"> 1037</span>    <span class="keyword">const</span> <span class="keywordtype">bool</span> isPanelIncomplete = (nrefls_tile != band_size);</div>
+<div class="line"><a id="l01038" name="l01038"></a><span class="lineno"> 1038</span> </div>
+<div class="line"><a id="l01039" name="l01039"></a><span class="lineno"> 1039</span>    <span class="comment">// Note: if this is running, it must have at least one valid reflector (i.e. with size &gt; 1)</span></div>
+<div class="line"><a id="l01040" name="l01040"></a><span class="lineno"> 1040</span>    DLAF_ASSERT_HEAVY(nrefls_tile != 0, nrefls_tile);</div>
 <div class="line"><a id="l01041" name="l01041"></a><span class="lineno"> 1041</span> </div>
-<div class="line"><a id="l01042" name="l01042"></a><span class="lineno"> 1042</span>    <span class="comment">// PANEL</span></div>
-<div class="line"><a id="l01043" name="l01043"></a><span class="lineno"> 1043</span>    compute_panel_helper.call(mat_a, mat_taus_retiled, j_sub, panel_view);</div>
-<div class="line"><a id="l01044" name="l01044"></a><span class="lineno"> 1044</span> </div>
-<div class="line"><a id="l01045" name="l01045"></a><span class="lineno"> 1045</span>    <span class="comment">// Note:</span></div>
-<div class="line"><a id="l01046" name="l01046"></a><span class="lineno"> 1046</span>    <span class="comment">// - has_reflector_head tells if this rank owns the first tile of the panel (being local, always true)</span></div>
-<div class="line"><a id="l01047" name="l01047"></a><span class="lineno"> 1047</span>    <span class="comment">// - if !is_full_band it has to force copy as a workaround, otherwise in update matrix it would deadlock</span></div>
-<div class="line"><a id="l01048" name="l01048"></a><span class="lineno"> 1048</span>    <span class="comment">// due to tile shared between panel and trailing matrix</span></div>
-<div class="line"><a id="l01049" name="l01049"></a><span class="lineno"> 1049</span>    <span class="keyword">constexpr</span> <span class="keywordtype">bool</span> has_reflector_head = <span class="keyword">true</span>;</div>
-<div class="line"><a id="l01050" name="l01050"></a><span class="lineno"> 1050</span>    setupReflectorPanelV&lt;B, D, T&gt;(has_reflector_head, panel_view, nrefls_tile, v, mat_a, !is_full_band);</div>
-<div class="line"><a id="l01051" name="l01051"></a><span class="lineno"> 1051</span> </div>
-<div class="line"><a id="l01052" name="l01052"></a><span class="lineno"> 1052</span>    <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1common_1_1_index2_d.html">LocalTileIndex</a> t_idx(0, 0);</div>
-<div class="line"><a id="l01053" name="l01053"></a><span class="lineno"> 1053</span>    <span class="comment">// TODO used just by the column, maybe we can re-use a panel tile?</span></div>
-<div class="line"><a id="l01054" name="l01054"></a><span class="lineno"> 1054</span>    <span class="comment">// TODO probably the first one in any panel is ok?</span></div>
-<div class="line"><a id="l01055" name="l01055"></a><span class="lineno"> 1055</span>    Matrix&lt;T, D&gt; t({nrefls_tile, nrefls_tile}, dist.blockSize());</div>
-<div class="line"><a id="l01056" name="l01056"></a><span class="lineno"> 1056</span> </div>
-<div class="line"><a id="l01057" name="l01057"></a><span class="lineno"> 1057</span>    computeTFactor&lt;B&gt;(v, mat_taus_retiled.read(GlobalTileIndex(j_sub, 0)), t.readwrite(t_idx));</div>
-<div class="line"><a id="l01058" name="l01058"></a><span class="lineno"> 1058</span> </div>
-<div class="line"><a id="l01059" name="l01059"></a><span class="lineno"> 1059</span>    <span class="comment">// PREPARATION FOR TRAILING MATRIX UPDATE</span></div>
-<div class="line"><a id="l01060" name="l01060"></a><span class="lineno"> 1060</span>    <span class="keyword">const</span> GlobalElementIndex at_offset(ij_offset + GlobalElementSize(0, band_size));</div>
-<div class="line"><a id="l01061" name="l01061"></a><span class="lineno"> 1061</span> </div>
-<div class="line"><a id="l01062" name="l01062"></a><span class="lineno"> 1062</span>    <span class="comment">// Note: if there is no trailing matrix, algorithm has finised</span></div>
-<div class="line"><a id="l01063" name="l01063"></a><span class="lineno"> 1063</span>    <span class="keywordflow">if</span> (!at_offset.isIn(mat_a.size()))</div>
-<div class="line"><a id="l01064" name="l01064"></a><span class="lineno"> 1064</span>      <span class="keywordflow">break</span>;</div>
+<div class="line"><a id="l01042" name="l01042"></a><span class="lineno"> 1042</span>    <span class="comment">// Note:  SubPanelView is (at most) band_size wide, but it may contain a smaller number of</span></div>
+<div class="line"><a id="l01043" name="l01043"></a><span class="lineno"> 1043</span>    <span class="comment">//        reflectors (i.e. at the end when last reflector size is 1)</span></div>
+<div class="line"><a id="l01044" name="l01044"></a><span class="lineno"> 1044</span>    <span class="keyword">const</span> <a class="code hl_struct" href="structdlaf_1_1matrix_1_1_sub_panel_view.html">matrix::SubPanelView</a> panel_view(dist_a, ij_offset, band_size);</div>
+<div class="line"><a id="l01045" name="l01045"></a><span class="lineno"> 1045</span> </div>
+<div class="line"><a id="l01046" name="l01046"></a><span class="lineno"> 1046</span>    Panel&lt;Coord::Col, T, D&gt;&amp; v = panels_v.nextResource();</div>
+<div class="line"><a id="l01047" name="l01047"></a><span class="lineno"> 1047</span>    v.setRangeStart(ij_offset);</div>
+<div class="line"><a id="l01048" name="l01048"></a><span class="lineno"> 1048</span>    <span class="keywordflow">if</span> (isPanelIncomplete)</div>
+<div class="line"><a id="l01049" name="l01049"></a><span class="lineno"> 1049</span>      v.setWidth(nrefls_tile);</div>
+<div class="line"><a id="l01050" name="l01050"></a><span class="lineno"> 1050</span> </div>
+<div class="line"><a id="l01051" name="l01051"></a><span class="lineno"> 1051</span>    <span class="comment">// PANEL</span></div>
+<div class="line"><a id="l01052" name="l01052"></a><span class="lineno"> 1052</span>    compute_panel_helper.call(mat_a, mat_taus_retiled, j_sub, panel_view);</div>
+<div class="line"><a id="l01053" name="l01053"></a><span class="lineno"> 1053</span> </div>
+<div class="line"><a id="l01054" name="l01054"></a><span class="lineno"> 1054</span>    <span class="comment">// Note:</span></div>
+<div class="line"><a id="l01055" name="l01055"></a><span class="lineno"> 1055</span>    <span class="comment">// - has_reflector_head tells if this rank owns the first tile of the panel (being local, always true)</span></div>
+<div class="line"><a id="l01056" name="l01056"></a><span class="lineno"> 1056</span>    <span class="comment">// - if !is_full_band it has to force copy as a workaround, otherwise in update matrix it would deadlock</span></div>
+<div class="line"><a id="l01057" name="l01057"></a><span class="lineno"> 1057</span>    <span class="comment">// due to tile shared between panel and trailing matrix</span></div>
+<div class="line"><a id="l01058" name="l01058"></a><span class="lineno"> 1058</span>    <span class="keyword">constexpr</span> <span class="keywordtype">bool</span> has_reflector_head = <span class="keyword">true</span>;</div>
+<div class="line"><a id="l01059" name="l01059"></a><span class="lineno"> 1059</span>    setupReflectorPanelV&lt;B, D, T&gt;(has_reflector_head, panel_view, nrefls_tile, v, mat_a, !is_full_band);</div>
+<div class="line"><a id="l01060" name="l01060"></a><span class="lineno"> 1060</span> </div>
+<div class="line"><a id="l01061" name="l01061"></a><span class="lineno"> 1061</span>    <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1common_1_1_index2_d.html">LocalTileIndex</a> t_idx(0, 0);</div>
+<div class="line"><a id="l01062" name="l01062"></a><span class="lineno"> 1062</span>    <span class="comment">// TODO used just by the column, maybe we can re-use a panel tile?</span></div>
+<div class="line"><a id="l01063" name="l01063"></a><span class="lineno"> 1063</span>    <span class="comment">// TODO probably the first one in any panel is ok?</span></div>
+<div class="line"><a id="l01064" name="l01064"></a><span class="lineno"> 1064</span>    Matrix&lt;T, D&gt; t({nrefls_tile, nrefls_tile}, dist.blockSize());</div>
 <div class="line"><a id="l01065" name="l01065"></a><span class="lineno"> 1065</span> </div>
-<div class="line"><a id="l01066" name="l01066"></a><span class="lineno"> 1066</span>    <span class="keyword">const</span> matrix::SubMatrixView trailing_matrix_view(dist_a, at_offset);</div>
+<div class="line"><a id="l01066" name="l01066"></a><span class="lineno"> 1066</span>    computeTFactor&lt;B&gt;(v, mat_taus_retiled.read(GlobalTileIndex(j_sub, 0)), t.readwrite(t_idx));</div>
 <div class="line"><a id="l01067" name="l01067"></a><span class="lineno"> 1067</span> </div>
-<div class="line"><a id="l01068" name="l01068"></a><span class="lineno"> 1068</span>    <span class="comment">// W = V . T</span></div>
-<div class="line"><a id="l01069" name="l01069"></a><span class="lineno"> 1069</span>    Panel&lt;Coord::Col, T, D&gt;&amp; w = panels_w.nextResource();</div>
-<div class="line"><a id="l01070" name="l01070"></a><span class="lineno"> 1070</span>    w.setRangeStart(at_offset);</div>
-<div class="line"><a id="l01071" name="l01071"></a><span class="lineno"> 1071</span>    <span class="keywordflow">if</span> (isPanelIncomplete)</div>
-<div class="line"><a id="l01072" name="l01072"></a><span class="lineno"> 1072</span>      w.setWidth(nrefls_tile);</div>
-<div class="line"><a id="l01073" name="l01073"></a><span class="lineno"> 1073</span> </div>
-<div class="line"><a id="l01074" name="l01074"></a><span class="lineno"> 1074</span>    trmmComputeW&lt;B&gt;(w, v, t.read(t_idx));</div>
-<div class="line"><a id="l01075" name="l01075"></a><span class="lineno"> 1075</span> </div>
-<div class="line"><a id="l01076" name="l01076"></a><span class="lineno"> 1076</span>    <span class="comment">// X = At . W</span></div>
-<div class="line"><a id="l01077" name="l01077"></a><span class="lineno"> 1077</span>    Panel&lt;Coord::Col, T, D&gt;&amp; x = panels_x.nextResource();</div>
-<div class="line"><a id="l01078" name="l01078"></a><span class="lineno"> 1078</span>    x.setRangeStart(at_offset);</div>
-<div class="line"><a id="l01079" name="l01079"></a><span class="lineno"> 1079</span>    <span class="keywordflow">if</span> (isPanelIncomplete)</div>
-<div class="line"><a id="l01080" name="l01080"></a><span class="lineno"> 1080</span>      x.setWidth(nrefls_tile);</div>
-<div class="line"><a id="l01081" name="l01081"></a><span class="lineno"> 1081</span> </div>
-<div class="line"><a id="l01082" name="l01082"></a><span class="lineno"> 1082</span>    <span class="comment">// Note:</span></div>
-<div class="line"><a id="l01083" name="l01083"></a><span class="lineno"> 1083</span>    <span class="comment">// Since At is hermitian, just the lower part is referenced.</span></div>
-<div class="line"><a id="l01084" name="l01084"></a><span class="lineno"> 1084</span>    <span class="comment">// When the tile is not part of the main diagonal, the same tile has to be used for two computations</span></div>
-<div class="line"><a id="l01085" name="l01085"></a><span class="lineno"> 1085</span>    <span class="comment">// that will contribute to two different rows of X: the ones indexed with row and col.</span></div>
-<div class="line"><a id="l01086" name="l01086"></a><span class="lineno"> 1086</span>    hemmComputeX&lt;B&gt;(x, trailing_matrix_view, mat_a, w);</div>
-<div class="line"><a id="l01087" name="l01087"></a><span class="lineno"> 1087</span> </div>
-<div class="line"><a id="l01088" name="l01088"></a><span class="lineno"> 1088</span>    <span class="comment">// In the next section the next two operations are performed</span></div>
-<div class="line"><a id="l01089" name="l01089"></a><span class="lineno"> 1089</span>    <span class="comment">// A) W2 = W* . X</span></div>
-<div class="line"><a id="l01090" name="l01090"></a><span class="lineno"> 1090</span>    <span class="comment">// B) X -= 1/2 . V . W2</span></div>
-<div class="line"><a id="l01091" name="l01091"></a><span class="lineno"> 1091</span> </div>
-<div class="line"><a id="l01092" name="l01092"></a><span class="lineno"> 1092</span>    <span class="comment">// Note:</span></div>
-<div class="line"><a id="l01093" name="l01093"></a><span class="lineno"> 1093</span>    <span class="comment">// T can be re-used because it is not needed anymore in this step and it has the same shape</span></div>
-<div class="line"><a id="l01094" name="l01094"></a><span class="lineno"> 1094</span>    Matrix&lt;T, D&gt; w2 = std::move(t);</div>
-<div class="line"><a id="l01095" name="l01095"></a><span class="lineno"> 1095</span> </div>
-<div class="line"><a id="l01096" name="l01096"></a><span class="lineno"> 1096</span>    gemmComputeW2&lt;B&gt;(w2, w, x);</div>
-<div class="line"><a id="l01097" name="l01097"></a><span class="lineno"> 1097</span>    gemmUpdateX&lt;B&gt;(x, w2, v);</div>
-<div class="line"><a id="l01098" name="l01098"></a><span class="lineno"> 1098</span> </div>
-<div class="line"><a id="l01099" name="l01099"></a><span class="lineno"> 1099</span>    <span class="comment">// TRAILING MATRIX UPDATE</span></div>
+<div class="line"><a id="l01068" name="l01068"></a><span class="lineno"> 1068</span>    <span class="comment">// PREPARATION FOR TRAILING MATRIX UPDATE</span></div>
+<div class="line"><a id="l01069" name="l01069"></a><span class="lineno"> 1069</span>    <span class="keyword">const</span> GlobalElementIndex at_offset(ij_offset + GlobalElementSize(0, band_size));</div>
+<div class="line"><a id="l01070" name="l01070"></a><span class="lineno"> 1070</span> </div>
+<div class="line"><a id="l01071" name="l01071"></a><span class="lineno"> 1071</span>    <span class="comment">// Note: if there is no trailing matrix, algorithm has finised</span></div>
+<div class="line"><a id="l01072" name="l01072"></a><span class="lineno"> 1072</span>    <span class="keywordflow">if</span> (!at_offset.isIn(mat_a.size()))</div>
+<div class="line"><a id="l01073" name="l01073"></a><span class="lineno"> 1073</span>      <span class="keywordflow">break</span>;</div>
+<div class="line"><a id="l01074" name="l01074"></a><span class="lineno"> 1074</span> </div>
+<div class="line"><a id="l01075" name="l01075"></a><span class="lineno"> 1075</span>    <span class="keyword">const</span> matrix::SubMatrixView trailing_matrix_view(dist_a, at_offset);</div>
+<div class="line"><a id="l01076" name="l01076"></a><span class="lineno"> 1076</span> </div>
+<div class="line"><a id="l01077" name="l01077"></a><span class="lineno"> 1077</span>    <span class="comment">// W = V . T</span></div>
+<div class="line"><a id="l01078" name="l01078"></a><span class="lineno"> 1078</span>    Panel&lt;Coord::Col, T, D&gt;&amp; w = panels_w.nextResource();</div>
+<div class="line"><a id="l01079" name="l01079"></a><span class="lineno"> 1079</span>    w.setRangeStart(at_offset);</div>
+<div class="line"><a id="l01080" name="l01080"></a><span class="lineno"> 1080</span>    <span class="keywordflow">if</span> (isPanelIncomplete)</div>
+<div class="line"><a id="l01081" name="l01081"></a><span class="lineno"> 1081</span>      w.setWidth(nrefls_tile);</div>
+<div class="line"><a id="l01082" name="l01082"></a><span class="lineno"> 1082</span> </div>
+<div class="line"><a id="l01083" name="l01083"></a><span class="lineno"> 1083</span>    trmmComputeW&lt;B&gt;(w, v, t.read(t_idx));</div>
+<div class="line"><a id="l01084" name="l01084"></a><span class="lineno"> 1084</span> </div>
+<div class="line"><a id="l01085" name="l01085"></a><span class="lineno"> 1085</span>    <span class="comment">// X = At . W</span></div>
+<div class="line"><a id="l01086" name="l01086"></a><span class="lineno"> 1086</span>    Panel&lt;Coord::Col, T, D&gt;&amp; x = panels_x.nextResource();</div>
+<div class="line"><a id="l01087" name="l01087"></a><span class="lineno"> 1087</span>    x.setRangeStart(at_offset);</div>
+<div class="line"><a id="l01088" name="l01088"></a><span class="lineno"> 1088</span>    <span class="keywordflow">if</span> (isPanelIncomplete)</div>
+<div class="line"><a id="l01089" name="l01089"></a><span class="lineno"> 1089</span>      x.setWidth(nrefls_tile);</div>
+<div class="line"><a id="l01090" name="l01090"></a><span class="lineno"> 1090</span> </div>
+<div class="line"><a id="l01091" name="l01091"></a><span class="lineno"> 1091</span>    <span class="comment">// Note:</span></div>
+<div class="line"><a id="l01092" name="l01092"></a><span class="lineno"> 1092</span>    <span class="comment">// Since At is hermitian, just the lower part is referenced.</span></div>
+<div class="line"><a id="l01093" name="l01093"></a><span class="lineno"> 1093</span>    <span class="comment">// When the tile is not part of the main diagonal, the same tile has to be used for two computations</span></div>
+<div class="line"><a id="l01094" name="l01094"></a><span class="lineno"> 1094</span>    <span class="comment">// that will contribute to two different rows of X: the ones indexed with row and col.</span></div>
+<div class="line"><a id="l01095" name="l01095"></a><span class="lineno"> 1095</span>    hemmComputeX&lt;B&gt;(x, trailing_matrix_view, mat_a, w);</div>
+<div class="line"><a id="l01096" name="l01096"></a><span class="lineno"> 1096</span> </div>
+<div class="line"><a id="l01097" name="l01097"></a><span class="lineno"> 1097</span>    <span class="comment">// In the next section the next two operations are performed</span></div>
+<div class="line"><a id="l01098" name="l01098"></a><span class="lineno"> 1098</span>    <span class="comment">// A) W2 = W* . X</span></div>
+<div class="line"><a id="l01099" name="l01099"></a><span class="lineno"> 1099</span>    <span class="comment">// B) X -= 1/2 . V . W2</span></div>
 <div class="line"><a id="l01100" name="l01100"></a><span class="lineno"> 1100</span> </div>
-<div class="line"><a id="l01101" name="l01101"></a><span class="lineno"> 1101</span>    <span class="comment">// At -= X . V* + V . X*</span></div>
-<div class="line"><a id="l01102" name="l01102"></a><span class="lineno"> 1102</span>    her2kUpdateTrailingMatrix&lt;B&gt;(trailing_matrix_view, mat_a, x, v);</div>
-<div class="line"><a id="l01103" name="l01103"></a><span class="lineno"> 1103</span> </div>
-<div class="line"><a id="l01104" name="l01104"></a><span class="lineno"> 1104</span>    x.reset();</div>
-<div class="line"><a id="l01105" name="l01105"></a><span class="lineno"> 1105</span>    w.reset();</div>
-<div class="line"><a id="l01106" name="l01106"></a><span class="lineno"> 1106</span>    v.reset();</div>
-<div class="line"><a id="l01107" name="l01107"></a><span class="lineno"> 1107</span>  }</div>
-<div class="line"><a id="l01108" name="l01108"></a><span class="lineno"> 1108</span> </div>
-<div class="line"><a id="l01109" name="l01109"></a><span class="lineno"> 1109</span>  <span class="keywordflow">return</span> mat_taus;</div>
-<div class="line"><a id="l01110" name="l01110"></a><span class="lineno"> 1110</span>}</div>
-<div class="line"><a id="l01111" name="l01111"></a><span class="lineno"> 1111</span> </div>
-<div class="line"><a id="l01112" name="l01112"></a><span class="lineno"> 1112</span><span class="comment">// Distributed implementation of reduction to band</span></div>
-<div class="line"><a id="l01113" name="l01113"></a><span class="lineno"> 1113</span><span class="keyword">template</span> &lt;Backend B, Device D, <span class="keyword">class</span> T&gt;</div>
-<div class="line"><a id="l01114" name="l01114"></a><span class="lineno"> 1114</span>Matrix&lt;T, Device::CPU&gt; ReductionToBand&lt;B, D, T&gt;::call(comm::CommunicatorGrid&amp; grid, Matrix&lt;T, D&gt;&amp; mat_a,</div>
-<div class="line"><a id="l01115" name="l01115"></a><span class="lineno"> 1115</span>                                                      <span class="keyword">const</span> SizeType band_size) {</div>
-<div class="line"><a id="l01116" name="l01116"></a><span class="lineno"> 1116</span>  <span class="keyword">using namespace </span>red2band::distributed;</div>
+<div class="line"><a id="l01101" name="l01101"></a><span class="lineno"> 1101</span>    <span class="comment">// Note:</span></div>
+<div class="line"><a id="l01102" name="l01102"></a><span class="lineno"> 1102</span>    <span class="comment">// T can be re-used because it is not needed anymore in this step and it has the same shape</span></div>
+<div class="line"><a id="l01103" name="l01103"></a><span class="lineno"> 1103</span>    Matrix&lt;T, D&gt; w2 = std::move(t);</div>
+<div class="line"><a id="l01104" name="l01104"></a><span class="lineno"> 1104</span> </div>
+<div class="line"><a id="l01105" name="l01105"></a><span class="lineno"> 1105</span>    gemmComputeW2&lt;B&gt;(w2, w, x);</div>
+<div class="line"><a id="l01106" name="l01106"></a><span class="lineno"> 1106</span>    gemmUpdateX&lt;B&gt;(x, w2, v);</div>
+<div class="line"><a id="l01107" name="l01107"></a><span class="lineno"> 1107</span> </div>
+<div class="line"><a id="l01108" name="l01108"></a><span class="lineno"> 1108</span>    <span class="comment">// TRAILING MATRIX UPDATE</span></div>
+<div class="line"><a id="l01109" name="l01109"></a><span class="lineno"> 1109</span> </div>
+<div class="line"><a id="l01110" name="l01110"></a><span class="lineno"> 1110</span>    <span class="comment">// At -= X . V* + V . X*</span></div>
+<div class="line"><a id="l01111" name="l01111"></a><span class="lineno"> 1111</span>    her2kUpdateTrailingMatrix&lt;B&gt;(trailing_matrix_view, mat_a, x, v);</div>
+<div class="line"><a id="l01112" name="l01112"></a><span class="lineno"> 1112</span> </div>
+<div class="line"><a id="l01113" name="l01113"></a><span class="lineno"> 1113</span>    x.reset();</div>
+<div class="line"><a id="l01114" name="l01114"></a><span class="lineno"> 1114</span>    w.reset();</div>
+<div class="line"><a id="l01115" name="l01115"></a><span class="lineno"> 1115</span>    v.reset();</div>
+<div class="line"><a id="l01116" name="l01116"></a><span class="lineno"> 1116</span>  }</div>
 <div class="line"><a id="l01117" name="l01117"></a><span class="lineno"> 1117</span> </div>
-<div class="line"><a id="l01118" name="l01118"></a><span class="lineno"> 1118</span>  <span class="keyword">using </span>common::iterate_range2d;</div>
-<div class="line"><a id="l01119" name="l01119"></a><span class="lineno"> 1119</span>  <span class="keyword">using </span>factorization::internal::computeTFactor;</div>
+<div class="line"><a id="l01118" name="l01118"></a><span class="lineno"> 1118</span>  <span class="keywordflow">return</span> mat_taus;</div>
+<div class="line"><a id="l01119" name="l01119"></a><span class="lineno"> 1119</span>}</div>
 <div class="line"><a id="l01120" name="l01120"></a><span class="lineno"> 1120</span> </div>
-<div class="line"><a id="l01121" name="l01121"></a><span class="lineno"> 1121</span>  <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
-<div class="line"><a id="l01122" name="l01122"></a><span class="lineno"> 1122</span> </div>
-<div class="line"><a id="l01123" name="l01123"></a><span class="lineno"> 1123</span>  <span class="comment">// Note:</span></div>
-<div class="line"><a id="l01124" name="l01124"></a><span class="lineno"> 1124</span>  <span class="comment">// This is a temporary workaround.</span></div>
-<div class="line"><a id="l01125" name="l01125"></a><span class="lineno"> 1125</span>  <span class="comment">// See issue https://github.com/eth-cscs/DLA-Future/issues/729</span></div>
-<div class="line"><a id="l01126" name="l01126"></a><span class="lineno"> 1126</span>  pika::wait();</div>
-<div class="line"><a id="l01127" name="l01127"></a><span class="lineno"> 1127</span> </div>
-<div class="line"><a id="l01128" name="l01128"></a><span class="lineno"> 1128</span>  <span class="comment">// This algorithm requires the grid to have at least 2 independent column communicators in the round</span></div>
-<div class="line"><a id="l01129" name="l01129"></a><span class="lineno"> 1129</span>  <span class="comment">// robin array. If there is only one communicator mpi_col_chain and mpi_col_chain_panel will be</span></div>
-<div class="line"><a id="l01130" name="l01130"></a><span class="lineno"> 1130</span>  <span class="comment">// separate pipelines to the same communicator, but since communication is interleaved between the</span></div>
-<div class="line"><a id="l01131" name="l01131"></a><span class="lineno"> 1131</span>  <span class="comment">// pipelines this algorithm will deadlock (separate subpipelines means that all work on the previous</span></div>
-<div class="line"><a id="l01132" name="l01132"></a><span class="lineno"> 1132</span>  <span class="comment">// subpipeline has to complete before the next subpipeline can even start scheduling work).</span></div>
-<div class="line"><a id="l01133" name="l01133"></a><span class="lineno"> 1133</span>  DLAF_ASSERT(grid.num_pipelines() &gt;= 2, grid.num_pipelines());</div>
-<div class="line"><a id="l01134" name="l01134"></a><span class="lineno"> 1134</span>  <span class="keyword">auto</span> mpi_row_chain = grid.row_communicator_pipeline();</div>
-<div class="line"><a id="l01135" name="l01135"></a><span class="lineno"> 1135</span>  <span class="keyword">auto</span> mpi_col_chain = grid.col_communicator_pipeline();</div>
-<div class="line"><a id="l01136" name="l01136"></a><span class="lineno"> 1136</span>  <span class="keyword">auto</span> mpi_col_chain_panel = grid.col_communicator_pipeline();</div>
-<div class="line"><a id="l01137" name="l01137"></a><span class="lineno"> 1137</span> </div>
-<div class="line"><a id="l01138" name="l01138"></a><span class="lineno"> 1138</span><span class="preprocessor">#ifdef DLAF_WITH_HDF5</span></div>
-<div class="line"><a id="l01139" name="l01139"></a><span class="lineno"> 1139</span>  <span class="keyword">static</span> std::atomic&lt;size_t&gt; num_reduction_to_band_calls = 0;</div>
-<div class="line"><a id="l01140" name="l01140"></a><span class="lineno"> 1140</span>  std::stringstream fname;</div>
-<div class="line"><a id="l01141" name="l01141"></a><span class="lineno"> 1141</span>  fname &lt;&lt; <span class="stringliteral">&quot;reduction_to_band-&quot;</span> &lt;&lt; matrix::internal::TypeToString_v&lt;T&gt; &lt;&lt; <span class="stringliteral">&quot;-&quot;</span></div>
-<div class="line"><a id="l01142" name="l01142"></a><span class="lineno"> 1142</span>        &lt;&lt; std::to_string(num_reduction_to_band_calls) &lt;&lt; <span class="stringliteral">&quot;.h5&quot;</span>;</div>
-<div class="line"><a id="l01143" name="l01143"></a><span class="lineno"> 1143</span>  std::optional&lt;matrix::internal::FileHDF5&gt; file;</div>
-<div class="line"><a id="l01144" name="l01144"></a><span class="lineno"> 1144</span> </div>
-<div class="line"><a id="l01145" name="l01145"></a><span class="lineno"> 1145</span>  <span class="keywordflow">if</span> (getTuneParameters().debug_dump_reduction_to_band_data) {</div>
-<div class="line"><a id="l01146" name="l01146"></a><span class="lineno"> 1146</span>    file = matrix::internal::FileHDF5(grid.fullCommunicator(), fname.str());</div>
-<div class="line"><a id="l01147" name="l01147"></a><span class="lineno"> 1147</span>    file-&gt;write(mat_a, <span class="stringliteral">&quot;/input&quot;</span>);</div>
-<div class="line"><a id="l01148" name="l01148"></a><span class="lineno"> 1148</span>  }</div>
-<div class="line"><a id="l01149" name="l01149"></a><span class="lineno"> 1149</span><span class="preprocessor">#endif</span></div>
-<div class="line"><a id="l01150" name="l01150"></a><span class="lineno"> 1150</span> </div>
-<div class="line"><a id="l01151" name="l01151"></a><span class="lineno"> 1151</span>  <span class="keyword">const</span> <span class="keyword">auto</span>&amp; dist = mat_a.distribution();</div>
-<div class="line"><a id="l01152" name="l01152"></a><span class="lineno"> 1152</span>  <span class="keyword">const</span> comm::Index2D rank = dist.rankIndex();</div>
+<div class="line"><a id="l01121" name="l01121"></a><span class="lineno"> 1121</span><span class="comment">// Distributed implementation of reduction to band</span></div>
+<div class="line"><a id="l01122" name="l01122"></a><span class="lineno"> 1122</span><span class="keyword">template</span> &lt;Backend B, Device D, <span class="keyword">class</span> T&gt;</div>
+<div class="line"><a id="l01123" name="l01123"></a><span class="lineno"> 1123</span>Matrix&lt;T, Device::CPU&gt; ReductionToBand&lt;B, D, T&gt;::call(comm::CommunicatorGrid&amp; grid, Matrix&lt;T, D&gt;&amp; mat_a,</div>
+<div class="line"><a id="l01124" name="l01124"></a><span class="lineno"> 1124</span>                                                      <span class="keyword">const</span> SizeType band_size) {</div>
+<div class="line"><a id="l01125" name="l01125"></a><span class="lineno"> 1125</span>  <span class="keyword">using namespace </span>red2band::distributed;</div>
+<div class="line"><a id="l01126" name="l01126"></a><span class="lineno"> 1126</span> </div>
+<div class="line"><a id="l01127" name="l01127"></a><span class="lineno"> 1127</span>  <span class="keyword">using </span>common::iterate_range2d;</div>
+<div class="line"><a id="l01128" name="l01128"></a><span class="lineno"> 1128</span>  <span class="keyword">using </span>factorization::internal::computeTFactor;</div>
+<div class="line"><a id="l01129" name="l01129"></a><span class="lineno"> 1129</span> </div>
+<div class="line"><a id="l01130" name="l01130"></a><span class="lineno"> 1130</span>  <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
+<div class="line"><a id="l01131" name="l01131"></a><span class="lineno"> 1131</span> </div>
+<div class="line"><a id="l01132" name="l01132"></a><span class="lineno"> 1132</span>  <span class="comment">// Note:</span></div>
+<div class="line"><a id="l01133" name="l01133"></a><span class="lineno"> 1133</span>  <span class="comment">// This is a temporary workaround.</span></div>
+<div class="line"><a id="l01134" name="l01134"></a><span class="lineno"> 1134</span>  <span class="comment">// See issue https://github.com/eth-cscs/DLA-Future/issues/729</span></div>
+<div class="line"><a id="l01135" name="l01135"></a><span class="lineno"> 1135</span>  pika::wait();</div>
+<div class="line"><a id="l01136" name="l01136"></a><span class="lineno"> 1136</span> </div>
+<div class="line"><a id="l01137" name="l01137"></a><span class="lineno"> 1137</span>  <span class="comment">// This algorithm requires the grid to have at least 2 independent column communicators in the round</span></div>
+<div class="line"><a id="l01138" name="l01138"></a><span class="lineno"> 1138</span>  <span class="comment">// robin array. If there is only one communicator mpi_col_chain and mpi_col_chain_panel will be</span></div>
+<div class="line"><a id="l01139" name="l01139"></a><span class="lineno"> 1139</span>  <span class="comment">// separate pipelines to the same communicator, but since communication is interleaved between the</span></div>
+<div class="line"><a id="l01140" name="l01140"></a><span class="lineno"> 1140</span>  <span class="comment">// pipelines this algorithm will deadlock (separate subpipelines means that all work on the previous</span></div>
+<div class="line"><a id="l01141" name="l01141"></a><span class="lineno"> 1141</span>  <span class="comment">// subpipeline has to complete before the next subpipeline can even start scheduling work).</span></div>
+<div class="line"><a id="l01142" name="l01142"></a><span class="lineno"> 1142</span>  DLAF_ASSERT(grid.num_pipelines() &gt;= 2, grid.num_pipelines());</div>
+<div class="line"><a id="l01143" name="l01143"></a><span class="lineno"> 1143</span>  <span class="keyword">auto</span> mpi_row_chain = grid.row_communicator_pipeline();</div>
+<div class="line"><a id="l01144" name="l01144"></a><span class="lineno"> 1144</span>  <span class="keyword">auto</span> mpi_col_chain = grid.col_communicator_pipeline();</div>
+<div class="line"><a id="l01145" name="l01145"></a><span class="lineno"> 1145</span>  <span class="keyword">auto</span> mpi_col_chain_panel = grid.col_communicator_pipeline();</div>
+<div class="line"><a id="l01146" name="l01146"></a><span class="lineno"> 1146</span> </div>
+<div class="line"><a id="l01147" name="l01147"></a><span class="lineno"> 1147</span><span class="preprocessor">#ifdef DLAF_WITH_HDF5</span></div>
+<div class="line"><a id="l01148" name="l01148"></a><span class="lineno"> 1148</span>  <span class="keyword">static</span> std::atomic&lt;size_t&gt; num_reduction_to_band_calls = 0;</div>
+<div class="line"><a id="l01149" name="l01149"></a><span class="lineno"> 1149</span>  std::stringstream fname;</div>
+<div class="line"><a id="l01150" name="l01150"></a><span class="lineno"> 1150</span>  fname &lt;&lt; <span class="stringliteral">&quot;reduction_to_band-&quot;</span> &lt;&lt; matrix::internal::TypeToString_v&lt;T&gt; &lt;&lt; <span class="stringliteral">&quot;-&quot;</span></div>
+<div class="line"><a id="l01151" name="l01151"></a><span class="lineno"> 1151</span>        &lt;&lt; std::to_string(num_reduction_to_band_calls) &lt;&lt; <span class="stringliteral">&quot;.h5&quot;</span>;</div>
+<div class="line"><a id="l01152" name="l01152"></a><span class="lineno"> 1152</span>  std::optional&lt;matrix::internal::FileHDF5&gt; file;</div>
 <div class="line"><a id="l01153" name="l01153"></a><span class="lineno"> 1153</span> </div>
-<div class="line"><a id="l01154" name="l01154"></a><span class="lineno"> 1154</span>  <span class="comment">// Note:</span></div>
-<div class="line"><a id="l01155" name="l01155"></a><span class="lineno"> 1155</span>  <span class="comment">// Reflector of size = 1 is not considered whatever T is (i.e. neither real nor complex)</span></div>
-<div class="line"><a id="l01156" name="l01156"></a><span class="lineno"> 1156</span>  <span class="keyword">const</span> SizeType nrefls = std::max&lt;SizeType&gt;(0, dist.size().rows() - band_size - 1);</div>
-<div class="line"><a id="l01157" name="l01157"></a><span class="lineno"> 1157</span> </div>
-<div class="line"><a id="l01158" name="l01158"></a><span class="lineno"> 1158</span>  <span class="comment">// Row-vector that is distributed over columns, but exists locally on all rows of the grid</span></div>
-<div class="line"><a id="l01159" name="l01159"></a><span class="lineno"> 1159</span>  DLAF_ASSERT(mat_a.blockSize().cols() % band_size == 0, mat_a.blockSize().cols(), band_size);</div>
-<div class="line"><a id="l01160" name="l01160"></a><span class="lineno"> 1160</span>  Matrix&lt;T, Device::CPU&gt; mat_taus(matrix::Distribution(GlobalElementSize(nrefls, 1),</div>
-<div class="line"><a id="l01161" name="l01161"></a><span class="lineno"> 1161</span>                                                       TileElementSize(mat_a.blockSize().cols(), 1),</div>
-<div class="line"><a id="l01162" name="l01162"></a><span class="lineno"> 1162</span>                                                       comm::Size2D(mat_a.commGridSize().cols(), 1),</div>
-<div class="line"><a id="l01163" name="l01163"></a><span class="lineno"> 1163</span>                                                       comm::Index2D(mat_a.rankIndex().col(), 0),</div>
-<div class="line"><a id="l01164" name="l01164"></a><span class="lineno"> 1164</span>                                                       comm::Index2D(mat_a.sourceRankIndex().col(), 0)));</div>
-<div class="line"><a id="l01165" name="l01165"></a><span class="lineno"> 1165</span> </div>
-<div class="line"><a id="l01166" name="l01166"></a><span class="lineno"> 1166</span>  <span class="keywordflow">if</span> (nrefls == 0) {</div>
-<div class="line"><a id="l01167" name="l01167"></a><span class="lineno"> 1167</span><span class="preprocessor">#ifdef DLAF_WITH_HDF5</span></div>
-<div class="line"><a id="l01168" name="l01168"></a><span class="lineno"> 1168</span>    <span class="keywordflow">if</span> (getTuneParameters().debug_dump_reduction_to_band_data) {</div>
-<div class="line"><a id="l01169" name="l01169"></a><span class="lineno"> 1169</span>      file-&gt;write(mat_a, <span class="stringliteral">&quot;/band&quot;</span>);</div>
-<div class="line"><a id="l01170" name="l01170"></a><span class="lineno"> 1170</span>    }</div>
-<div class="line"><a id="l01171" name="l01171"></a><span class="lineno"> 1171</span> </div>
-<div class="line"><a id="l01172" name="l01172"></a><span class="lineno"> 1172</span>    num_reduction_to_band_calls++;</div>
-<div class="line"><a id="l01173" name="l01173"></a><span class="lineno"> 1173</span><span class="preprocessor">#endif</span></div>
+<div class="line"><a id="l01154" name="l01154"></a><span class="lineno"> 1154</span>  <span class="keywordflow">if</span> (getTuneParameters().debug_dump_reduction_to_band_data) {</div>
+<div class="line"><a id="l01155" name="l01155"></a><span class="lineno"> 1155</span>    file = matrix::internal::FileHDF5(grid.fullCommunicator(), fname.str());</div>
+<div class="line"><a id="l01156" name="l01156"></a><span class="lineno"> 1156</span>    file-&gt;write(mat_a, <span class="stringliteral">&quot;/input&quot;</span>);</div>
+<div class="line"><a id="l01157" name="l01157"></a><span class="lineno"> 1157</span>  }</div>
+<div class="line"><a id="l01158" name="l01158"></a><span class="lineno"> 1158</span><span class="preprocessor">#endif</span></div>
+<div class="line"><a id="l01159" name="l01159"></a><span class="lineno"> 1159</span> </div>
+<div class="line"><a id="l01160" name="l01160"></a><span class="lineno"> 1160</span>  <span class="keyword">const</span> <span class="keyword">auto</span>&amp; dist = mat_a.distribution();</div>
+<div class="line"><a id="l01161" name="l01161"></a><span class="lineno"> 1161</span>  <span class="keyword">const</span> comm::Index2D rank = dist.rankIndex();</div>
+<div class="line"><a id="l01162" name="l01162"></a><span class="lineno"> 1162</span> </div>
+<div class="line"><a id="l01163" name="l01163"></a><span class="lineno"> 1163</span>  <span class="comment">// Note:</span></div>
+<div class="line"><a id="l01164" name="l01164"></a><span class="lineno"> 1164</span>  <span class="comment">// Reflector of size = 1 is not considered whatever T is (i.e. neither real nor complex)</span></div>
+<div class="line"><a id="l01165" name="l01165"></a><span class="lineno"> 1165</span>  <span class="keyword">const</span> SizeType nrefls = std::max&lt;SizeType&gt;(0, dist.size().rows() - band_size - 1);</div>
+<div class="line"><a id="l01166" name="l01166"></a><span class="lineno"> 1166</span> </div>
+<div class="line"><a id="l01167" name="l01167"></a><span class="lineno"> 1167</span>  <span class="comment">// Row-vector that is distributed over columns, but exists locally on all rows of the grid</span></div>
+<div class="line"><a id="l01168" name="l01168"></a><span class="lineno"> 1168</span>  DLAF_ASSERT(mat_a.blockSize().cols() % band_size == 0, mat_a.blockSize().cols(), band_size);</div>
+<div class="line"><a id="l01169" name="l01169"></a><span class="lineno"> 1169</span>  Matrix&lt;T, Device::CPU&gt; mat_taus(matrix::Distribution(GlobalElementSize(nrefls, 1),</div>
+<div class="line"><a id="l01170" name="l01170"></a><span class="lineno"> 1170</span>                                                       TileElementSize(mat_a.blockSize().cols(), 1),</div>
+<div class="line"><a id="l01171" name="l01171"></a><span class="lineno"> 1171</span>                                                       comm::Size2D(mat_a.commGridSize().cols(), 1),</div>
+<div class="line"><a id="l01172" name="l01172"></a><span class="lineno"> 1172</span>                                                       comm::Index2D(mat_a.rankIndex().col(), 0),</div>
+<div class="line"><a id="l01173" name="l01173"></a><span class="lineno"> 1173</span>                                                       comm::Index2D(mat_a.sourceRankIndex().col(), 0)));</div>
 <div class="line"><a id="l01174" name="l01174"></a><span class="lineno"> 1174</span> </div>
-<div class="line"><a id="l01175" name="l01175"></a><span class="lineno"> 1175</span>    <span class="keywordflow">return</span> mat_taus;</div>
-<div class="line"><a id="l01176" name="l01176"></a><span class="lineno"> 1176</span>  }</div>
-<div class="line"><a id="l01177" name="l01177"></a><span class="lineno"> 1177</span> </div>
-<div class="line"><a id="l01178" name="l01178"></a><span class="lineno"> 1178</span>  Matrix&lt;T, Device::CPU&gt; mat_taus_retiled =</div>
-<div class="line"><a id="l01179" name="l01179"></a><span class="lineno"> 1179</span>      mat_taus.retiledSubPipeline(LocalTileSize(mat_a.blockSize().cols() / band_size, 1));</div>
+<div class="line"><a id="l01175" name="l01175"></a><span class="lineno"> 1175</span>  <span class="keywordflow">if</span> (nrefls == 0) {</div>
+<div class="line"><a id="l01176" name="l01176"></a><span class="lineno"> 1176</span><span class="preprocessor">#ifdef DLAF_WITH_HDF5</span></div>
+<div class="line"><a id="l01177" name="l01177"></a><span class="lineno"> 1177</span>    <span class="keywordflow">if</span> (getTuneParameters().debug_dump_reduction_to_band_data) {</div>
+<div class="line"><a id="l01178" name="l01178"></a><span class="lineno"> 1178</span>      file-&gt;write(mat_a, <span class="stringliteral">&quot;/band&quot;</span>);</div>
+<div class="line"><a id="l01179" name="l01179"></a><span class="lineno"> 1179</span>    }</div>
 <div class="line"><a id="l01180" name="l01180"></a><span class="lineno"> 1180</span> </div>
-<div class="line"><a id="l01181" name="l01181"></a><span class="lineno"> 1181</span>  <span class="keyword">const</span> SizeType ntiles = (nrefls - 1) / band_size + 1;</div>
-<div class="line"><a id="l01182" name="l01182"></a><span class="lineno"> 1182</span>  DLAF_ASSERT(ntiles == mat_taus_retiled.nrTiles().rows(), ntiles, mat_taus_retiled.nrTiles().rows());</div>
+<div class="line"><a id="l01181" name="l01181"></a><span class="lineno"> 1181</span>    num_reduction_to_band_calls++;</div>
+<div class="line"><a id="l01182" name="l01182"></a><span class="lineno"> 1182</span><span class="preprocessor">#endif</span></div>
 <div class="line"><a id="l01183" name="l01183"></a><span class="lineno"> 1183</span> </div>
-<div class="line"><a id="l01184" name="l01184"></a><span class="lineno"> 1184</span>  <span class="keyword">const</span> <span class="keywordtype">bool</span> is_full_band = (band_size == dist.blockSize().cols());</div>
-<div class="line"><a id="l01185" name="l01185"></a><span class="lineno"> 1185</span> </div>
-<div class="line"><a id="l01186" name="l01186"></a><span class="lineno"> 1186</span>  <span class="keyword">constexpr</span> std::size_t n_workspaces = 2;</div>
-<div class="line"><a id="l01187" name="l01187"></a><span class="lineno"> 1187</span>  common::RoundRobin&lt;matrix::Panel&lt;Coord::Col, T, D&gt;&gt; panels_v(n_workspaces, dist);</div>
-<div class="line"><a id="l01188" name="l01188"></a><span class="lineno"> 1188</span>  common::RoundRobin&lt;matrix::Panel&lt;Coord::Row, T, D, matrix::StoreTransposed::Yes&gt;&gt; panels_vt(</div>
-<div class="line"><a id="l01189" name="l01189"></a><span class="lineno"> 1189</span>      n_workspaces, dist);</div>
-<div class="line"><a id="l01190" name="l01190"></a><span class="lineno"> 1190</span> </div>
-<div class="line"><a id="l01191" name="l01191"></a><span class="lineno"> 1191</span>  common::RoundRobin&lt;matrix::Panel&lt;Coord::Col, T, D&gt;&gt; panels_w(n_workspaces, dist);</div>
-<div class="line"><a id="l01192" name="l01192"></a><span class="lineno"> 1192</span>  common::RoundRobin&lt;matrix::Panel&lt;Coord::Row, T, D, matrix::StoreTransposed::Yes&gt;&gt; panels_wt(</div>
-<div class="line"><a id="l01193" name="l01193"></a><span class="lineno"> 1193</span>      n_workspaces, dist);</div>
+<div class="line"><a id="l01184" name="l01184"></a><span class="lineno"> 1184</span>    <span class="keywordflow">return</span> mat_taus;</div>
+<div class="line"><a id="l01185" name="l01185"></a><span class="lineno"> 1185</span>  }</div>
+<div class="line"><a id="l01186" name="l01186"></a><span class="lineno"> 1186</span> </div>
+<div class="line"><a id="l01187" name="l01187"></a><span class="lineno"> 1187</span>  Matrix&lt;T, Device::CPU&gt; mat_taus_retiled =</div>
+<div class="line"><a id="l01188" name="l01188"></a><span class="lineno"> 1188</span>      mat_taus.retiledSubPipeline(LocalTileSize(mat_a.blockSize().cols() / band_size, 1));</div>
+<div class="line"><a id="l01189" name="l01189"></a><span class="lineno"> 1189</span> </div>
+<div class="line"><a id="l01190" name="l01190"></a><span class="lineno"> 1190</span>  <span class="keyword">const</span> SizeType ntiles = (nrefls - 1) / band_size + 1;</div>
+<div class="line"><a id="l01191" name="l01191"></a><span class="lineno"> 1191</span>  DLAF_ASSERT(ntiles == mat_taus_retiled.nrTiles().rows(), ntiles, mat_taus_retiled.nrTiles().rows());</div>
+<div class="line"><a id="l01192" name="l01192"></a><span class="lineno"> 1192</span> </div>
+<div class="line"><a id="l01193" name="l01193"></a><span class="lineno"> 1193</span>  <span class="keyword">const</span> <span class="keywordtype">bool</span> is_full_band = (band_size == dist.blockSize().cols());</div>
 <div class="line"><a id="l01194" name="l01194"></a><span class="lineno"> 1194</span> </div>
-<div class="line"><a id="l01195" name="l01195"></a><span class="lineno"> 1195</span>  common::RoundRobin&lt;matrix::Panel&lt;Coord::Col, T, D&gt;&gt; panels_x(n_workspaces, dist);</div>
-<div class="line"><a id="l01196" name="l01196"></a><span class="lineno"> 1196</span>  common::RoundRobin&lt;matrix::Panel&lt;Coord::Row, T, D, matrix::StoreTransposed::Yes&gt;&gt; panels_xt(</div>
-<div class="line"><a id="l01197" name="l01197"></a><span class="lineno"> 1197</span>      n_workspaces, dist);</div>
-<div class="line"><a id="l01198" name="l01198"></a><span class="lineno"> 1198</span> </div>
-<div class="line"><a id="l01199" name="l01199"></a><span class="lineno"> 1199</span>  red2band::ComputePanelHelper&lt;B, D, T&gt; compute_panel_helper(n_workspaces, dist);</div>
-<div class="line"><a id="l01200" name="l01200"></a><span class="lineno"> 1200</span> </div>
-<div class="line"><a id="l01201" name="l01201"></a><span class="lineno"> 1201</span>  ex::unique_any_sender&lt;&gt; trigger_panel{ex::just()};</div>
-<div class="line"><a id="l01202" name="l01202"></a><span class="lineno"> 1202</span>  <span class="keywordflow">for</span> (SizeType j_sub = 0; j_sub &lt; ntiles; ++j_sub) {</div>
-<div class="line"><a id="l01203" name="l01203"></a><span class="lineno"> 1203</span>    <span class="keyword">const</span> SizeType i_sub = j_sub + 1;</div>
-<div class="line"><a id="l01204" name="l01204"></a><span class="lineno"> 1204</span> </div>
-<div class="line"><a id="l01205" name="l01205"></a><span class="lineno"> 1205</span>    <span class="keyword">const</span> GlobalElementIndex ij_offset(i_sub * band_size, j_sub * band_size);</div>
-<div class="line"><a id="l01206" name="l01206"></a><span class="lineno"> 1206</span>    <span class="keyword">const</span> GlobalElementIndex at_offset(i_sub * band_size, (j_sub + 1) * band_size);</div>
+<div class="line"><a id="l01195" name="l01195"></a><span class="lineno"> 1195</span>  <span class="keyword">constexpr</span> std::size_t n_workspaces = 2;</div>
+<div class="line"><a id="l01196" name="l01196"></a><span class="lineno"> 1196</span>  common::RoundRobin&lt;matrix::Panel&lt;Coord::Col, T, D&gt;&gt; panels_v(n_workspaces, dist);</div>
+<div class="line"><a id="l01197" name="l01197"></a><span class="lineno"> 1197</span>  common::RoundRobin&lt;matrix::Panel&lt;Coord::Row, T, D, matrix::StoreTransposed::Yes&gt;&gt; panels_vt(</div>
+<div class="line"><a id="l01198" name="l01198"></a><span class="lineno"> 1198</span>      n_workspaces, dist);</div>
+<div class="line"><a id="l01199" name="l01199"></a><span class="lineno"> 1199</span> </div>
+<div class="line"><a id="l01200" name="l01200"></a><span class="lineno"> 1200</span>  common::RoundRobin&lt;matrix::Panel&lt;Coord::Col, T, D&gt;&gt; panels_w(n_workspaces, dist);</div>
+<div class="line"><a id="l01201" name="l01201"></a><span class="lineno"> 1201</span>  common::RoundRobin&lt;matrix::Panel&lt;Coord::Row, T, D, matrix::StoreTransposed::Yes&gt;&gt; panels_wt(</div>
+<div class="line"><a id="l01202" name="l01202"></a><span class="lineno"> 1202</span>      n_workspaces, dist);</div>
+<div class="line"><a id="l01203" name="l01203"></a><span class="lineno"> 1203</span> </div>
+<div class="line"><a id="l01204" name="l01204"></a><span class="lineno"> 1204</span>  common::RoundRobin&lt;matrix::Panel&lt;Coord::Col, T, D&gt;&gt; panels_x(n_workspaces, dist);</div>
+<div class="line"><a id="l01205" name="l01205"></a><span class="lineno"> 1205</span>  common::RoundRobin&lt;matrix::Panel&lt;Coord::Row, T, D, matrix::StoreTransposed::Yes&gt;&gt; panels_xt(</div>
+<div class="line"><a id="l01206" name="l01206"></a><span class="lineno"> 1206</span>      n_workspaces, dist);</div>
 <div class="line"><a id="l01207" name="l01207"></a><span class="lineno"> 1207</span> </div>
-<div class="line"><a id="l01208" name="l01208"></a><span class="lineno"> 1208</span>    <span class="keyword">const</span> comm::Index2D rank_v0{</div>
-<div class="line"><a id="l01209" name="l01209"></a><span class="lineno"> 1209</span>        dist.template rankGlobalElement&lt;Coord::Row&gt;(ij_offset.row()),</div>
-<div class="line"><a id="l01210" name="l01210"></a><span class="lineno"> 1210</span>        dist.template rankGlobalElement&lt;Coord::Col&gt;(ij_offset.col()),</div>
-<div class="line"><a id="l01211" name="l01211"></a><span class="lineno"> 1211</span>    };</div>
-<div class="line"><a id="l01212" name="l01212"></a><span class="lineno"> 1212</span> </div>
-<div class="line"><a id="l01213" name="l01213"></a><span class="lineno"> 1213</span>    <span class="keyword">const</span> <span class="keywordtype">bool</span> is_panel_rank_col = rank_v0.col() == rank.col();</div>
-<div class="line"><a id="l01214" name="l01214"></a><span class="lineno"> 1214</span> </div>
-<div class="line"><a id="l01215" name="l01215"></a><span class="lineno"> 1215</span>    <span class="keyword">const</span> SizeType nrefls_tile = mat_taus_retiled.tileSize(GlobalTileIndex(j_sub, 0)).rows();</div>
+<div class="line"><a id="l01208" name="l01208"></a><span class="lineno"> 1208</span>  red2band::ComputePanelHelper&lt;B, D, T&gt; compute_panel_helper(n_workspaces, dist);</div>
+<div class="line"><a id="l01209" name="l01209"></a><span class="lineno"> 1209</span> </div>
+<div class="line"><a id="l01210" name="l01210"></a><span class="lineno"> 1210</span>  ex::unique_any_sender&lt;&gt; trigger_panel{ex::just()};</div>
+<div class="line"><a id="l01211" name="l01211"></a><span class="lineno"> 1211</span>  <span class="keywordflow">for</span> (SizeType j_sub = 0; j_sub &lt; ntiles; ++j_sub) {</div>
+<div class="line"><a id="l01212" name="l01212"></a><span class="lineno"> 1212</span>    <span class="keyword">const</span> SizeType i_sub = j_sub + 1;</div>
+<div class="line"><a id="l01213" name="l01213"></a><span class="lineno"> 1213</span> </div>
+<div class="line"><a id="l01214" name="l01214"></a><span class="lineno"> 1214</span>    <span class="keyword">const</span> GlobalElementIndex ij_offset(i_sub * band_size, j_sub * band_size);</div>
+<div class="line"><a id="l01215" name="l01215"></a><span class="lineno"> 1215</span>    <span class="keyword">const</span> GlobalElementIndex at_offset(i_sub * band_size, (j_sub + 1) * band_size);</div>
 <div class="line"><a id="l01216" name="l01216"></a><span class="lineno"> 1216</span> </div>
-<div class="line"><a id="l01217" name="l01217"></a><span class="lineno"> 1217</span>    <span class="keywordflow">if</span> (nrefls_tile == 0)</div>
-<div class="line"><a id="l01218" name="l01218"></a><span class="lineno"> 1218</span>      <span class="keywordflow">break</span>;</div>
-<div class="line"><a id="l01219" name="l01219"></a><span class="lineno"> 1219</span> </div>
-<div class="line"><a id="l01220" name="l01220"></a><span class="lineno"> 1220</span>    <span class="keyword">auto</span>&amp; v = panels_v.nextResource();</div>
-<div class="line"><a id="l01221" name="l01221"></a><span class="lineno"> 1221</span>    <span class="keyword">auto</span>&amp; vt = panels_vt.nextResource();</div>
-<div class="line"><a id="l01222" name="l01222"></a><span class="lineno"> 1222</span> </div>
-<div class="line"><a id="l01223" name="l01223"></a><span class="lineno"> 1223</span>    v.setRangeStart(at_offset);</div>
-<div class="line"><a id="l01224" name="l01224"></a><span class="lineno"> 1224</span>    vt.setRangeStart(at_offset);</div>
+<div class="line"><a id="l01217" name="l01217"></a><span class="lineno"> 1217</span>    <span class="keyword">const</span> comm::Index2D rank_v0{</div>
+<div class="line"><a id="l01218" name="l01218"></a><span class="lineno"> 1218</span>        dist.template rankGlobalElement&lt;Coord::Row&gt;(ij_offset.row()),</div>
+<div class="line"><a id="l01219" name="l01219"></a><span class="lineno"> 1219</span>        dist.template rankGlobalElement&lt;Coord::Col&gt;(ij_offset.col()),</div>
+<div class="line"><a id="l01220" name="l01220"></a><span class="lineno"> 1220</span>    };</div>
+<div class="line"><a id="l01221" name="l01221"></a><span class="lineno"> 1221</span> </div>
+<div class="line"><a id="l01222" name="l01222"></a><span class="lineno"> 1222</span>    <span class="keyword">const</span> <span class="keywordtype">bool</span> is_panel_rank_col = rank_v0.col() == rank.col();</div>
+<div class="line"><a id="l01223" name="l01223"></a><span class="lineno"> 1223</span> </div>
+<div class="line"><a id="l01224" name="l01224"></a><span class="lineno"> 1224</span>    <span class="keyword">const</span> SizeType nrefls_tile = mat_taus_retiled.tileSize(GlobalTileIndex(j_sub, 0)).rows();</div>
 <div class="line"><a id="l01225" name="l01225"></a><span class="lineno"> 1225</span> </div>
-<div class="line"><a id="l01226" name="l01226"></a><span class="lineno"> 1226</span>    v.setWidth(nrefls_tile);</div>
-<div class="line"><a id="l01227" name="l01227"></a><span class="lineno"> 1227</span>    vt.setHeight(nrefls_tile);</div>
+<div class="line"><a id="l01226" name="l01226"></a><span class="lineno"> 1226</span>    <span class="keywordflow">if</span> (nrefls_tile == 0)</div>
+<div class="line"><a id="l01227" name="l01227"></a><span class="lineno"> 1227</span>      <span class="keywordflow">break</span>;</div>
 <div class="line"><a id="l01228" name="l01228"></a><span class="lineno"> 1228</span> </div>
-<div class="line"><a id="l01229" name="l01229"></a><span class="lineno"> 1229</span>    <span class="keyword">const</span> LocalTileIndex t_idx(0, 0);</div>
-<div class="line"><a id="l01230" name="l01230"></a><span class="lineno"> 1230</span>    <span class="comment">// TODO used just by the column, maybe we can re-use a panel tile?</span></div>
-<div class="line"><a id="l01231" name="l01231"></a><span class="lineno"> 1231</span>    <span class="comment">// TODO or we can keep just the sh_future and allocate just inside if (is_panel_rank_col)</span></div>
-<div class="line"><a id="l01232" name="l01232"></a><span class="lineno"> 1232</span>    matrix::Matrix&lt;T, D&gt; t({nrefls_tile, nrefls_tile}, dist.blockSize());</div>
-<div class="line"><a id="l01233" name="l01233"></a><span class="lineno"> 1233</span> </div>
-<div class="line"><a id="l01234" name="l01234"></a><span class="lineno"> 1234</span>    <span class="comment">// PANEL</span></div>
-<div class="line"><a id="l01235" name="l01235"></a><span class="lineno"> 1235</span>    <span class="keyword">const</span> matrix::SubPanelView panel_view(dist, ij_offset, band_size);</div>
-<div class="line"><a id="l01236" name="l01236"></a><span class="lineno"> 1236</span> </div>
-<div class="line"><a id="l01237" name="l01237"></a><span class="lineno"> 1237</span>    <span class="keywordflow">if</span> (is_panel_rank_col) {</div>
-<div class="line"><a id="l01238" name="l01238"></a><span class="lineno"> 1238</span>      compute_panel_helper.call(std::move(trigger_panel), rank_v0.row(), mpi_col_chain_panel.exclusive(),</div>
-<div class="line"><a id="l01239" name="l01239"></a><span class="lineno"> 1239</span>                                mat_a, mat_taus_retiled, j_sub, panel_view);</div>
-<div class="line"><a id="l01240" name="l01240"></a><span class="lineno"> 1240</span> </div>
-<div class="line"><a id="l01241" name="l01241"></a><span class="lineno"> 1241</span>      <span class="comment">// Note:</span></div>
-<div class="line"><a id="l01242" name="l01242"></a><span class="lineno"> 1242</span>      <span class="comment">// - has_reflector_head tells if this rank owns the first tile of the panel</span></div>
-<div class="line"><a id="l01243" name="l01243"></a><span class="lineno"> 1243</span>      <span class="comment">// - if !is_full_band it has to force copy as a workaround, otherwise in update matrix it would</span></div>
-<div class="line"><a id="l01244" name="l01244"></a><span class="lineno"> 1244</span>      <span class="comment">// deadlock due to tile shared between panel and trailing matrix</span></div>
-<div class="line"><a id="l01245" name="l01245"></a><span class="lineno"> 1245</span>      red2band::local::setupReflectorPanelV&lt;B, D, T&gt;(rank.row() == rank_v0.row(), panel_view,</div>
-<div class="line"><a id="l01246" name="l01246"></a><span class="lineno"> 1246</span>                                                     nrefls_tile, v, mat_a, !is_full_band);</div>
-<div class="line"><a id="l01247" name="l01247"></a><span class="lineno"> 1247</span>      computeTFactor&lt;B&gt;(v, mat_taus_retiled.read(GlobalTileIndex(j_sub, 0)), t.readwrite(t_idx),</div>
-<div class="line"><a id="l01248" name="l01248"></a><span class="lineno"> 1248</span>                        mpi_col_chain);</div>
-<div class="line"><a id="l01249" name="l01249"></a><span class="lineno"> 1249</span>    }</div>
-<div class="line"><a id="l01250" name="l01250"></a><span class="lineno"> 1250</span> </div>
-<div class="line"><a id="l01251" name="l01251"></a><span class="lineno"> 1251</span>    <span class="comment">// PREPARATION FOR TRAILING MATRIX UPDATE</span></div>
-<div class="line"><a id="l01252" name="l01252"></a><span class="lineno"> 1252</span> </div>
-<div class="line"><a id="l01253" name="l01253"></a><span class="lineno"> 1253</span>    <span class="comment">// Note: if there is no trailing matrix, algorithm has finised</span></div>
-<div class="line"><a id="l01254" name="l01254"></a><span class="lineno"> 1254</span>    <span class="keywordflow">if</span> (!at_offset.isIn(mat_a.size()))</div>
-<div class="line"><a id="l01255" name="l01255"></a><span class="lineno"> 1255</span>      <span class="keywordflow">break</span>;</div>
-<div class="line"><a id="l01256" name="l01256"></a><span class="lineno"> 1256</span> </div>
-<div class="line"><a id="l01257" name="l01257"></a><span class="lineno"> 1257</span>    <span class="keyword">const</span> matrix::SubMatrixView trailing_matrix_view(dist, at_offset);</div>
-<div class="line"><a id="l01258" name="l01258"></a><span class="lineno"> 1258</span> </div>
-<div class="line"><a id="l01259" name="l01259"></a><span class="lineno"> 1259</span>    comm::broadcast(rank_v0.col(), v, vt, mpi_row_chain, mpi_col_chain);</div>
-<div class="line"><a id="l01260" name="l01260"></a><span class="lineno"> 1260</span> </div>
-<div class="line"><a id="l01261" name="l01261"></a><span class="lineno"> 1261</span>    <span class="comment">// W = V . T</span></div>
-<div class="line"><a id="l01262" name="l01262"></a><span class="lineno"> 1262</span>    <span class="keyword">auto</span>&amp; w = panels_w.nextResource();</div>
-<div class="line"><a id="l01263" name="l01263"></a><span class="lineno"> 1263</span>    <span class="keyword">auto</span>&amp; wt = panels_wt.nextResource();</div>
-<div class="line"><a id="l01264" name="l01264"></a><span class="lineno"> 1264</span> </div>
-<div class="line"><a id="l01265" name="l01265"></a><span class="lineno"> 1265</span>    w.setRangeStart(at_offset);</div>
-<div class="line"><a id="l01266" name="l01266"></a><span class="lineno"> 1266</span>    wt.setRangeStart(at_offset);</div>
+<div class="line"><a id="l01229" name="l01229"></a><span class="lineno"> 1229</span>    <span class="keyword">auto</span>&amp; v = panels_v.nextResource();</div>
+<div class="line"><a id="l01230" name="l01230"></a><span class="lineno"> 1230</span>    <span class="keyword">auto</span>&amp; vt = panels_vt.nextResource();</div>
+<div class="line"><a id="l01231" name="l01231"></a><span class="lineno"> 1231</span> </div>
+<div class="line"><a id="l01232" name="l01232"></a><span class="lineno"> 1232</span>    v.setRangeStart(at_offset);</div>
+<div class="line"><a id="l01233" name="l01233"></a><span class="lineno"> 1233</span>    vt.setRangeStart(at_offset);</div>
+<div class="line"><a id="l01234" name="l01234"></a><span class="lineno"> 1234</span> </div>
+<div class="line"><a id="l01235" name="l01235"></a><span class="lineno"> 1235</span>    v.setWidth(nrefls_tile);</div>
+<div class="line"><a id="l01236" name="l01236"></a><span class="lineno"> 1236</span>    vt.setHeight(nrefls_tile);</div>
+<div class="line"><a id="l01237" name="l01237"></a><span class="lineno"> 1237</span> </div>
+<div class="line"><a id="l01238" name="l01238"></a><span class="lineno"> 1238</span>    <span class="keyword">const</span> LocalTileIndex t_idx(0, 0);</div>
+<div class="line"><a id="l01239" name="l01239"></a><span class="lineno"> 1239</span>    <span class="comment">// TODO used just by the column, maybe we can re-use a panel tile?</span></div>
+<div class="line"><a id="l01240" name="l01240"></a><span class="lineno"> 1240</span>    <span class="comment">// TODO or we can keep just the sh_future and allocate just inside if (is_panel_rank_col)</span></div>
+<div class="line"><a id="l01241" name="l01241"></a><span class="lineno"> 1241</span>    matrix::Matrix&lt;T, D&gt; t({nrefls_tile, nrefls_tile}, dist.blockSize());</div>
+<div class="line"><a id="l01242" name="l01242"></a><span class="lineno"> 1242</span> </div>
+<div class="line"><a id="l01243" name="l01243"></a><span class="lineno"> 1243</span>    <span class="comment">// PANEL</span></div>
+<div class="line"><a id="l01244" name="l01244"></a><span class="lineno"> 1244</span>    <span class="keyword">const</span> matrix::SubPanelView panel_view(dist, ij_offset, band_size);</div>
+<div class="line"><a id="l01245" name="l01245"></a><span class="lineno"> 1245</span> </div>
+<div class="line"><a id="l01246" name="l01246"></a><span class="lineno"> 1246</span>    <span class="keywordflow">if</span> (is_panel_rank_col) {</div>
+<div class="line"><a id="l01247" name="l01247"></a><span class="lineno"> 1247</span>      compute_panel_helper.call(std::move(trigger_panel), rank_v0.row(), mpi_col_chain_panel.exclusive(),</div>
+<div class="line"><a id="l01248" name="l01248"></a><span class="lineno"> 1248</span>                                mat_a, mat_taus_retiled, j_sub, panel_view);</div>
+<div class="line"><a id="l01249" name="l01249"></a><span class="lineno"> 1249</span> </div>
+<div class="line"><a id="l01250" name="l01250"></a><span class="lineno"> 1250</span>      <span class="comment">// Note:</span></div>
+<div class="line"><a id="l01251" name="l01251"></a><span class="lineno"> 1251</span>      <span class="comment">// - has_reflector_head tells if this rank owns the first tile of the panel</span></div>
+<div class="line"><a id="l01252" name="l01252"></a><span class="lineno"> 1252</span>      <span class="comment">// - if !is_full_band it has to force copy as a workaround, otherwise in update matrix it would</span></div>
+<div class="line"><a id="l01253" name="l01253"></a><span class="lineno"> 1253</span>      <span class="comment">// deadlock due to tile shared between panel and trailing matrix</span></div>
+<div class="line"><a id="l01254" name="l01254"></a><span class="lineno"> 1254</span>      red2band::local::setupReflectorPanelV&lt;B, D, T&gt;(rank.row() == rank_v0.row(), panel_view,</div>
+<div class="line"><a id="l01255" name="l01255"></a><span class="lineno"> 1255</span>                                                     nrefls_tile, v, mat_a, !is_full_band);</div>
+<div class="line"><a id="l01256" name="l01256"></a><span class="lineno"> 1256</span>      computeTFactor&lt;B&gt;(v, mat_taus_retiled.read(GlobalTileIndex(j_sub, 0)), t.readwrite(t_idx),</div>
+<div class="line"><a id="l01257" name="l01257"></a><span class="lineno"> 1257</span>                        mpi_col_chain);</div>
+<div class="line"><a id="l01258" name="l01258"></a><span class="lineno"> 1258</span>    }</div>
+<div class="line"><a id="l01259" name="l01259"></a><span class="lineno"> 1259</span> </div>
+<div class="line"><a id="l01260" name="l01260"></a><span class="lineno"> 1260</span>    <span class="comment">// PREPARATION FOR TRAILING MATRIX UPDATE</span></div>
+<div class="line"><a id="l01261" name="l01261"></a><span class="lineno"> 1261</span> </div>
+<div class="line"><a id="l01262" name="l01262"></a><span class="lineno"> 1262</span>    <span class="comment">// Note: if there is no trailing matrix, algorithm has finised</span></div>
+<div class="line"><a id="l01263" name="l01263"></a><span class="lineno"> 1263</span>    <span class="keywordflow">if</span> (!at_offset.isIn(mat_a.size()))</div>
+<div class="line"><a id="l01264" name="l01264"></a><span class="lineno"> 1264</span>      <span class="keywordflow">break</span>;</div>
+<div class="line"><a id="l01265" name="l01265"></a><span class="lineno"> 1265</span> </div>
+<div class="line"><a id="l01266" name="l01266"></a><span class="lineno"> 1266</span>    <span class="keyword">const</span> matrix::SubMatrixView trailing_matrix_view(dist, at_offset);</div>
 <div class="line"><a id="l01267" name="l01267"></a><span class="lineno"> 1267</span> </div>
-<div class="line"><a id="l01268" name="l01268"></a><span class="lineno"> 1268</span>    w.setWidth(nrefls_tile);</div>
-<div class="line"><a id="l01269" name="l01269"></a><span class="lineno"> 1269</span>    wt.setHeight(nrefls_tile);</div>
-<div class="line"><a id="l01270" name="l01270"></a><span class="lineno"> 1270</span> </div>
-<div class="line"><a id="l01271" name="l01271"></a><span class="lineno"> 1271</span>    <span class="keywordflow">if</span> (is_panel_rank_col)</div>
-<div class="line"><a id="l01272" name="l01272"></a><span class="lineno"> 1272</span>      red2band::local::trmmComputeW&lt;B, D&gt;(w, v, t.read(t_idx));</div>
+<div class="line"><a id="l01268" name="l01268"></a><span class="lineno"> 1268</span>    comm::broadcast(rank_v0.col(), v, vt, mpi_row_chain, mpi_col_chain);</div>
+<div class="line"><a id="l01269" name="l01269"></a><span class="lineno"> 1269</span> </div>
+<div class="line"><a id="l01270" name="l01270"></a><span class="lineno"> 1270</span>    <span class="comment">// W = V . T</span></div>
+<div class="line"><a id="l01271" name="l01271"></a><span class="lineno"> 1271</span>    <span class="keyword">auto</span>&amp; w = panels_w.nextResource();</div>
+<div class="line"><a id="l01272" name="l01272"></a><span class="lineno"> 1272</span>    <span class="keyword">auto</span>&amp; wt = panels_wt.nextResource();</div>
 <div class="line"><a id="l01273" name="l01273"></a><span class="lineno"> 1273</span> </div>
-<div class="line"><a id="l01274" name="l01274"></a><span class="lineno"> 1274</span>    comm::broadcast(rank_v0.col(), w, wt, mpi_row_chain, mpi_col_chain);</div>
-<div class="line"><a id="l01275" name="l01275"></a><span class="lineno"> 1275</span> </div>
-<div class="line"><a id="l01276" name="l01276"></a><span class="lineno"> 1276</span>    <span class="comment">// X = At . W</span></div>
-<div class="line"><a id="l01277" name="l01277"></a><span class="lineno"> 1277</span>    <span class="keyword">auto</span>&amp; x = panels_x.nextResource();</div>
-<div class="line"><a id="l01278" name="l01278"></a><span class="lineno"> 1278</span>    <span class="keyword">auto</span>&amp; xt = panels_xt.nextResource();</div>
+<div class="line"><a id="l01274" name="l01274"></a><span class="lineno"> 1274</span>    w.setRangeStart(at_offset);</div>
+<div class="line"><a id="l01275" name="l01275"></a><span class="lineno"> 1275</span>    wt.setRangeStart(at_offset);</div>
+<div class="line"><a id="l01276" name="l01276"></a><span class="lineno"> 1276</span> </div>
+<div class="line"><a id="l01277" name="l01277"></a><span class="lineno"> 1277</span>    w.setWidth(nrefls_tile);</div>
+<div class="line"><a id="l01278" name="l01278"></a><span class="lineno"> 1278</span>    wt.setHeight(nrefls_tile);</div>
 <div class="line"><a id="l01279" name="l01279"></a><span class="lineno"> 1279</span> </div>
-<div class="line"><a id="l01280" name="l01280"></a><span class="lineno"> 1280</span>    x.setRangeStart(at_offset);</div>
-<div class="line"><a id="l01281" name="l01281"></a><span class="lineno"> 1281</span>    xt.setRangeStart(at_offset);</div>
+<div class="line"><a id="l01280" name="l01280"></a><span class="lineno"> 1280</span>    <span class="keywordflow">if</span> (is_panel_rank_col)</div>
+<div class="line"><a id="l01281" name="l01281"></a><span class="lineno"> 1281</span>      red2band::local::trmmComputeW&lt;B, D&gt;(w, v, t.read(t_idx));</div>
 <div class="line"><a id="l01282" name="l01282"></a><span class="lineno"> 1282</span> </div>
-<div class="line"><a id="l01283" name="l01283"></a><span class="lineno"> 1283</span>    x.setWidth(nrefls_tile);</div>
-<div class="line"><a id="l01284" name="l01284"></a><span class="lineno"> 1284</span>    xt.setHeight(nrefls_tile);</div>
-<div class="line"><a id="l01285" name="l01285"></a><span class="lineno"> 1285</span> </div>
-<div class="line"><a id="l01286" name="l01286"></a><span class="lineno"> 1286</span>    <span class="comment">// Note:</span></div>
-<div class="line"><a id="l01287" name="l01287"></a><span class="lineno"> 1287</span>    <span class="comment">// Since At is hermitian, just the lower part is referenced.</span></div>
-<div class="line"><a id="l01288" name="l01288"></a><span class="lineno"> 1288</span>    <span class="comment">// When the tile is not part of the main diagonal, the same tile has to be used for two computations</span></div>
-<div class="line"><a id="l01289" name="l01289"></a><span class="lineno"> 1289</span>    <span class="comment">// that will contribute to two different rows of X: the ones indexed with row and col.</span></div>
-<div class="line"><a id="l01290" name="l01290"></a><span class="lineno"> 1290</span>    <span class="comment">// This is achieved by storing the two results in two different workspaces: X and X_conj respectively.</span></div>
-<div class="line"><a id="l01291" name="l01291"></a><span class="lineno"> 1291</span>    <span class="comment">//</span></div>
-<div class="line"><a id="l01292" name="l01292"></a><span class="lineno"> 1292</span>    <span class="comment">// On exit, x will contain a valid result just on ranks belonging to the column panel.</span></div>
-<div class="line"><a id="l01293" name="l01293"></a><span class="lineno"> 1293</span>    <span class="comment">// For what concerns xt, it is just used as support and it contains junk data on all ranks.</span></div>
-<div class="line"><a id="l01294" name="l01294"></a><span class="lineno"> 1294</span>    hemmComputeX&lt;B, D&gt;(rank_v0.col(), x, xt, trailing_matrix_view, mat_a, w, wt, mpi_row_chain,</div>
-<div class="line"><a id="l01295" name="l01295"></a><span class="lineno"> 1295</span>                       mpi_col_chain);</div>
-<div class="line"><a id="l01296" name="l01296"></a><span class="lineno"> 1296</span> </div>
-<div class="line"><a id="l01297" name="l01297"></a><span class="lineno"> 1297</span>    <span class="comment">// In the next section the next two operations are performed</span></div>
-<div class="line"><a id="l01298" name="l01298"></a><span class="lineno"> 1298</span>    <span class="comment">// A) W2 = W* . X</span></div>
-<div class="line"><a id="l01299" name="l01299"></a><span class="lineno"> 1299</span>    <span class="comment">// B) X -= 1/2 . V . W2</span></div>
-<div class="line"><a id="l01300" name="l01300"></a><span class="lineno"> 1300</span> </div>
-<div class="line"><a id="l01301" name="l01301"></a><span class="lineno"> 1301</span>    <span class="comment">// Note:</span></div>
-<div class="line"><a id="l01302" name="l01302"></a><span class="lineno"> 1302</span>    <span class="comment">// Now the intermediate result for X is available on the panel column ranks,</span></div>
-<div class="line"><a id="l01303" name="l01303"></a><span class="lineno"> 1303</span>    <span class="comment">// which have locally all the needed stuff for updating X and finalize the result</span></div>
-<div class="line"><a id="l01304" name="l01304"></a><span class="lineno"> 1304</span>    <span class="keywordflow">if</span> (is_panel_rank_col) {</div>
-<div class="line"><a id="l01305" name="l01305"></a><span class="lineno"> 1305</span>      <span class="comment">// Note:</span></div>
-<div class="line"><a id="l01306" name="l01306"></a><span class="lineno"> 1306</span>      <span class="comment">// T can be re-used because it is not needed anymore in this step and it has the same shape</span></div>
-<div class="line"><a id="l01307" name="l01307"></a><span class="lineno"> 1307</span>      matrix::Matrix&lt;T, D&gt; w2 = std::move(t);</div>
-<div class="line"><a id="l01308" name="l01308"></a><span class="lineno"> 1308</span> </div>
-<div class="line"><a id="l01309" name="l01309"></a><span class="lineno"> 1309</span>      red2band::local::gemmComputeW2&lt;B, D&gt;(w2, w, x);</div>
-<div class="line"><a id="l01310" name="l01310"></a><span class="lineno"> 1310</span>      <span class="keywordflow">if</span> (mpi_col_chain.size() &gt; 1) {</div>
-<div class="line"><a id="l01311" name="l01311"></a><span class="lineno"> 1311</span>        ex::start_detached(comm::schedule_all_reduce_in_place(mpi_col_chain.exclusive(), MPI_SUM,</div>
-<div class="line"><a id="l01312" name="l01312"></a><span class="lineno"> 1312</span>                                                              w2.readwrite(LocalTileIndex(0, 0))));</div>
-<div class="line"><a id="l01313" name="l01313"></a><span class="lineno"> 1313</span>      }</div>
-<div class="line"><a id="l01314" name="l01314"></a><span class="lineno"> 1314</span> </div>
-<div class="line"><a id="l01315" name="l01315"></a><span class="lineno"> 1315</span>      red2band::local::gemmUpdateX&lt;B, D&gt;(x, w2, v);</div>
-<div class="line"><a id="l01316" name="l01316"></a><span class="lineno"> 1316</span>    }</div>
+<div class="line"><a id="l01283" name="l01283"></a><span class="lineno"> 1283</span>    comm::broadcast(rank_v0.col(), w, wt, mpi_row_chain, mpi_col_chain);</div>
+<div class="line"><a id="l01284" name="l01284"></a><span class="lineno"> 1284</span> </div>
+<div class="line"><a id="l01285" name="l01285"></a><span class="lineno"> 1285</span>    <span class="comment">// X = At . W</span></div>
+<div class="line"><a id="l01286" name="l01286"></a><span class="lineno"> 1286</span>    <span class="keyword">auto</span>&amp; x = panels_x.nextResource();</div>
+<div class="line"><a id="l01287" name="l01287"></a><span class="lineno"> 1287</span>    <span class="keyword">auto</span>&amp; xt = panels_xt.nextResource();</div>
+<div class="line"><a id="l01288" name="l01288"></a><span class="lineno"> 1288</span> </div>
+<div class="line"><a id="l01289" name="l01289"></a><span class="lineno"> 1289</span>    x.setRangeStart(at_offset);</div>
+<div class="line"><a id="l01290" name="l01290"></a><span class="lineno"> 1290</span>    xt.setRangeStart(at_offset);</div>
+<div class="line"><a id="l01291" name="l01291"></a><span class="lineno"> 1291</span> </div>
+<div class="line"><a id="l01292" name="l01292"></a><span class="lineno"> 1292</span>    x.setWidth(nrefls_tile);</div>
+<div class="line"><a id="l01293" name="l01293"></a><span class="lineno"> 1293</span>    xt.setHeight(nrefls_tile);</div>
+<div class="line"><a id="l01294" name="l01294"></a><span class="lineno"> 1294</span> </div>
+<div class="line"><a id="l01295" name="l01295"></a><span class="lineno"> 1295</span>    <span class="comment">// Note:</span></div>
+<div class="line"><a id="l01296" name="l01296"></a><span class="lineno"> 1296</span>    <span class="comment">// Since At is hermitian, just the lower part is referenced.</span></div>
+<div class="line"><a id="l01297" name="l01297"></a><span class="lineno"> 1297</span>    <span class="comment">// When the tile is not part of the main diagonal, the same tile has to be used for two computations</span></div>
+<div class="line"><a id="l01298" name="l01298"></a><span class="lineno"> 1298</span>    <span class="comment">// that will contribute to two different rows of X: the ones indexed with row and col.</span></div>
+<div class="line"><a id="l01299" name="l01299"></a><span class="lineno"> 1299</span>    <span class="comment">// This is achieved by storing the two results in two different workspaces: X and X_conj respectively.</span></div>
+<div class="line"><a id="l01300" name="l01300"></a><span class="lineno"> 1300</span>    <span class="comment">//</span></div>
+<div class="line"><a id="l01301" name="l01301"></a><span class="lineno"> 1301</span>    <span class="comment">// On exit, x will contain a valid result just on ranks belonging to the column panel.</span></div>
+<div class="line"><a id="l01302" name="l01302"></a><span class="lineno"> 1302</span>    <span class="comment">// For what concerns xt, it is just used as support and it contains junk data on all ranks.</span></div>
+<div class="line"><a id="l01303" name="l01303"></a><span class="lineno"> 1303</span>    hemmComputeX&lt;B, D&gt;(rank_v0.col(), x, xt, trailing_matrix_view, mat_a, w, wt, mpi_row_chain,</div>
+<div class="line"><a id="l01304" name="l01304"></a><span class="lineno"> 1304</span>                       mpi_col_chain);</div>
+<div class="line"><a id="l01305" name="l01305"></a><span class="lineno"> 1305</span> </div>
+<div class="line"><a id="l01306" name="l01306"></a><span class="lineno"> 1306</span>    <span class="comment">// In the next section the next two operations are performed</span></div>
+<div class="line"><a id="l01307" name="l01307"></a><span class="lineno"> 1307</span>    <span class="comment">// A) W2 = W* . X</span></div>
+<div class="line"><a id="l01308" name="l01308"></a><span class="lineno"> 1308</span>    <span class="comment">// B) X -= 1/2 . V . W2</span></div>
+<div class="line"><a id="l01309" name="l01309"></a><span class="lineno"> 1309</span> </div>
+<div class="line"><a id="l01310" name="l01310"></a><span class="lineno"> 1310</span>    <span class="comment">// Note:</span></div>
+<div class="line"><a id="l01311" name="l01311"></a><span class="lineno"> 1311</span>    <span class="comment">// Now the intermediate result for X is available on the panel column ranks,</span></div>
+<div class="line"><a id="l01312" name="l01312"></a><span class="lineno"> 1312</span>    <span class="comment">// which have locally all the needed stuff for updating X and finalize the result</span></div>
+<div class="line"><a id="l01313" name="l01313"></a><span class="lineno"> 1313</span>    <span class="keywordflow">if</span> (is_panel_rank_col) {</div>
+<div class="line"><a id="l01314" name="l01314"></a><span class="lineno"> 1314</span>      <span class="comment">// Note:</span></div>
+<div class="line"><a id="l01315" name="l01315"></a><span class="lineno"> 1315</span>      <span class="comment">// T can be re-used because it is not needed anymore in this step and it has the same shape</span></div>
+<div class="line"><a id="l01316" name="l01316"></a><span class="lineno"> 1316</span>      matrix::Matrix&lt;T, D&gt; w2 = std::move(t);</div>
 <div class="line"><a id="l01317" name="l01317"></a><span class="lineno"> 1317</span> </div>
-<div class="line"><a id="l01318" name="l01318"></a><span class="lineno"> 1318</span>    <span class="comment">// Note:</span></div>
-<div class="line"><a id="l01319" name="l01319"></a><span class="lineno"> 1319</span>    <span class="comment">// xt has been used previously as workspace for hemmComputeX, so it has to be reset, because now it</span></div>
-<div class="line"><a id="l01320" name="l01320"></a><span class="lineno"> 1320</span>    <span class="comment">// will be used for accessing the broadcasted version of x</span></div>
-<div class="line"><a id="l01321" name="l01321"></a><span class="lineno"> 1321</span>    xt.reset();</div>
-<div class="line"><a id="l01322" name="l01322"></a><span class="lineno"> 1322</span>    xt.setRangeStart(at_offset);</div>
-<div class="line"><a id="l01323" name="l01323"></a><span class="lineno"> 1323</span>    xt.setHeight(nrefls_tile);</div>
-<div class="line"><a id="l01324" name="l01324"></a><span class="lineno"> 1324</span> </div>
-<div class="line"><a id="l01325" name="l01325"></a><span class="lineno"> 1325</span>    comm::broadcast(rank_v0.col(), x, xt, mpi_row_chain, mpi_col_chain);</div>
+<div class="line"><a id="l01318" name="l01318"></a><span class="lineno"> 1318</span>      red2band::local::gemmComputeW2&lt;B, D&gt;(w2, w, x);</div>
+<div class="line"><a id="l01319" name="l01319"></a><span class="lineno"> 1319</span>      <span class="keywordflow">if</span> (mpi_col_chain.size() &gt; 1) {</div>
+<div class="line"><a id="l01320" name="l01320"></a><span class="lineno"> 1320</span>        ex::start_detached(comm::schedule_all_reduce_in_place(mpi_col_chain.exclusive(), MPI_SUM,</div>
+<div class="line"><a id="l01321" name="l01321"></a><span class="lineno"> 1321</span>                                                              w2.readwrite(LocalTileIndex(0, 0))));</div>
+<div class="line"><a id="l01322" name="l01322"></a><span class="lineno"> 1322</span>      }</div>
+<div class="line"><a id="l01323" name="l01323"></a><span class="lineno"> 1323</span> </div>
+<div class="line"><a id="l01324" name="l01324"></a><span class="lineno"> 1324</span>      red2band::local::gemmUpdateX&lt;B, D&gt;(x, w2, v);</div>
+<div class="line"><a id="l01325" name="l01325"></a><span class="lineno"> 1325</span>    }</div>
 <div class="line"><a id="l01326" name="l01326"></a><span class="lineno"> 1326</span> </div>
-<div class="line"><a id="l01327" name="l01327"></a><span class="lineno"> 1327</span>    <span class="comment">// TRAILING MATRIX UPDATE</span></div>
-<div class="line"><a id="l01328" name="l01328"></a><span class="lineno"> 1328</span> </div>
-<div class="line"><a id="l01329" name="l01329"></a><span class="lineno"> 1329</span>    <span class="comment">// Note:</span></div>
-<div class="line"><a id="l01330" name="l01330"></a><span class="lineno"> 1330</span>    <span class="comment">// This trigger mechanism allows to control when the next iteration of compute panel will start.</span></div>
-<div class="line"><a id="l01331" name="l01331"></a><span class="lineno"> 1331</span>    <span class="comment">//</span></div>
-<div class="line"><a id="l01332" name="l01332"></a><span class="lineno"> 1332</span>    <span class="comment">// * What?</span></div>
-<div class="line"><a id="l01333" name="l01333"></a><span class="lineno"> 1333</span>    <span class="comment">// Compute panel uses MPI blocking communication that might block the only computing thread</span></div>
-<div class="line"><a id="l01334" name="l01334"></a><span class="lineno"> 1334</span>    <span class="comment">// available (since blocking communication are scheduled on normal queues and not on the MPI</span></div>
-<div class="line"><a id="l01335" name="l01335"></a><span class="lineno"> 1335</span>    <span class="comment">// dedicated one).</span></div>
-<div class="line"><a id="l01336" name="l01336"></a><span class="lineno"> 1336</span>    <span class="comment">//</span></div>
-<div class="line"><a id="l01337" name="l01337"></a><span class="lineno"> 1337</span>    <span class="comment">// * How?</span></div>
-<div class="line"><a id="l01338" name="l01338"></a><span class="lineno"> 1338</span>    <span class="comment">// If pika runtime has only 2 threads, one is dedicated to MPI and there is just one for</span></div>
-<div class="line"><a id="l01339" name="l01339"></a><span class="lineno"> 1339</span>    <span class="comment">// computation, that might get blocked by blocking MPI communication, without the chance to do</span></div>
-<div class="line"><a id="l01340" name="l01340"></a><span class="lineno"> 1340</span>    <span class="comment">// anything else. (TODO this might happen even with more reductions happening in parallel)</span></div>
-<div class="line"><a id="l01341" name="l01341"></a><span class="lineno"> 1341</span>    <span class="comment">//</span></div>
-<div class="line"><a id="l01342" name="l01342"></a><span class="lineno"> 1342</span>    <span class="comment">// * Why?</span></div>
-<div class="line"><a id="l01343" name="l01343"></a><span class="lineno"> 1343</span>    <span class="comment">// Panel computation at step i is done on the first column of the trailing matrix computed</span></div>
-<div class="line"><a id="l01344" name="l01344"></a><span class="lineno"> 1344</span>    <span class="comment">// at step i-1.</span></div>
-<div class="line"><a id="l01345" name="l01345"></a><span class="lineno"> 1345</span>    <span class="comment">// The rank owning the top-left tile of the trailing matrix, can update it as soon as it</span></div>
-<div class="line"><a id="l01346" name="l01346"></a><span class="lineno"> 1346</span>    <span class="comment">// receives X[0], which due to the pivot position is also the Xt[0]. Once it can go to the next</span></div>
-<div class="line"><a id="l01347" name="l01347"></a><span class="lineno"> 1347</span>    <span class="comment">// iteration, it ends up stucked in an MPI blocking communication, waiting for the others joining</span></div>
-<div class="line"><a id="l01348" name="l01348"></a><span class="lineno"> 1348</span>    <span class="comment">// before being able to advance.</span></div>
-<div class="line"><a id="l01349" name="l01349"></a><span class="lineno"> 1349</span>    <span class="comment">//</span></div>
-<div class="line"><a id="l01350" name="l01350"></a><span class="lineno"> 1350</span>    <span class="comment">// But at the same time, other ranks in the same column (needed for the next panel update), cannot</span></div>
-<div class="line"><a id="l01351" name="l01351"></a><span class="lineno"> 1351</span>    <span class="comment">// complete the trailing matrix update. Indeed, they are waiting for the pivot rank to communicate</span></div>
-<div class="line"><a id="l01352" name="l01352"></a><span class="lineno"> 1352</span>    <span class="comment">// column-wise Xt[0] (during x -&gt; xt panel transpose broadcast), but he is not going to schedule</span></div>
-<div class="line"><a id="l01353" name="l01353"></a><span class="lineno"> 1353</span>    <span class="comment">// anything because the only normal thread which can do that is stuck in an MPI blocking</span></div>
-<div class="line"><a id="l01354" name="l01354"></a><span class="lineno"> 1354</span>    <span class="comment">// communication that is not going to advance... and so it&#39;s a DEADLOCK!</span></div>
-<div class="line"><a id="l01355" name="l01355"></a><span class="lineno"> 1355</span>    <span class="comment">//</span></div>
-<div class="line"><a id="l01356" name="l01356"></a><span class="lineno"> 1356</span>    <span class="comment">// * Solution:</span></div>
-<div class="line"><a id="l01357" name="l01357"></a><span class="lineno"> 1357</span>    <span class="comment">// The idea is to make the next panel depending not only on tiles stored locally, but also to</span></div>
-<div class="line"><a id="l01358" name="l01358"></a><span class="lineno"> 1358</span>    <span class="comment">// ensure that others have received Xt[0], which is needed to advance the computation and let</span></div>
-<div class="line"><a id="l01359" name="l01359"></a><span class="lineno"> 1359</span>    <span class="comment">// others arrive at the next iteration where the pivot will wait for them to complete the MPI</span></div>
-<div class="line"><a id="l01360" name="l01360"></a><span class="lineno"> 1360</span>    <span class="comment">// blocking communication.</span></div>
-<div class="line"><a id="l01361" name="l01361"></a><span class="lineno"> 1361</span>    <span class="comment">//</span></div>
-<div class="line"><a id="l01362" name="l01362"></a><span class="lineno"> 1362</span>    <span class="comment">// * Why is it different between MC and GPU?</span></div>
-<div class="line"><a id="l01363" name="l01363"></a><span class="lineno"> 1363</span>    <span class="comment">// As said above, the problem is related to the communication. But the communication is not said</span></div>
-<div class="line"><a id="l01364" name="l01364"></a><span class="lineno"> 1364</span>    <span class="comment">// to be an atomic operation happening in a single task. It might have to create a copy to</span></div>
-<div class="line"><a id="l01365" name="l01365"></a><span class="lineno"> 1365</span>    <span class="comment">// a buffer more suitable for the communication (e.g. GPU -&gt; CPU if GPU-aware MPI is not</span></div>
-<div class="line"><a id="l01366" name="l01366"></a><span class="lineno"> 1366</span>    <span class="comment">// available).</span></div>
-<div class="line"><a id="l01367" name="l01367"></a><span class="lineno"> 1367</span>    <span class="comment">//</span></div>
-<div class="line"><a id="l01368" name="l01368"></a><span class="lineno"> 1368</span>    <span class="comment">// And in order to not be blocked, it must be ensured that the actual communication task has</span></div>
-<div class="line"><a id="l01369" name="l01369"></a><span class="lineno"> 1369</span>    <span class="comment">// been scheduled.</span></div>
-<div class="line"><a id="l01370" name="l01370"></a><span class="lineno"> 1370</span>    <span class="keyword">const</span> SizeType j_tile_current = ij_offset.col() / dist.blockSize().cols();</div>
-<div class="line"><a id="l01371" name="l01371"></a><span class="lineno"> 1371</span>    <span class="keyword">const</span> SizeType j_tile_next = at_offset.col() / dist.blockSize().cols();</div>
-<div class="line"><a id="l01372" name="l01372"></a><span class="lineno"> 1372</span>    <span class="keyword">const</span> <span class="keywordtype">bool</span> isNextColumnOnSameRank = (j_tile_current == j_tile_next);</div>
-<div class="line"><a id="l01373" name="l01373"></a><span class="lineno"> 1373</span>    <span class="keyword">const</span> comm::IndexT_MPI rank_next_col =</div>
-<div class="line"><a id="l01374" name="l01374"></a><span class="lineno"> 1374</span>        isNextColumnOnSameRank ? rank_v0.col() : (rank_v0.col() + 1) % dist.commGridSize().cols();</div>
-<div class="line"><a id="l01375" name="l01375"></a><span class="lineno"> 1375</span> </div>
-<div class="line"><a id="l01376" name="l01376"></a><span class="lineno"> 1376</span>    <span class="keywordflow">if</span> (rank.col() == rank_next_col) {</div>
-<div class="line"><a id="l01377" name="l01377"></a><span class="lineno"> 1377</span>      <span class="keyword">const</span> LocalTileIndex at{</div>
-<div class="line"><a id="l01378" name="l01378"></a><span class="lineno"> 1378</span>          dist.template nextLocalTileFromGlobalElement&lt;Coord::Row&gt;(at_offset.row()),</div>
-<div class="line"><a id="l01379" name="l01379"></a><span class="lineno"> 1379</span>          dist.template nextLocalTileFromGlobalElement&lt;Coord::Col&gt;(at_offset.col()),</div>
-<div class="line"><a id="l01380" name="l01380"></a><span class="lineno"> 1380</span>      };</div>
-<div class="line"><a id="l01381" name="l01381"></a><span class="lineno"> 1381</span> </div>
-<div class="line"><a id="l01382" name="l01382"></a><span class="lineno"> 1382</span>      <span class="comment">// Note:</span></div>
-<div class="line"><a id="l01383" name="l01383"></a><span class="lineno"> 1383</span>      <span class="comment">// This additional communication of the last tile is a workaround for supporting following trigger</span></div>
-<div class="line"><a id="l01384" name="l01384"></a><span class="lineno"> 1384</span>      <span class="comment">// when b &lt; mb.</span></div>
-<div class="line"><a id="l01385" name="l01385"></a><span class="lineno"> 1385</span>      <span class="comment">// Indeed, if b &lt; mb the last column have (at least) a panel to compute, but differently from</span></div>
-<div class="line"><a id="l01386" name="l01386"></a><span class="lineno"> 1386</span>      <span class="comment">// other columns, broadcast transposed doesn&#39;t communicate the last tile, which is an assumption</span></div>
-<div class="line"><a id="l01387" name="l01387"></a><span class="lineno"> 1387</span>      <span class="comment">// needed to make the following trigger work correctly.</span></div>
-<div class="line"><a id="l01388" name="l01388"></a><span class="lineno"> 1388</span>      <span class="keyword">const</span> SizeType at_tile_col =</div>
-<div class="line"><a id="l01389" name="l01389"></a><span class="lineno"> 1389</span>          dist.template globalTileFromGlobalElement&lt;Coord::Col&gt;(at_offset.col());</div>
+<div class="line"><a id="l01327" name="l01327"></a><span class="lineno"> 1327</span>    <span class="comment">// Note:</span></div>
+<div class="line"><a id="l01328" name="l01328"></a><span class="lineno"> 1328</span>    <span class="comment">// xt has been used previously as workspace for hemmComputeX, so it has to be reset, because now it</span></div>
+<div class="line"><a id="l01329" name="l01329"></a><span class="lineno"> 1329</span>    <span class="comment">// will be used for accessing the broadcasted version of x</span></div>
+<div class="line"><a id="l01330" name="l01330"></a><span class="lineno"> 1330</span>    xt.reset();</div>
+<div class="line"><a id="l01331" name="l01331"></a><span class="lineno"> 1331</span>    xt.setRangeStart(at_offset);</div>
+<div class="line"><a id="l01332" name="l01332"></a><span class="lineno"> 1332</span>    xt.setHeight(nrefls_tile);</div>
+<div class="line"><a id="l01333" name="l01333"></a><span class="lineno"> 1333</span> </div>
+<div class="line"><a id="l01334" name="l01334"></a><span class="lineno"> 1334</span>    comm::broadcast(rank_v0.col(), x, xt, mpi_row_chain, mpi_col_chain);</div>
+<div class="line"><a id="l01335" name="l01335"></a><span class="lineno"> 1335</span> </div>
+<div class="line"><a id="l01336" name="l01336"></a><span class="lineno"> 1336</span>    <span class="comment">// TRAILING MATRIX UPDATE</span></div>
+<div class="line"><a id="l01337" name="l01337"></a><span class="lineno"> 1337</span> </div>
+<div class="line"><a id="l01338" name="l01338"></a><span class="lineno"> 1338</span>    <span class="comment">// Note:</span></div>
+<div class="line"><a id="l01339" name="l01339"></a><span class="lineno"> 1339</span>    <span class="comment">// This trigger mechanism allows to control when the next iteration of compute panel will start.</span></div>
+<div class="line"><a id="l01340" name="l01340"></a><span class="lineno"> 1340</span>    <span class="comment">//</span></div>
+<div class="line"><a id="l01341" name="l01341"></a><span class="lineno"> 1341</span>    <span class="comment">// * What?</span></div>
+<div class="line"><a id="l01342" name="l01342"></a><span class="lineno"> 1342</span>    <span class="comment">// Compute panel uses MPI blocking communication that might block the only computing thread</span></div>
+<div class="line"><a id="l01343" name="l01343"></a><span class="lineno"> 1343</span>    <span class="comment">// available (since blocking communication are scheduled on normal queues and not on the MPI</span></div>
+<div class="line"><a id="l01344" name="l01344"></a><span class="lineno"> 1344</span>    <span class="comment">// dedicated one).</span></div>
+<div class="line"><a id="l01345" name="l01345"></a><span class="lineno"> 1345</span>    <span class="comment">//</span></div>
+<div class="line"><a id="l01346" name="l01346"></a><span class="lineno"> 1346</span>    <span class="comment">// * How?</span></div>
+<div class="line"><a id="l01347" name="l01347"></a><span class="lineno"> 1347</span>    <span class="comment">// If pika runtime has only 2 threads, one is dedicated to MPI and there is just one for</span></div>
+<div class="line"><a id="l01348" name="l01348"></a><span class="lineno"> 1348</span>    <span class="comment">// computation, that might get blocked by blocking MPI communication, without the chance to do</span></div>
+<div class="line"><a id="l01349" name="l01349"></a><span class="lineno"> 1349</span>    <span class="comment">// anything else. (TODO this might happen even with more reductions happening in parallel)</span></div>
+<div class="line"><a id="l01350" name="l01350"></a><span class="lineno"> 1350</span>    <span class="comment">//</span></div>
+<div class="line"><a id="l01351" name="l01351"></a><span class="lineno"> 1351</span>    <span class="comment">// * Why?</span></div>
+<div class="line"><a id="l01352" name="l01352"></a><span class="lineno"> 1352</span>    <span class="comment">// Panel computation at step i is done on the first column of the trailing matrix computed</span></div>
+<div class="line"><a id="l01353" name="l01353"></a><span class="lineno"> 1353</span>    <span class="comment">// at step i-1.</span></div>
+<div class="line"><a id="l01354" name="l01354"></a><span class="lineno"> 1354</span>    <span class="comment">// The rank owning the top-left tile of the trailing matrix, can update it as soon as it</span></div>
+<div class="line"><a id="l01355" name="l01355"></a><span class="lineno"> 1355</span>    <span class="comment">// receives X[0], which due to the pivot position is also the Xt[0]. Once it can go to the next</span></div>
+<div class="line"><a id="l01356" name="l01356"></a><span class="lineno"> 1356</span>    <span class="comment">// iteration, it ends up stucked in an MPI blocking communication, waiting for the others joining</span></div>
+<div class="line"><a id="l01357" name="l01357"></a><span class="lineno"> 1357</span>    <span class="comment">// before being able to advance.</span></div>
+<div class="line"><a id="l01358" name="l01358"></a><span class="lineno"> 1358</span>    <span class="comment">//</span></div>
+<div class="line"><a id="l01359" name="l01359"></a><span class="lineno"> 1359</span>    <span class="comment">// But at the same time, other ranks in the same column (needed for the next panel update), cannot</span></div>
+<div class="line"><a id="l01360" name="l01360"></a><span class="lineno"> 1360</span>    <span class="comment">// complete the trailing matrix update. Indeed, they are waiting for the pivot rank to communicate</span></div>
+<div class="line"><a id="l01361" name="l01361"></a><span class="lineno"> 1361</span>    <span class="comment">// column-wise Xt[0] (during x -&gt; xt panel transpose broadcast), but he is not going to schedule</span></div>
+<div class="line"><a id="l01362" name="l01362"></a><span class="lineno"> 1362</span>    <span class="comment">// anything because the only normal thread which can do that is stuck in an MPI blocking</span></div>
+<div class="line"><a id="l01363" name="l01363"></a><span class="lineno"> 1363</span>    <span class="comment">// communication that is not going to advance... and so it&#39;s a DEADLOCK!</span></div>
+<div class="line"><a id="l01364" name="l01364"></a><span class="lineno"> 1364</span>    <span class="comment">//</span></div>
+<div class="line"><a id="l01365" name="l01365"></a><span class="lineno"> 1365</span>    <span class="comment">// * Solution:</span></div>
+<div class="line"><a id="l01366" name="l01366"></a><span class="lineno"> 1366</span>    <span class="comment">// The idea is to make the next panel depending not only on tiles stored locally, but also to</span></div>
+<div class="line"><a id="l01367" name="l01367"></a><span class="lineno"> 1367</span>    <span class="comment">// ensure that others have received Xt[0], which is needed to advance the computation and let</span></div>
+<div class="line"><a id="l01368" name="l01368"></a><span class="lineno"> 1368</span>    <span class="comment">// others arrive at the next iteration where the pivot will wait for them to complete the MPI</span></div>
+<div class="line"><a id="l01369" name="l01369"></a><span class="lineno"> 1369</span>    <span class="comment">// blocking communication.</span></div>
+<div class="line"><a id="l01370" name="l01370"></a><span class="lineno"> 1370</span>    <span class="comment">//</span></div>
+<div class="line"><a id="l01371" name="l01371"></a><span class="lineno"> 1371</span>    <span class="comment">// * Why is it different between MC and GPU?</span></div>
+<div class="line"><a id="l01372" name="l01372"></a><span class="lineno"> 1372</span>    <span class="comment">// As said above, the problem is related to the communication. But the communication is not said</span></div>
+<div class="line"><a id="l01373" name="l01373"></a><span class="lineno"> 1373</span>    <span class="comment">// to be an atomic operation happening in a single task. It might have to create a copy to</span></div>
+<div class="line"><a id="l01374" name="l01374"></a><span class="lineno"> 1374</span>    <span class="comment">// a buffer more suitable for the communication (e.g. GPU -&gt; CPU if GPU-aware MPI is not</span></div>
+<div class="line"><a id="l01375" name="l01375"></a><span class="lineno"> 1375</span>    <span class="comment">// available).</span></div>
+<div class="line"><a id="l01376" name="l01376"></a><span class="lineno"> 1376</span>    <span class="comment">//</span></div>
+<div class="line"><a id="l01377" name="l01377"></a><span class="lineno"> 1377</span>    <span class="comment">// And in order to not be blocked, it must be ensured that the actual communication task has</span></div>
+<div class="line"><a id="l01378" name="l01378"></a><span class="lineno"> 1378</span>    <span class="comment">// been scheduled.</span></div>
+<div class="line"><a id="l01379" name="l01379"></a><span class="lineno"> 1379</span>    <span class="keyword">const</span> SizeType j_tile_current = ij_offset.col() / dist.blockSize().cols();</div>
+<div class="line"><a id="l01380" name="l01380"></a><span class="lineno"> 1380</span>    <span class="keyword">const</span> SizeType j_tile_next = at_offset.col() / dist.blockSize().cols();</div>
+<div class="line"><a id="l01381" name="l01381"></a><span class="lineno"> 1381</span>    <span class="keyword">const</span> <span class="keywordtype">bool</span> isNextColumnOnSameRank = (j_tile_current == j_tile_next);</div>
+<div class="line"><a id="l01382" name="l01382"></a><span class="lineno"> 1382</span>    <span class="keyword">const</span> comm::IndexT_MPI rank_next_col =</div>
+<div class="line"><a id="l01383" name="l01383"></a><span class="lineno"> 1383</span>        isNextColumnOnSameRank ? rank_v0.col() : (rank_v0.col() + 1) % dist.commGridSize().cols();</div>
+<div class="line"><a id="l01384" name="l01384"></a><span class="lineno"> 1384</span> </div>
+<div class="line"><a id="l01385" name="l01385"></a><span class="lineno"> 1385</span>    <span class="keywordflow">if</span> (rank.col() == rank_next_col) {</div>
+<div class="line"><a id="l01386" name="l01386"></a><span class="lineno"> 1386</span>      <span class="keyword">const</span> LocalTileIndex at{</div>
+<div class="line"><a id="l01387" name="l01387"></a><span class="lineno"> 1387</span>          dist.template nextLocalTileFromGlobalElement&lt;Coord::Row&gt;(at_offset.row()),</div>
+<div class="line"><a id="l01388" name="l01388"></a><span class="lineno"> 1388</span>          dist.template nextLocalTileFromGlobalElement&lt;Coord::Col&gt;(at_offset.col()),</div>
+<div class="line"><a id="l01389" name="l01389"></a><span class="lineno"> 1389</span>      };</div>
 <div class="line"><a id="l01390" name="l01390"></a><span class="lineno"> 1390</span> </div>
-<div class="line"><a id="l01391" name="l01391"></a><span class="lineno"> 1391</span>      <span class="keywordflow">if</span> (at_tile_col == dist.nrTiles().cols() - 1) {</div>
-<div class="line"><a id="l01392" name="l01392"></a><span class="lineno"> 1392</span>        <span class="keyword">const</span> comm::IndexT_MPI owner = rank_v0.row();</div>
-<div class="line"><a id="l01393" name="l01393"></a><span class="lineno"> 1393</span>        <span class="keywordflow">if</span> (rank.row() == owner) {</div>
-<div class="line"><a id="l01394" name="l01394"></a><span class="lineno"> 1394</span>          xt.setTile(at, x.read(at));</div>
-<div class="line"><a id="l01395" name="l01395"></a><span class="lineno"> 1395</span> </div>
-<div class="line"><a id="l01396" name="l01396"></a><span class="lineno"> 1396</span>          <span class="keywordflow">if</span> (dist.commGridSize().rows() &gt; 1)</div>
-<div class="line"><a id="l01397" name="l01397"></a><span class="lineno"> 1397</span>            ex::start_detached(comm::schedule_bcast_send(mpi_col_chain.exclusive(), xt.read(at)));</div>
-<div class="line"><a id="l01398" name="l01398"></a><span class="lineno"> 1398</span>        }</div>
-<div class="line"><a id="l01399" name="l01399"></a><span class="lineno"> 1399</span>        <span class="keywordflow">else</span> {</div>
-<div class="line"><a id="l01400" name="l01400"></a><span class="lineno"> 1400</span>          <span class="keywordflow">if</span> (dist.commGridSize().rows() &gt; 1)</div>
-<div class="line"><a id="l01401" name="l01401"></a><span class="lineno"> 1401</span>            ex::start_detached(comm::schedule_bcast_recv(mpi_col_chain.exclusive(), owner,</div>
-<div class="line"><a id="l01402" name="l01402"></a><span class="lineno"> 1402</span>                                                         xt.readwrite(at)));</div>
-<div class="line"><a id="l01403" name="l01403"></a><span class="lineno"> 1403</span>        }</div>
-<div class="line"><a id="l01404" name="l01404"></a><span class="lineno"> 1404</span>      }</div>
-<div class="line"><a id="l01405" name="l01405"></a><span class="lineno"> 1405</span> </div>
-<div class="line"><a id="l01406" name="l01406"></a><span class="lineno"> 1406</span>      <span class="keywordflow">if</span> <span class="keyword">constexpr</span> (dlaf::comm::CommunicationDevice_v&lt;D&gt; == D) {</div>
-<div class="line"><a id="l01407" name="l01407"></a><span class="lineno"> 1407</span>        <span class="comment">// Note:</span></div>
-<div class="line"><a id="l01408" name="l01408"></a><span class="lineno"> 1408</span>        <span class="comment">// if there is no need for additional buffers, we can just wait that xt[0] is ready for</span></div>
-<div class="line"><a id="l01409" name="l01409"></a><span class="lineno"> 1409</span>        <span class="comment">// reading.</span></div>
-<div class="line"><a id="l01410" name="l01410"></a><span class="lineno"> 1410</span>        <span class="keywordflow">if</span> (rank.row() == rank_v0.row()) {</div>
-<div class="line"><a id="l01411" name="l01411"></a><span class="lineno"> 1411</span>          trigger_panel = xt.read(at) | ex::drop_value() | ex::ensure_started();</div>
+<div class="line"><a id="l01391" name="l01391"></a><span class="lineno"> 1391</span>      <span class="comment">// Note:</span></div>
+<div class="line"><a id="l01392" name="l01392"></a><span class="lineno"> 1392</span>      <span class="comment">// This additional communication of the last tile is a workaround for supporting following trigger</span></div>
+<div class="line"><a id="l01393" name="l01393"></a><span class="lineno"> 1393</span>      <span class="comment">// when b &lt; mb.</span></div>
+<div class="line"><a id="l01394" name="l01394"></a><span class="lineno"> 1394</span>      <span class="comment">// Indeed, if b &lt; mb the last column have (at least) a panel to compute, but differently from</span></div>
+<div class="line"><a id="l01395" name="l01395"></a><span class="lineno"> 1395</span>      <span class="comment">// other columns, broadcast transposed doesn&#39;t communicate the last tile, which is an assumption</span></div>
+<div class="line"><a id="l01396" name="l01396"></a><span class="lineno"> 1396</span>      <span class="comment">// needed to make the following trigger work correctly.</span></div>
+<div class="line"><a id="l01397" name="l01397"></a><span class="lineno"> 1397</span>      <span class="keyword">const</span> SizeType at_tile_col =</div>
+<div class="line"><a id="l01398" name="l01398"></a><span class="lineno"> 1398</span>          dist.template globalTileFromGlobalElement&lt;Coord::Col&gt;(at_offset.col());</div>
+<div class="line"><a id="l01399" name="l01399"></a><span class="lineno"> 1399</span> </div>
+<div class="line"><a id="l01400" name="l01400"></a><span class="lineno"> 1400</span>      <span class="keywordflow">if</span> (at_tile_col == dist.nrTiles().cols() - 1) {</div>
+<div class="line"><a id="l01401" name="l01401"></a><span class="lineno"> 1401</span>        <span class="keyword">const</span> comm::IndexT_MPI owner = rank_v0.row();</div>
+<div class="line"><a id="l01402" name="l01402"></a><span class="lineno"> 1402</span>        <span class="keywordflow">if</span> (rank.row() == owner) {</div>
+<div class="line"><a id="l01403" name="l01403"></a><span class="lineno"> 1403</span>          xt.setTile(at, x.read(at));</div>
+<div class="line"><a id="l01404" name="l01404"></a><span class="lineno"> 1404</span> </div>
+<div class="line"><a id="l01405" name="l01405"></a><span class="lineno"> 1405</span>          <span class="keywordflow">if</span> (dist.commGridSize().rows() &gt; 1)</div>
+<div class="line"><a id="l01406" name="l01406"></a><span class="lineno"> 1406</span>            ex::start_detached(comm::schedule_bcast_send(mpi_col_chain.exclusive(), xt.read(at)));</div>
+<div class="line"><a id="l01407" name="l01407"></a><span class="lineno"> 1407</span>        }</div>
+<div class="line"><a id="l01408" name="l01408"></a><span class="lineno"> 1408</span>        <span class="keywordflow">else</span> {</div>
+<div class="line"><a id="l01409" name="l01409"></a><span class="lineno"> 1409</span>          <span class="keywordflow">if</span> (dist.commGridSize().rows() &gt; 1)</div>
+<div class="line"><a id="l01410" name="l01410"></a><span class="lineno"> 1410</span>            ex::start_detached(comm::schedule_bcast_recv(mpi_col_chain.exclusive(), owner,</div>
+<div class="line"><a id="l01411" name="l01411"></a><span class="lineno"> 1411</span>                                                         xt.readwrite(at)));</div>
 <div class="line"><a id="l01412" name="l01412"></a><span class="lineno"> 1412</span>        }</div>
-<div class="line"><a id="l01413" name="l01413"></a><span class="lineno"> 1413</span>        <span class="keywordflow">else</span> {</div>
-<div class="line"><a id="l01414" name="l01414"></a><span class="lineno"> 1414</span>          <span class="comment">// Note:</span></div>
-<div class="line"><a id="l01415" name="l01415"></a><span class="lineno"> 1415</span>          <span class="comment">// Conservatively ensure that xt[0] needed for updating the first column has been</span></div>
-<div class="line"><a id="l01416" name="l01416"></a><span class="lineno"> 1416</span>          <span class="comment">// received. Just wait for xt because communication of x happens over rows, while the</span></div>
-<div class="line"><a id="l01417" name="l01417"></a><span class="lineno"> 1417</span>          <span class="comment">// pivot rank can just block rank in the same column.</span></div>
-<div class="line"><a id="l01418" name="l01418"></a><span class="lineno"> 1418</span>          trigger_panel = xt.read(at) | ex::drop_value() | ex::ensure_started();</div>
-<div class="line"><a id="l01419" name="l01419"></a><span class="lineno"> 1419</span>        }</div>
-<div class="line"><a id="l01420" name="l01420"></a><span class="lineno"> 1420</span>      }</div>
-<div class="line"><a id="l01421" name="l01421"></a><span class="lineno"> 1421</span>      <span class="keywordflow">else</span> {</div>
-<div class="line"><a id="l01422" name="l01422"></a><span class="lineno"> 1422</span>        <span class="keywordflow">if</span> (rank.row() == rank_v0.row()) {</div>
+<div class="line"><a id="l01413" name="l01413"></a><span class="lineno"> 1413</span>      }</div>
+<div class="line"><a id="l01414" name="l01414"></a><span class="lineno"> 1414</span> </div>
+<div class="line"><a id="l01415" name="l01415"></a><span class="lineno"> 1415</span>      <span class="keywordflow">if</span> <span class="keyword">constexpr</span> (dlaf::comm::CommunicationDevice_v&lt;D&gt; == D) {</div>
+<div class="line"><a id="l01416" name="l01416"></a><span class="lineno"> 1416</span>        <span class="comment">// Note:</span></div>
+<div class="line"><a id="l01417" name="l01417"></a><span class="lineno"> 1417</span>        <span class="comment">// if there is no need for additional buffers, we can just wait that xt[0] is ready for</span></div>
+<div class="line"><a id="l01418" name="l01418"></a><span class="lineno"> 1418</span>        <span class="comment">// reading.</span></div>
+<div class="line"><a id="l01419" name="l01419"></a><span class="lineno"> 1419</span>        <span class="keywordflow">if</span> (rank.row() == rank_v0.row()) {</div>
+<div class="line"><a id="l01420" name="l01420"></a><span class="lineno"> 1420</span>          trigger_panel = xt.read(at) | ex::drop_value() | ex::ensure_started();</div>
+<div class="line"><a id="l01421" name="l01421"></a><span class="lineno"> 1421</span>        }</div>
+<div class="line"><a id="l01422" name="l01422"></a><span class="lineno"> 1422</span>        <span class="keywordflow">else</span> {</div>
 <div class="line"><a id="l01423" name="l01423"></a><span class="lineno"> 1423</span>          <span class="comment">// Note:</span></div>
-<div class="line"><a id="l01424" name="l01424"></a><span class="lineno"> 1424</span>          <span class="comment">// on the pivot rank, i.e. the one that would quickly go to the next panel and block, from</span></div>
-<div class="line"><a id="l01425" name="l01425"></a><span class="lineno"> 1425</span>          <span class="comment">// implementation we know that xt[0] is set as an external tile pointing to x[0].</span></div>
-<div class="line"><a id="l01426" name="l01426"></a><span class="lineno"> 1426</span>          <span class="comment">// We cannot wait on xt readwrite (because it is an external tile in a panel, that constraints</span></div>
-<div class="line"><a id="l01427" name="l01427"></a><span class="lineno"> 1427</span>          <span class="comment">// it to be just readable), but we can wait on its source x[0]. This has a subtle implication,</span></div>
-<div class="line"><a id="l01428" name="l01428"></a><span class="lineno"> 1428</span>          <span class="comment">// since we will wait not just for the communication to be complete (which is already more</span></div>
-<div class="line"><a id="l01429" name="l01429"></a><span class="lineno"> 1429</span>          <span class="comment">// than what needed), but we will also wait till xt[0] will be released, so after all local</span></div>
-<div class="line"><a id="l01430" name="l01430"></a><span class="lineno"> 1430</span>          <span class="comment">// communication and computation on the first column of the trailing matrix will be completed.</span></div>
-<div class="line"><a id="l01431" name="l01431"></a><span class="lineno"> 1431</span>          trigger_panel = x.readwrite(at) | ex::drop_value() | ex::ensure_started();</div>
-<div class="line"><a id="l01432" name="l01432"></a><span class="lineno"> 1432</span>        }</div>
-<div class="line"><a id="l01433" name="l01433"></a><span class="lineno"> 1433</span>        <span class="keywordflow">else</span> {</div>
-<div class="line"><a id="l01434" name="l01434"></a><span class="lineno"> 1434</span>          <span class="comment">// Note:</span></div>
-<div class="line"><a id="l01435" name="l01435"></a><span class="lineno"> 1435</span>          <span class="comment">// Conservatively ensure that xt[0] needed for updating the first column has been</span></div>
-<div class="line"><a id="l01436" name="l01436"></a><span class="lineno"> 1436</span>          <span class="comment">// received. Just wait for xt because communication of x happens over rows, while the</span></div>
-<div class="line"><a id="l01437" name="l01437"></a><span class="lineno"> 1437</span>          <span class="comment">// pivot rank can just block rank in the same column.</span></div>
-<div class="line"><a id="l01438" name="l01438"></a><span class="lineno"> 1438</span>          trigger_panel = xt.read(at) | ex::drop_value() | ex::ensure_started();</div>
-<div class="line"><a id="l01439" name="l01439"></a><span class="lineno"> 1439</span>        }</div>
-<div class="line"><a id="l01440" name="l01440"></a><span class="lineno"> 1440</span>      }</div>
-<div class="line"><a id="l01441" name="l01441"></a><span class="lineno"> 1441</span>    }</div>
-<div class="line"><a id="l01442" name="l01442"></a><span class="lineno"> 1442</span> </div>
-<div class="line"><a id="l01443" name="l01443"></a><span class="lineno"> 1443</span>    <span class="comment">// At -= X . V* + V . X*</span></div>
-<div class="line"><a id="l01444" name="l01444"></a><span class="lineno"> 1444</span>    her2kUpdateTrailingMatrix&lt;B&gt;(trailing_matrix_view, mat_a, x, vt, v, xt);</div>
-<div class="line"><a id="l01445" name="l01445"></a><span class="lineno"> 1445</span> </div>
-<div class="line"><a id="l01446" name="l01446"></a><span class="lineno"> 1446</span>    xt.reset();</div>
-<div class="line"><a id="l01447" name="l01447"></a><span class="lineno"> 1447</span>    x.reset();</div>
-<div class="line"><a id="l01448" name="l01448"></a><span class="lineno"> 1448</span>    wt.reset();</div>
-<div class="line"><a id="l01449" name="l01449"></a><span class="lineno"> 1449</span>    w.reset();</div>
-<div class="line"><a id="l01450" name="l01450"></a><span class="lineno"> 1450</span>    vt.reset();</div>
-<div class="line"><a id="l01451" name="l01451"></a><span class="lineno"> 1451</span>    v.reset();</div>
-<div class="line"><a id="l01452" name="l01452"></a><span class="lineno"> 1452</span>  }</div>
-<div class="line"><a id="l01453" name="l01453"></a><span class="lineno"> 1453</span> </div>
-<div class="line"><a id="l01454" name="l01454"></a><span class="lineno"> 1454</span><span class="preprocessor">#ifdef DLAF_WITH_HDF5</span></div>
-<div class="line"><a id="l01455" name="l01455"></a><span class="lineno"> 1455</span>  <span class="keywordflow">if</span> (getTuneParameters().debug_dump_reduction_to_band_data) {</div>
-<div class="line"><a id="l01456" name="l01456"></a><span class="lineno"> 1456</span>    file-&gt;write(mat_a, <span class="stringliteral">&quot;/band&quot;</span>);</div>
-<div class="line"><a id="l01457" name="l01457"></a><span class="lineno"> 1457</span>  }</div>
-<div class="line"><a id="l01458" name="l01458"></a><span class="lineno"> 1458</span> </div>
-<div class="line"><a id="l01459" name="l01459"></a><span class="lineno"> 1459</span>  num_reduction_to_band_calls++;</div>
-<div class="line"><a id="l01460" name="l01460"></a><span class="lineno"> 1460</span><span class="preprocessor">#endif</span></div>
-<div class="line"><a id="l01461" name="l01461"></a><span class="lineno"> 1461</span> </div>
-<div class="line"><a id="l01462" name="l01462"></a><span class="lineno"> 1462</span>  <span class="keywordflow">return</span> mat_taus;</div>
-<div class="line"><a id="l01463" name="l01463"></a><span class="lineno"> 1463</span>}</div>
-<div class="line"><a id="l01464" name="l01464"></a><span class="lineno"> 1464</span>}</div>
+<div class="line"><a id="l01424" name="l01424"></a><span class="lineno"> 1424</span>          <span class="comment">// Conservatively ensure that xt[0] needed for updating the first column has been</span></div>
+<div class="line"><a id="l01425" name="l01425"></a><span class="lineno"> 1425</span>          <span class="comment">// received. Just wait for xt because communication of x happens over rows, while the</span></div>
+<div class="line"><a id="l01426" name="l01426"></a><span class="lineno"> 1426</span>          <span class="comment">// pivot rank can just block rank in the same column.</span></div>
+<div class="line"><a id="l01427" name="l01427"></a><span class="lineno"> 1427</span>          trigger_panel = xt.read(at) | ex::drop_value() | ex::ensure_started();</div>
+<div class="line"><a id="l01428" name="l01428"></a><span class="lineno"> 1428</span>        }</div>
+<div class="line"><a id="l01429" name="l01429"></a><span class="lineno"> 1429</span>      }</div>
+<div class="line"><a id="l01430" name="l01430"></a><span class="lineno"> 1430</span>      <span class="keywordflow">else</span> {</div>
+<div class="line"><a id="l01431" name="l01431"></a><span class="lineno"> 1431</span>        <span class="keywordflow">if</span> (rank.row() == rank_v0.row()) {</div>
+<div class="line"><a id="l01432" name="l01432"></a><span class="lineno"> 1432</span>          <span class="comment">// Note:</span></div>
+<div class="line"><a id="l01433" name="l01433"></a><span class="lineno"> 1433</span>          <span class="comment">// on the pivot rank, i.e. the one that would quickly go to the next panel and block, from</span></div>
+<div class="line"><a id="l01434" name="l01434"></a><span class="lineno"> 1434</span>          <span class="comment">// implementation we know that xt[0] is set as an external tile pointing to x[0].</span></div>
+<div class="line"><a id="l01435" name="l01435"></a><span class="lineno"> 1435</span>          <span class="comment">// We cannot wait on xt readwrite (because it is an external tile in a panel, that constraints</span></div>
+<div class="line"><a id="l01436" name="l01436"></a><span class="lineno"> 1436</span>          <span class="comment">// it to be just readable), but we can wait on its source x[0]. This has a subtle implication,</span></div>
+<div class="line"><a id="l01437" name="l01437"></a><span class="lineno"> 1437</span>          <span class="comment">// since we will wait not just for the communication to be complete (which is already more</span></div>
+<div class="line"><a id="l01438" name="l01438"></a><span class="lineno"> 1438</span>          <span class="comment">// than what needed), but we will also wait till xt[0] will be released, so after all local</span></div>
+<div class="line"><a id="l01439" name="l01439"></a><span class="lineno"> 1439</span>          <span class="comment">// communication and computation on the first column of the trailing matrix will be completed.</span></div>
+<div class="line"><a id="l01440" name="l01440"></a><span class="lineno"> 1440</span>          trigger_panel = x.readwrite(at) | ex::drop_value() | ex::ensure_started();</div>
+<div class="line"><a id="l01441" name="l01441"></a><span class="lineno"> 1441</span>        }</div>
+<div class="line"><a id="l01442" name="l01442"></a><span class="lineno"> 1442</span>        <span class="keywordflow">else</span> {</div>
+<div class="line"><a id="l01443" name="l01443"></a><span class="lineno"> 1443</span>          <span class="comment">// Note:</span></div>
+<div class="line"><a id="l01444" name="l01444"></a><span class="lineno"> 1444</span>          <span class="comment">// Conservatively ensure that xt[0] needed for updating the first column has been</span></div>
+<div class="line"><a id="l01445" name="l01445"></a><span class="lineno"> 1445</span>          <span class="comment">// received. Just wait for xt because communication of x happens over rows, while the</span></div>
+<div class="line"><a id="l01446" name="l01446"></a><span class="lineno"> 1446</span>          <span class="comment">// pivot rank can just block rank in the same column.</span></div>
+<div class="line"><a id="l01447" name="l01447"></a><span class="lineno"> 1447</span>          trigger_panel = xt.read(at) | ex::drop_value() | ex::ensure_started();</div>
+<div class="line"><a id="l01448" name="l01448"></a><span class="lineno"> 1448</span>        }</div>
+<div class="line"><a id="l01449" name="l01449"></a><span class="lineno"> 1449</span>      }</div>
+<div class="line"><a id="l01450" name="l01450"></a><span class="lineno"> 1450</span>    }</div>
+<div class="line"><a id="l01451" name="l01451"></a><span class="lineno"> 1451</span> </div>
+<div class="line"><a id="l01452" name="l01452"></a><span class="lineno"> 1452</span>    <span class="comment">// At -= X . V* + V . X*</span></div>
+<div class="line"><a id="l01453" name="l01453"></a><span class="lineno"> 1453</span>    her2kUpdateTrailingMatrix&lt;B&gt;(trailing_matrix_view, mat_a, x, vt, v, xt);</div>
+<div class="line"><a id="l01454" name="l01454"></a><span class="lineno"> 1454</span> </div>
+<div class="line"><a id="l01455" name="l01455"></a><span class="lineno"> 1455</span>    xt.reset();</div>
+<div class="line"><a id="l01456" name="l01456"></a><span class="lineno"> 1456</span>    x.reset();</div>
+<div class="line"><a id="l01457" name="l01457"></a><span class="lineno"> 1457</span>    wt.reset();</div>
+<div class="line"><a id="l01458" name="l01458"></a><span class="lineno"> 1458</span>    w.reset();</div>
+<div class="line"><a id="l01459" name="l01459"></a><span class="lineno"> 1459</span>    vt.reset();</div>
+<div class="line"><a id="l01460" name="l01460"></a><span class="lineno"> 1460</span>    v.reset();</div>
+<div class="line"><a id="l01461" name="l01461"></a><span class="lineno"> 1461</span>  }</div>
+<div class="line"><a id="l01462" name="l01462"></a><span class="lineno"> 1462</span> </div>
+<div class="line"><a id="l01463" name="l01463"></a><span class="lineno"> 1463</span><span class="preprocessor">#ifdef DLAF_WITH_HDF5</span></div>
+<div class="line"><a id="l01464" name="l01464"></a><span class="lineno"> 1464</span>  <span class="keywordflow">if</span> (getTuneParameters().debug_dump_reduction_to_band_data) {</div>
+<div class="line"><a id="l01465" name="l01465"></a><span class="lineno"> 1465</span>    file-&gt;write(mat_a, <span class="stringliteral">&quot;/band&quot;</span>);</div>
+<div class="line"><a id="l01466" name="l01466"></a><span class="lineno"> 1466</span>  }</div>
+<div class="line"><a id="l01467" name="l01467"></a><span class="lineno"> 1467</span> </div>
+<div class="line"><a id="l01468" name="l01468"></a><span class="lineno"> 1468</span>  num_reduction_to_band_calls++;</div>
+<div class="line"><a id="l01469" name="l01469"></a><span class="lineno"> 1469</span><span class="preprocessor">#endif</span></div>
+<div class="line"><a id="l01470" name="l01470"></a><span class="lineno"> 1470</span> </div>
+<div class="line"><a id="l01471" name="l01471"></a><span class="lineno"> 1471</span>  <span class="keywordflow">return</span> mat_taus;</div>
+<div class="line"><a id="l01472" name="l01472"></a><span class="lineno"> 1472</span>}</div>
+<div class="line"><a id="l01473" name="l01473"></a><span class="lineno"> 1473</span>}</div>
 <div class="ttc" id="ablas_2tile_8h_html"><div class="ttname"><a href="blas_2tile_8h.html">tile.h</a></div></div>
 <div class="ttc" id="ablas_2tile_8h_html_a1de961c6e1c01ee6a5f0039ecf51b162"><div class="ttname"><a href="blas_2tile_8h.html#a1de961c6e1c01ee6a5f0039ecf51b162">dlaf::tile::gemm</a></div><div class="ttdeci">void gemm(const blas::Op op_a, const blas::Op op_b, const T alpha, const Tile&lt; const T, D &gt; &amp;a, const Tile&lt; const T, D &gt; &amp;b, const T beta, const Tile&lt; T, D &gt; &amp;c)</div></div>
 <div class="ttc" id="abroadcast__panel_8h_html"><div class="ttname"><a href="broadcast__panel_8h.html">broadcast_panel.h</a></div></div>
@@ -1585,7 +1594,7 @@
 <div class="ttc" id="aschedulers_8h_html"><div class="ttname"><a href="schedulers_8h.html">schedulers.h</a></div></div>
 <div class="ttc" id="asingle__threaded__blas_8h_html"><div class="ttname"><a href="single__threaded__blas_8h.html">single_threaded_blas.h</a></div></div>
 <div class="ttc" id="astructdlaf_1_1eigensolver_1_1internal_1_1_reduction_to_band_html"><div class="ttname"><a href="structdlaf_1_1eigensolver_1_1internal_1_1_reduction_to_band.html">dlaf::eigensolver::internal::ReductionToBand</a></div><div class="ttdef"><b>Definition</b> api.h:21</div></div>
-<div class="ttc" id="astructdlaf_1_1eigensolver_1_1internal_1_1red2band_1_1_compute_panel_helper_html"><div class="ttname"><a href="structdlaf_1_1eigensolver_1_1internal_1_1red2band_1_1_compute_panel_helper.html">dlaf::eigensolver::internal::red2band::ComputePanelHelper</a></div><div class="ttdef"><b>Definition</b> impl.h:857</div></div>
+<div class="ttc" id="astructdlaf_1_1eigensolver_1_1internal_1_1red2band_1_1_compute_panel_helper_html"><div class="ttname"><a href="structdlaf_1_1eigensolver_1_1internal_1_1red2band_1_1_compute_panel_helper.html">dlaf::eigensolver::internal::red2band::ComputePanelHelper</a></div><div class="ttdef"><b>Definition</b> impl.h:866</div></div>
 <div class="ttc" id="astructdlaf_1_1matrix_1_1_panel_html"><div class="ttname"><a href="structdlaf_1_1matrix_1_1_panel.html">dlaf::matrix::Panel</a></div><div class="ttdef"><b>Definition</b> panel.h:589</div></div>
 <div class="ttc" id="astructdlaf_1_1matrix_1_1_sub_panel_view_html"><div class="ttname"><a href="structdlaf_1_1matrix_1_1_sub_panel_view.html">dlaf::matrix::SubPanelView</a></div><div class="ttdef"><b>Definition</b> views.h:132</div></div>
 <div class="ttc" id="astructdlaf_1_1matrix_1_1internal_1_1_view_html_a7c25686d3fb7e47b627af360592168ad"><div class="ttname"><a href="structdlaf_1_1matrix_1_1internal_1_1_view.html#a7c25686d3fb7e47b627af360592168ad">dlaf::matrix::internal::View::iteratorLocal</a></div><div class="ttdeci">auto iteratorLocal() const noexcept</div><div class="ttdoc">Return a Range2D that gives access to all local tiles part of the View.</div><div class="ttdef"><b>Definition</b> views.h:70</div></div>
diff --git a/master/get__red2band__panel__nworkers_8h_source.html b/master/get__red2band__panel__nworkers_8h_source.html
index 9199dd87e9..bf06866e51 100644
--- a/master/get__red2band__panel__nworkers_8h_source.html
+++ b/master/get__red2band__panel__nworkers_8h_source.html
@@ -102,7 +102,7 @@
 <div class="line"><a id="l00019" name="l00019"></a><span class="lineno">   19</span> </div>
 <div class="line"><a id="l00020" name="l00020"></a><span class="lineno">   20</span><span class="keyword">namespace </span>dlaf::eigensolver::internal {</div>
 <div class="line"><a id="l00021" name="l00021"></a><span class="lineno">   21</span> </div>
-<div class="line"><a id="l00022" name="l00022"></a><span class="lineno">   22</span><span class="keyword">inline</span> <span class="keywordtype">size_t</span> getReductionToBandPanelNWorkers() noexcept {</div>
+<div class="line"><a id="l00022" name="l00022"></a><span class="lineno">   22</span><span class="keyword">inline</span> <span class="keywordtype">size_t</span> get_red2band_panel_nworkers() noexcept {</div>
 <div class="line"><a id="l00023" name="l00023"></a><span class="lineno">   23</span>  <span class="comment">// Note: precautionarily we leave at least 1 thread &quot;free&quot; to do other stuff (if possible)</span></div>
 <div class="line"><a id="l00024" name="l00024"></a><span class="lineno">   24</span>  <span class="keyword">const</span> std::size_t available_workers = pika::resource::get_thread_pool(<span class="stringliteral">&quot;default&quot;</span>).get_os_thread_count();</div>
 <div class="line"><a id="l00025" name="l00025"></a><span class="lineno">   25</span>  <span class="keyword">const</span> std::size_t min_workers = 1;</div>