tlapack/multishift__qr__sweep_8hpp_source.html

//

// Copyright (c) 2025, University of Colorado Denver. All rights reserved.

//

// This file is part of <T>LAPACK.

// <T>LAPACK is free software: you can redistribute it and/or modify it under

// the terms of the BSD 3-Clause license. See the accompanying LICENSE file.


#ifndef TLAPACK_QR_SWEEP_HH

#define TLAPACK_QR_SWEEP_HH


#include "tlapack/base/utils.hpp"

#include "tlapack/blas/gemm.hpp"

#include "tlapack/lapack/lahqr_shiftcolumn.hpp"

#include "tlapack/lapack/larfg.hpp"

#include "tlapack/lapack/move_bulge.hpp"


namespace tlapack {

template <class T,

          TLAPACK_SMATRIX matrix_t,

          TLAPACK_VECTOR vector_t,

          enable_if_t<is_complex<type_t<vector_t>>, bool> = true>


constexpr WorkInfo multishift_QR_sweep_worksize(bool want_t,

                                                bool want_z,

                                                size_type<matrix_t> ilo,

                                                size_type<matrix_t> ihi,

                                                const matrix_t& A,

                                                const vector_t& s,

                                                const matrix_t& Z)

{

    if constexpr (is_same_v<T, type_t<matrix_t>>)

        return WorkInfo(3, size(s) / 2);

    else

        return WorkInfo(0);

}


template <TLAPACK_SMATRIX matrix_t,

          TLAPACK_VECTOR vector_t,

          TLAPACK_WORKSPACE work_t,

          enable_if_t<is_complex<type_t<vector_t>>, bool> = true>


void multishift_QR_sweep_work(bool want_t,

                              bool want_z,

                              size_type<matrix_t> ilo,

                              size_type<matrix_t> ihi,

                              matrix_t& A,

                              const vector_t& s,

                              matrix_t& Z,

                              work_t& work)

{

    using TA = type_t<matrix_t>;

    using real_t = real_type<TA>;

    using idx_t = size_type<matrix_t>;

    using range = pair<idx_t, idx_t>;


    const real_t one(1);

    const real_t zero(0);

    const idx_t n = ncols(A);

    const real_t eps = ulp<real_t>();

    const real_t small_num = safe_min<real_t>() * ((real_t)n / eps);


    // check arguments

    tlapack_check(n >= 12);

    tlapack_check(nrows(A) == n);

    if (want_z) {

        tlapack_check(ncols(Z) == n);

        tlapack_check(nrows(Z) == n);

    }


    // Matrix V

    auto [V, work1] = reshape(work, 3, size(s) / 2);


    const idx_t n_block_max = (n - 3) / 3;

    const idx_t n_shifts_max =

        min(ihi - ilo - 1, std::max<idx_t>(2, 3 * (n_block_max / 4)));


    idx_t n_shifts = std::min<idx_t>(size(s), n_shifts_max);

    if (n_shifts % 2 == 1) n_shifts = n_shifts - 1;

    idx_t n_bulges = n_shifts / 2;


    const idx_t n_block_desired = std::min<idx_t>(2 * n_shifts, n_block_max);


    // Define workspace matrices

    // We use the lower triangular part of A as workspace


    // U stores the orthogonal transformations

    auto U = slice(A, range{n - n_block_desired, n}, range{0, n_block_desired});


    // Workspace for horizontal multiplications

    auto WH = slice(A, range{n - n_block_desired, n},

                    range{n_block_desired, n - n_block_desired - 3});


    // Workspace for vertical multiplications

    auto WV = slice(A, range{n_block_desired + 3, n - n_block_desired},

                    range{0, n_block_desired});


    // i_pos_block points to the start of the block of bulges

    idx_t i_pos_block;


    //

    // The following code block introduces the bulges into the matrix

    //

    {

        // Near-the-diagonal bulge introduction

        // The calculations are initially limited to the window:

        // A(ilo:ilo+n_block,ilo:ilo+n_block) The rest is updated later via

        // level 3 BLAS

        idx_t n_block = min(n_block_desired, ihi - ilo);

        idx_t istart_m = ilo;

        idx_t istop_m = ilo + n_block;

        auto U2 = slice(U, range{0, n_block}, range{0, n_block});

        laset(GENERAL, zero, one, U2);


        for (idx_t i_pos_last = ilo; i_pos_last < ilo + n_block - 2;

             ++i_pos_last) {

            // The number of bulges that are in the pencil

            idx_t n_active_bulges = min(n_bulges, ((i_pos_last - ilo) / 2) + 1);

            for (idx_t i_bulge = 0; i_bulge < n_active_bulges; ++i_bulge) {

                idx_t i_pos = i_pos_last - 2 * i_bulge;

                auto v = col(V, i_bulge);

                if (i_pos == ilo) {

                    // Introduce bulge

                    TA tau;

                    auto H = slice(A, range{ilo, ilo + 3}, range{ilo, ilo + 3});

                    lahqr_shiftcolumn(H, v, s[size(s) - 1 - 2 * i_bulge],

                                      s[size(s) - 1 - 2 * i_bulge - 1]);

                    larfg(FORWARD, COLUMNWISE_STORAGE, v, tau);

                    v[0] = tau;

                }

                else {

                    // Chase bulge down

                    auto H = slice(A, range{i_pos - 1, i_pos + 3},

                                   range{i_pos - 1, i_pos + 3});

                    move_bulge(H, v, s[size(s) - 1 - 2 * i_bulge],

                               s[size(s) - 1 - 2 * i_bulge - 1]);

                }


                // Apply the reflector we just calculated from the right

                // We leave the last row for later (it interferes with the

                // optimally packed bulges)

                for (idx_t j = istart_m; j < i_pos + 3; ++j) {

                    const TA sum = A(j, i_pos) + v[1] * A(j, i_pos + 1) +

                                   v[2] * A(j, i_pos + 2);

                    A(j, i_pos) = A(j, i_pos) - sum * v[0];

                    A(j, i_pos + 1) = A(j, i_pos + 1) - sum * v[0] * conj(v[1]);

                    A(j, i_pos + 2) = A(j, i_pos + 2) - sum * v[0] * conj(v[2]);

                }


                // Apply the reflector we just calculated from the left

                // We only update a single column, the rest is updated later

                const TA sum = A(i_pos, i_pos) +

                               conj(v[1]) * A(i_pos + 1, i_pos) +

                               conj(v[2]) * A(i_pos + 2, i_pos);

                A(i_pos, i_pos) = A(i_pos, i_pos) - sum * conj(v[0]);

                A(i_pos + 1, i_pos) =

                    A(i_pos + 1, i_pos) - sum * conj(v[0]) * v[1];

                A(i_pos + 2, i_pos) =

                    A(i_pos + 2, i_pos) - sum * conj(v[0]) * v[2];


                // Test for deflation.

                if (i_pos > ilo) {

                    if (A(i_pos, i_pos - 1) != zero) {

                        real_t tst1 = abs1(A(i_pos - 1, i_pos - 1)) +

                                      abs1(A(i_pos, i_pos));

                        if (tst1 == zero) {

                            if (i_pos > ilo + 1)

                                tst1 += abs1(A(i_pos - 1, i_pos - 2));

                            if (i_pos > ilo + 2)

                                tst1 += abs1(A(i_pos - 1, i_pos - 3));

                            if (i_pos > ilo + 3)

                                tst1 += abs1(A(i_pos - 1, i_pos - 4));

                            if (i_pos < ihi - 1)

                                tst1 += abs1(A(i_pos + 1, i_pos));

                            if (i_pos < ihi - 2)

                                tst1 += abs1(A(i_pos + 2, i_pos));

                            if (i_pos < ihi - 3)

                                tst1 += abs1(A(i_pos + 3, i_pos));

                        }

                        if (abs1(A(i_pos, i_pos - 1)) <

                            max(small_num, eps * tst1)) {

                            const real_t aij = abs1(A(i_pos, i_pos - 1));

                            const real_t aji = abs1(A(i_pos - 1, i_pos));

                            const real_t ab =

                                (aij > aji) ? aij

                                            : aji;  // Propagates NaNs in aji

                            const real_t ba =

                                (aij < aji) ? aij

                                            : aji;  // Propagates NaNs in aji

                            const real_t aa =

                                max(abs1(A(i_pos, i_pos)),

                                    abs1(A(i_pos, i_pos) -

                                         A(i_pos - 1, i_pos - 1)));

                            const real_t bb =

                                min(abs1(A(i_pos, i_pos)),

                                    abs1(A(i_pos, i_pos) -

                                         A(i_pos - 1, i_pos - 1)));

                            const real_t s = aa + ab;

                            if (ba * (ab / s) <=

                                max(small_num, eps * (bb * (aa / s)))) {

                                A(i_pos, i_pos - 1) = zero;

                            }

                        }

                    }

                }

            }


            // The following code performs the delayed update from the left

            // it is optimized for column oriented matrices, but the increased

            // complexity likely causes slower code for (idx_t j = ilo; j <

            // istop_m; ++j)

            // {

            //     idx_t i_bulge_start = (i_pos_last + 2 > j) ? (i_pos_last + 2

            //     - j) / 2 : 0; for (idx_t i_bulge = i_bulge_start; i_bulge <

            //     n_active_bulges; ++i_bulge)

            //     {

            //         idx_t i_pos = i_pos_last - 2 * i_bulge;

            //         auto v = col(V, i_bulge);

            //         auto sum = A(i_pos, j) + conj(v[1]) * A(i_pos + 1, j) +

            //         conj(v[2]) * A(i_pos + 2, j); A(i_pos, j) = A(i_pos, j) -

            //         sum * conj(v[0]); A(i_pos + 1, j) = A(i_pos + 1, j) - sum

            //         * conj(v[0]) * v[1]; A(i_pos + 2, j) = A(i_pos + 2, j) -

            //         sum * conj(v[0]) * v[2];

            //     }

            // }


            // Delayed update from the left

            for (idx_t i_bulge = 0; i_bulge < n_active_bulges; ++i_bulge) {

                idx_t i_pos = i_pos_last - 2 * i_bulge;

                auto v = col(V, i_bulge);

                for (idx_t j = i_pos + 1; j < istop_m; ++j) {

                    const TA sum = A(i_pos, j) + conj(v[1]) * A(i_pos + 1, j) +

                                   conj(v[2]) * A(i_pos + 2, j);

                    A(i_pos, j) = A(i_pos, j) - sum * conj(v[0]);

                    A(i_pos + 1, j) = A(i_pos + 1, j) - sum * conj(v[0]) * v[1];

                    A(i_pos + 2, j) = A(i_pos + 2, j) - sum * conj(v[0]) * v[2];

                }

            }


            // Accumulate the reflectors into U

            for (idx_t i_bulge = 0; i_bulge < n_active_bulges; ++i_bulge) {

                idx_t i_pos = i_pos_last - 2 * i_bulge;

                auto v = col(V, i_bulge);

                idx_t i1 = 0;

                idx_t i2 =

                    min(nrows(U2), (i_pos_last - ilo) + (i_pos_last - ilo) + 3);

                for (idx_t j = i1; j < i2; ++j) {

                    const TA sum = U2(j, i_pos - ilo) +

                                   v[1] * U2(j, i_pos - ilo + 1) +

                                   v[2] * U2(j, i_pos - ilo + 2);

                    U2(j, i_pos - ilo) = U2(j, i_pos - ilo) - sum * v[0];

                    U2(j, i_pos - ilo + 1) =

                        U2(j, i_pos - ilo + 1) - sum * v[0] * conj(v[1]);

                    U2(j, i_pos - ilo + 2) =

                        U2(j, i_pos - ilo + 2) - sum * v[0] * conj(v[2]);

                }

            }

        }

        // Update rest of the matrix

        if (want_t) {

            istart_m = 0;

            istop_m = n;

        }

        else {

            istart_m = ilo;

            istop_m = ihi;

        }

        // Horizontal multiply

        if (ilo + n_shifts + 1 < istop_m) {

            idx_t i = ilo + n_block;

            while (i < istop_m) {

                idx_t iblock = std::min<idx_t>(istop_m - i, ncols(WH));

                auto A_slice =

                    slice(A, range{ilo, ilo + n_block}, range{i, i + iblock});

                auto WH_slice = slice(WH, range{0, nrows(A_slice)},

                                      range{0, ncols(A_slice)});

                gemm(CONJ_TRANS, NO_TRANS, one, U2, A_slice, WH_slice);

                lacpy(GENERAL, WH_slice, A_slice);

                i = i + iblock;

            }

        }

        // Vertical multiply

        if (istart_m < ilo) {

            idx_t i = istart_m;

            while (i < ilo) {

                idx_t iblock = std::min<idx_t>(ilo - i, nrows(WV));

                auto A_slice =

                    slice(A, range{i, i + iblock}, range{ilo, ilo + n_block});

                auto WV_slice = slice(WV, range{0, nrows(A_slice)},

                                      range{0, ncols(A_slice)});

                gemm(NO_TRANS, NO_TRANS, one, A_slice, U2, WV_slice);

                lacpy(GENERAL, WV_slice, A_slice);

                i = i + iblock;

            }

        }

        // Update Z (also a vertical multiplication)

        if (want_z) {

            idx_t i = 0;

            while (i < n) {

                idx_t iblock = std::min<idx_t>(n - i, nrows(WV));

                auto Z_slice =

                    slice(Z, range{i, i + iblock}, range{ilo, ilo + n_block});

                auto WV_slice = slice(WV, range{0, nrows(Z_slice)},

                                      range{0, ncols(Z_slice)});

                gemm(NO_TRANS, NO_TRANS, one, Z_slice, U2, WV_slice);

                lacpy(GENERAL, WV_slice, Z_slice);

                i = i + iblock;

            }

        }


        i_pos_block = ilo + n_block - n_shifts;

    }


    //

    // The following code block moves the bulges down untill they are low enough

    // to be removed

    //

    while (i_pos_block + n_block_desired < ihi) {

        // Number of positions each bulge will be moved down

        idx_t n_pos = std::min<idx_t>(n_block_desired - n_shifts,

                                      ihi - n_shifts - 1 - i_pos_block);

        // Actual blocksize

        idx_t n_block = n_shifts + n_pos;


        auto U2 = slice(U, range{0, n_block}, range{0, n_block});

        laset(GENERAL, zero, one, U2);


        // Near-the-diagonal bulge chase

        // The calculations are initially limited to the window:

        // A(i_pos_block-1:i_pos_block+n_block,i_pos_block:i_pos_block+n_block)

        // The rest is updated later via level 3 BLAS


        idx_t istart_m = i_pos_block;

        idx_t istop_m = i_pos_block + n_block;

        for (idx_t i_pos_last = i_pos_block + n_shifts - 2;

             i_pos_last < i_pos_block + n_shifts - 2 + n_pos; ++i_pos_last) {

            for (idx_t i_bulge = 0; i_bulge < n_bulges; ++i_bulge) {

                idx_t i_pos = i_pos_last - 2 * i_bulge;

                auto v = col(V, i_bulge);

                auto H = slice(A, range{i_pos - 1, i_pos + 3},

                               range{i_pos - 1, i_pos + 3});

                move_bulge(H, v, s[size(s) - 1 - 2 * i_bulge],

                           s[size(s) - 1 - 2 * i_bulge - 1]);


                // Apply the reflector we just calculated from the right

                // We leave the last row for later (it interferes with the

                // optimally packed bulges)

                for (idx_t j = istart_m; j < i_pos + 3; ++j) {

                    const TA sum = A(j, i_pos) + v[1] * A(j, i_pos + 1) +

                                   v[2] * A(j, i_pos + 2);

                    A(j, i_pos) = A(j, i_pos) - sum * v[0];

                    A(j, i_pos + 1) = A(j, i_pos + 1) - sum * v[0] * conj(v[1]);

                    A(j, i_pos + 2) = A(j, i_pos + 2) - sum * v[0] * conj(v[2]);

                }


                // Apply the reflector we just calculated from the left

                // We only update a single column, the rest is updated later

                const TA sum = A(i_pos, i_pos) +

                               conj(v[1]) * A(i_pos + 1, i_pos) +

                               conj(v[2]) * A(i_pos + 2, i_pos);

                A(i_pos, i_pos) = A(i_pos, i_pos) - sum * conj(v[0]);

                A(i_pos + 1, i_pos) =

                    A(i_pos + 1, i_pos) - sum * conj(v[0]) * v[1];

                A(i_pos + 2, i_pos) =

                    A(i_pos + 2, i_pos) - sum * conj(v[0]) * v[2];


                // Test for deflation.

                if (i_pos > ilo) {

                    if (A(i_pos, i_pos - 1) != zero) {

                        real_t tst1 = abs1(A(i_pos - 1, i_pos - 1)) +

                                      abs1(A(i_pos, i_pos));

                        if (tst1 == zero) {

                            if (i_pos > ilo + 1)

                                tst1 += abs1(A(i_pos - 1, i_pos - 2));

                            if (i_pos > ilo + 2)

                                tst1 += abs1(A(i_pos - 1, i_pos - 3));

                            if (i_pos > ilo + 3)

                                tst1 += abs1(A(i_pos - 1, i_pos - 4));

                            if (i_pos < ihi - 1)

                                tst1 += abs1(A(i_pos + 1, i_pos));

                            if (i_pos < ihi - 2)

                                tst1 += abs1(A(i_pos + 2, i_pos));

                            if (i_pos < ihi - 3)

                                tst1 += abs1(A(i_pos + 3, i_pos));

                        }

                        if (abs1(A(i_pos, i_pos - 1)) <

                            max(small_num, eps * tst1)) {

                            const real_t aij = abs1(A(i_pos, i_pos - 1));

                            const real_t aji = abs1(A(i_pos - 1, i_pos));

                            const real_t ab =

                                (aij > aji) ? aij

                                            : aji;  // Propagates NaNs in aji

                            const real_t ba =

                                (aij < aji) ? aij

                                            : aji;  // Propagates NaNs in aji

                            const real_t aa =

                                max(abs1(A(i_pos, i_pos)),

                                    abs1(A(i_pos, i_pos) -

                                         A(i_pos - 1, i_pos - 1)));

                            const real_t bb =

                                min(abs1(A(i_pos, i_pos)),

                                    abs1(A(i_pos, i_pos) -

                                         A(i_pos - 1, i_pos - 1)));

                            const real_t s = aa + ab;

                            if (ba * (ab / s) <=

                                max(small_num, eps * (bb * (aa / s)))) {

                                A(i_pos, i_pos - 1) = zero;

                            }

                        }

                    }

                }

            }


            // The following code performs the delayed update from the left

            // it is optimized for column oriented matrices, but the increased

            // complexity likely causes slower code for (idx_t j = i_pos_block;

            // j < istop_m; ++j)

            // {

            //     idx_t i_bulge_start = (i_pos_last + 2 > j) ? (i_pos_last + 2

            //     - j) / 2 : 0; for (idx_t i_bulge = i_bulge_start; i_bulge <

            //     n_bulges; ++i_bulge)

            //     {

            //         idx_t i_pos = i_pos_last - 2 * i_bulge;

            //         auto v = col(V, i_bulge);

            //         auto sum = A(i_pos, j) + conj(v[1]) * A(i_pos + 1, j) +

            //         conj(v[2]) * A(i_pos + 2, j); A(i_pos, j) = A(i_pos, j) -

            //         sum * conj(v[0]); A(i_pos + 1, j) = A(i_pos + 1, j) - sum

            //         * conj(v[0]) * v[1]; A(i_pos + 2, j) = A(i_pos + 2, j) -

            //         sum * conj(v[0]) * v[2];

            //     }

            // }


            // Delayed update from the left

            for (idx_t i_bulge = 0; i_bulge < n_bulges; ++i_bulge) {

                idx_t i_pos = i_pos_last - 2 * i_bulge;

                auto v = col(V, i_bulge);

                for (idx_t j = i_pos + 1; j < istop_m; ++j) {

                    const TA sum = A(i_pos, j) + conj(v[1]) * A(i_pos + 1, j) +

                                   conj(v[2]) * A(i_pos + 2, j);

                    A(i_pos, j) = A(i_pos, j) - sum * conj(v[0]);

                    A(i_pos + 1, j) = A(i_pos + 1, j) - sum * conj(v[0]) * v[1];

                    A(i_pos + 2, j) = A(i_pos + 2, j) - sum * conj(v[0]) * v[2];

                }

            }


            // Accumulate the reflectors into U

            for (idx_t i_bulge = 0; i_bulge < n_bulges; ++i_bulge) {

                idx_t i_pos = i_pos_last - 2 * i_bulge;

                auto v = col(V, i_bulge);

                idx_t i1 = (i_pos - i_pos_block) -

                           (i_pos_last - i_pos_block - n_shifts + 2);

                idx_t i2 =

                    min(nrows(U2),

                        (i_pos_last - i_pos_block) +

                            (i_pos_last - i_pos_block - n_shifts + 2) + 3);

                for (idx_t j = i1; j < i2; ++j) {

                    const TA sum = U2(j, i_pos - i_pos_block) +

                                   v[1] * U2(j, i_pos - i_pos_block + 1) +

                                   v[2] * U2(j, i_pos - i_pos_block + 2);

                    U2(j, i_pos - i_pos_block) =

                        U2(j, i_pos - i_pos_block) - sum * v[0];

                    U2(j, i_pos - i_pos_block + 1) =

                        U2(j, i_pos - i_pos_block + 1) -

                        sum * v[0] * conj(v[1]);

                    U2(j, i_pos - i_pos_block + 2) =

                        U2(j, i_pos - i_pos_block + 2) -

                        sum * v[0] * conj(v[2]);

                }

            }

        }

        // Update rest of the matrix

        if (want_t) {

            istart_m = 0;

            istop_m = n;

        }

        else {

            istart_m = ilo;

            istop_m = ihi;

        }

        // Horizontal multiply

        if (i_pos_block + n_block < istop_m) {

            idx_t i = i_pos_block + n_block;

            while (i < istop_m) {

                idx_t iblock = std::min<idx_t>(istop_m - i, ncols(WH));

                auto A_slice =

                    slice(A, range{i_pos_block, i_pos_block + n_block},

                          range{i, i + iblock});

                auto WH_slice = slice(WH, range{0, nrows(A_slice)},

                                      range{0, ncols(A_slice)});

                gemm(CONJ_TRANS, NO_TRANS, one, U2, A_slice, WH_slice);

                lacpy(GENERAL, WH_slice, A_slice);

                i = i + iblock;

            }

        }

        // Vertical multiply

        if (istart_m < i_pos_block) {

            idx_t i = istart_m;

            while (i < i_pos_block) {

                idx_t iblock = std::min<idx_t>(i_pos_block - i, nrows(WV));

                auto A_slice = slice(A, range{i, i + iblock},

                                     range{i_pos_block, i_pos_block + n_block});

                auto WV_slice = slice(WV, range{0, nrows(A_slice)},

                                      range{0, ncols(A_slice)});

                gemm(NO_TRANS, NO_TRANS, one, A_slice, U2, WV_slice);

                lacpy(GENERAL, WV_slice, A_slice);

                i = i + iblock;

            }

        }

        // Update Z (also a vertical multiplication)

        if (want_z) {

            idx_t i = 0;

            while (i < n) {

                idx_t iblock = std::min<idx_t>(n - i, nrows(WV));

                auto Z_slice = slice(Z, range{i, i + iblock},

                                     range{i_pos_block, i_pos_block + n_block});

                auto WV_slice = slice(WV, range{0, nrows(Z_slice)},

                                      range{0, ncols(Z_slice)});

                gemm(NO_TRANS, NO_TRANS, one, Z_slice, U2, WV_slice);

                lacpy(GENERAL, WV_slice, Z_slice);

                i = i + iblock;

            }

        }


        i_pos_block = i_pos_block + n_pos;

    }


    //

    // The following code removes the bulges from the matrix

    //

    {

        idx_t n_block = ihi - i_pos_block;


        auto U2 = slice(U, range{0, n_block}, range{0, n_block});

        laset(GENERAL, zero, one, U2);


        // Near-the-diagonal bulge chase

        // The calculations are initially limited to the window:

        // A(i_pos_block-1:ihi,i_pos_block:ihi) The rest is updated later via

        // level 3 BLAS


        idx_t istart_m = i_pos_block;

        idx_t istop_m = ihi;


        for (idx_t i_pos_last = i_pos_block + n_shifts - 2;

             i_pos_last < ihi + n_shifts - 1; ++i_pos_last) {

            idx_t i_bulge_start =

                (i_pos_last + 3 > ihi) ? (i_pos_last + 3 - ihi) / 2 : 0;

            for (idx_t i_bulge = i_bulge_start; i_bulge < n_bulges; ++i_bulge) {

                idx_t i_pos = i_pos_last - 2 * i_bulge;

                if (i_pos == ihi - 2) {

                    // Special case, the bulge is at the bottom, needs a smaller

                    // reflector (order 2)

                    auto v = slice(V, range{0, 2}, i_bulge);

                    auto h = slice(A, range{i_pos, i_pos + 2}, i_pos - 1);

                    larfg(FORWARD, COLUMNWISE_STORAGE, h, v[0]);

                    v[1] = h[1];

                    h[1] = zero;


                    const TA t1 = conj(v[0]);

                    const TA v2 = v[1];

                    const TA t2 = t1 * v2;

                    // Apply the reflector we just calculated from the right

                    for (idx_t j = istart_m; j < i_pos + 2; ++j) {

                        const TA sum = A(j, i_pos) + v2 * A(j, i_pos + 1);

                        A(j, i_pos) = A(j, i_pos) - sum * conj(t1);

                        A(j, i_pos + 1) = A(j, i_pos + 1) - sum * conj(t2);

                    }

                    // Apply the reflector we just calculated from the left

                    for (idx_t j = i_pos; j < istop_m; ++j) {

                        const TA sum = A(i_pos, j) + conj(v2) * A(i_pos + 1, j);

                        A(i_pos, j) = A(i_pos, j) - sum * t1;

                        A(i_pos + 1, j) = A(i_pos + 1, j) - sum * t2;

                    }

                    // Accumulate the reflector into U

                    // The loop bounds should be changed to reflect the fact

                    // that U2 starts off as diagonal

                    for (idx_t j = 0; j < nrows(U2); ++j) {

                        const TA sum = U2(j, i_pos - i_pos_block) +

                                       v2 * U2(j, i_pos - i_pos_block + 1);

                        U2(j, i_pos - i_pos_block) =

                            U2(j, i_pos - i_pos_block) - sum * conj(t1);

                        U2(j, i_pos - i_pos_block + 1) =

                            U2(j, i_pos - i_pos_block + 1) - sum * conj(t2);

                    }

                }

                else {

                    auto v = col(V, i_bulge);

                    auto H = slice(A, range{i_pos - 1, i_pos + 3},

                                   range{i_pos - 1, i_pos + 3});

                    move_bulge(H, v, s[size(s) - 1 - 2 * i_bulge],

                               s[size(s) - 1 - 2 * i_bulge - 1]);


                    const TA t1 = conj(v[0]);

                    const TA v2 = v[1];

                    const TA t2 = t1 * v2;

                    const TA v3 = v[2];

                    const TA t3 = t1 * v3;

                    // Apply the reflector we just calculated from the right

                    // (but leave the last row for later)

                    for (idx_t j = istart_m; j < i_pos + 3; ++j) {

                        const TA sum = A(j, i_pos) + v2 * A(j, i_pos + 1) +

                                       v3 * A(j, i_pos + 2);

                        A(j, i_pos) = A(j, i_pos) - sum * conj(t1);

                        A(j, i_pos + 1) = A(j, i_pos + 1) - sum * conj(t2);

                        A(j, i_pos + 2) = A(j, i_pos + 2) - sum * conj(t3);

                    }


                    // Apply the reflector we just calculated from the left

                    // We only update a single column, the rest is updated later

                    const TA sum = A(i_pos, i_pos) +

                                   conj(v[1]) * A(i_pos + 1, i_pos) +

                                   conj(v[2]) * A(i_pos + 2, i_pos);

                    A(i_pos, i_pos) = A(i_pos, i_pos) - sum * conj(v[0]);

                    A(i_pos + 1, i_pos) =

                        A(i_pos + 1, i_pos) - sum * conj(v[0]) * v[1];

                    A(i_pos + 2, i_pos) =

                        A(i_pos + 2, i_pos) - sum * conj(v[0]) * v[2];


                    // Test for deflation.

                    if (i_pos > ilo) {

                        if (A(i_pos, i_pos - 1) != zero) {

                            real_t tst1 = abs1(A(i_pos - 1, i_pos - 1)) +

                                          abs1(A(i_pos, i_pos));

                            if (tst1 == zero) {

                                if (i_pos > ilo + 1)

                                    tst1 += abs1(A(i_pos - 1, i_pos - 2));

                                if (i_pos > ilo + 2)

                                    tst1 += abs1(A(i_pos - 1, i_pos - 3));

                                if (i_pos > ilo + 3)

                                    tst1 += abs1(A(i_pos - 1, i_pos - 4));

                                if (i_pos < ihi - 1)

                                    tst1 += abs1(A(i_pos + 1, i_pos));

                                if (i_pos < ihi - 2)

                                    tst1 += abs1(A(i_pos + 2, i_pos));

                                if (i_pos < ihi - 3)

                                    tst1 += abs1(A(i_pos + 3, i_pos));

                            }

                            if (abs1(A(i_pos, i_pos - 1)) <

                                max(small_num, eps * tst1)) {

                                const real_t aij = abs1(A(i_pos, i_pos - 1));

                                const real_t aji = abs1(A(i_pos - 1, i_pos));

                                const real_t ab =

                                    (aij > aji)

                                        ? aij

                                        : aji;  // Propagates NaNs in aji

                                const real_t ba =

                                    (aij < aji)

                                        ? aij

                                        : aji;  // Propagates NaNs in aji

                                const real_t aa =

                                    max(abs1(A(i_pos, i_pos)),

                                        abs1(A(i_pos, i_pos) -

                                             A(i_pos - 1, i_pos - 1)));

                                const real_t bb =

                                    min(abs1(A(i_pos, i_pos)),

                                        abs1(A(i_pos, i_pos) -

                                             A(i_pos - 1, i_pos - 1)));

                                const real_t s = aa + ab;

                                if (ba * (ab / s) <=

                                    max(small_num, eps * (bb * (aa / s)))) {

                                    A(i_pos, i_pos - 1) = zero;

                                }

                            }

                        }

                    }

                }

            }


            i_bulge_start =

                (i_pos_last + 4 > ihi) ? (i_pos_last + 4 - ihi) / 2 : 0;


            // The following code performs the delayed update from the left

            // it is optimized for column oriented matrices, but the increased

            // complexity likely causes slower code for (idx_t j = i_pos_block;

            // j < istop_m; ++j)

            // {

            //     idx_t i_bulge_start2 = (i_pos_last + 2 > j) ? (i_pos_last + 2

            //     - j) / 2 : 0; i_bulge_start2 =

            //     max(i_bulge_start,i_bulge_start2); for (idx_t i_bulge =

            //     i_bulge_start2; i_bulge < n_bulges; ++i_bulge)

            //     {

            //         idx_t i_pos = i_pos_last - 2 * i_bulge;

            //         auto v = col(V, i_bulge);

            //         auto sum = A(i_pos, j) + conj(v[1]) * A(i_pos + 1, j) +

            //         conj(v[2]) * A(i_pos + 2, j); A(i_pos, j) = A(i_pos, j) -

            //         sum * conj(v[0]); A(i_pos + 1, j) = A(i_pos + 1, j) - sum

            //         * conj(v[0]) * v[1]; A(i_pos + 2, j) = A(i_pos + 2, j) -

            //         sum * conj(v[0]) * v[2];

            //     }

            // }


            // Delayed update from the left

            for (idx_t i_bulge = i_bulge_start; i_bulge < n_bulges; ++i_bulge) {

                idx_t i_pos = i_pos_last - 2 * i_bulge;

                auto v = col(V, i_bulge);

                for (idx_t j = i_pos + 1; j < istop_m; ++j) {

                    const TA sum = A(i_pos, j) + conj(v[1]) * A(i_pos + 1, j) +

                                   conj(v[2]) * A(i_pos + 2, j);

                    A(i_pos, j) = A(i_pos, j) - sum * conj(v[0]);

                    A(i_pos + 1, j) = A(i_pos + 1, j) - sum * conj(v[0]) * v[1];

                    A(i_pos + 2, j) = A(i_pos + 2, j) - sum * conj(v[0]) * v[2];

                }

            }


            // Accumulate the reflectors into U

            for (idx_t i_bulge = i_bulge_start; i_bulge < n_bulges; ++i_bulge) {

                idx_t i_pos = i_pos_last - 2 * i_bulge;

                auto v = col(V, i_bulge);

                idx_t i1 = (i_pos - i_pos_block) -

                           (i_pos_last - i_pos_block - n_shifts + 2);

                idx_t i2 =

                    min(nrows(U2),

                        (i_pos_last - i_pos_block) +

                            (i_pos_last - i_pos_block - n_shifts + 2) + 3);

                for (idx_t j = i1; j < i2; ++j) {

                    const TA sum = U2(j, i_pos - i_pos_block) +

                                   v[1] * U2(j, i_pos - i_pos_block + 1) +

                                   v[2] * U2(j, i_pos - i_pos_block + 2);

                    U2(j, i_pos - i_pos_block) =

                        U2(j, i_pos - i_pos_block) - sum * v[0];

                    U2(j, i_pos - i_pos_block + 1) =

                        U2(j, i_pos - i_pos_block + 1) -

                        sum * v[0] * conj(v[1]);

                    U2(j, i_pos - i_pos_block + 2) =

                        U2(j, i_pos - i_pos_block + 2) -

                        sum * v[0] * conj(v[2]);

                }

            }

        }


        // Update rest of the matrix

        if (want_t) {

            istart_m = 0;

            istop_m = n;

        }

        else {

            istart_m = ilo;

            istop_m = ihi;

        }

        // Horizontal multiply

        if (ihi < istop_m) {

            idx_t i = ihi;

            while (i < istop_m) {

                idx_t iblock = std::min<idx_t>(istop_m - i, ncols(WH));

                auto A_slice =

                    slice(A, range{i_pos_block, ihi}, range{i, i + iblock});

                auto WH_slice = slice(WH, range{0, nrows(A_slice)},

                                      range{0, ncols(A_slice)});

                gemm(CONJ_TRANS, NO_TRANS, one, U2, A_slice, WH_slice);

                lacpy(GENERAL, WH_slice, A_slice);

                i = i + iblock;

            }

        }

        // Vertical multiply

        if (istart_m < i_pos_block) {

            idx_t i = istart_m;

            while (i < i_pos_block) {

                idx_t iblock = std::min<idx_t>(i_pos_block - i, nrows(WV));

                auto A_slice =

                    slice(A, range{i, i + iblock}, range{i_pos_block, ihi});

                auto WV_slice = slice(WV, range{0, nrows(A_slice)},

                                      range{0, ncols(A_slice)});

                gemm(NO_TRANS, NO_TRANS, one, A_slice, U2, WV_slice);

                lacpy(GENERAL, WV_slice, A_slice);

                i = i + iblock;

            }

        }

        // Update Z (also a vertical multiplication)

        if (want_z) {

            idx_t i = 0;

            while (i < n) {

                idx_t iblock = std::min<idx_t>(n - i, nrows(WV));

                auto Z_slice =

                    slice(Z, range{i, i + iblock}, range{i_pos_block, ihi});

                auto WV_slice = slice(WV, range{0, nrows(Z_slice)},

                                      range{0, ncols(Z_slice)});

                gemm(NO_TRANS, NO_TRANS, one, Z_slice, U2, WV_slice);

                lacpy(GENERAL, WV_slice, Z_slice);

                i = i + iblock;

            }

        }

    }

}


template <TLAPACK_SMATRIX matrix_t,

          TLAPACK_VECTOR vector_t,

          enable_if_t<is_complex<type_t<vector_t>>, bool> = true>


void multishift_QR_sweep(bool want_t,

                         bool want_z,

                         size_type<matrix_t> ilo,

                         size_type<matrix_t> ihi,

                         matrix_t& A,

                         const vector_t& s,

                         matrix_t& Z)

{

    using TA = type_t<matrix_t>;


    // Functor

    Create<matrix_t> new_matrix;


    // Allocates workspace

    WorkInfo workinfo =

        multishift_QR_sweep_worksize<TA>(want_t, want_z, ilo, ihi, A, s, Z);

    std::vector<TA> work_;

    auto work = new_matrix(work_, workinfo.m, workinfo.n);


    multishift_QR_sweep_work(want_t, want_z, ilo, ihi, A, s, Z, work);

}


}  // namespace tlapack


#endif  // TLAPACK_QR_SWEEP_HH

utils.hpp

gemm.hpp

TLAPACK_SMATRIX
#define TLAPACK_SMATRIX
Macro for tlapack::concepts::SliceableMatrix compatible with C++17.
Definition concepts.hpp:899

TLAPACK_WORKSPACE
#define TLAPACK_WORKSPACE
Macro for tlapack::concepts::Workspace compatible with C++17.
Definition concepts.hpp:912

TLAPACK_VECTOR
#define TLAPACK_VECTOR
Macro for tlapack::concepts::Vector compatible with C++17.
Definition concepts.hpp:906

tlapack::multishift_QR_sweep
void multishift_QR_sweep(bool want_t, bool want_z, size_type< matrix_t > ilo, size_type< matrix_t > ihi, matrix_t &A, const vector_t &s, matrix_t &Z)
multishift_QR_sweep performs a single small-bulge multi-shift QR sweep.
Definition multishift_qr_sweep.hpp:849

tlapack::move_bulge
void move_bulge(matrix_t &H, vector_t &v, complex_type< type_t< matrix_t > > s1, complex_type< type_t< matrix_t > > s2)
Given a 4-by-3 matrix H and small order reflector v, move_bulge applies the delayed right update to t...
Definition move_bulge.hpp:37

tlapack::laset
void laset(uplo_t uplo, const type_t< matrix_t > &alpha, const type_t< matrix_t > &beta, matrix_t &A)
Initializes a matrix to diagonal and off-diagonal values.
Definition laset.hpp:38

tlapack::larfg
void larfg(storage_t storeMode, type_t< vector_t > &alpha, vector_t &x, type_t< vector_t > &tau)
Generates a elementary Householder reflection.
Definition larfg.hpp:73

tlapack::lacpy
void lacpy(uplo_t uplo, const matrixA_t &A, matrixB_t &B)
Copies a matrix from A to B.
Definition lacpy.hpp:38

tlapack::lahqr_shiftcolumn
int lahqr_shiftcolumn(const matrix_t &H, vector_t &v, complex_type< type_t< matrix_t > > s1, complex_type< type_t< matrix_t > > s2)
Given a 2-by-2 or 3-by-3 matrix H, lahqr_shiftcolumn calculates a multiple of the product: (H - s1*I)...
Definition lahqr_shiftcolumn.hpp:41

tlapack::gemm
void gemm(Op transA, Op transB, const alpha_t &alpha, const matrixA_t &A, const matrixB_t &B, const beta_t &beta, matrixC_t &C)
General matrix-matrix multiply:
Definition gemm.hpp:61

tlapack::multishift_QR_sweep_work
void multishift_QR_sweep_work(bool want_t, bool want_z, size_type< matrix_t > ilo, size_type< matrix_t > ihi, matrix_t &A, const vector_t &s, matrix_t &Z, work_t &work)
multishift_QR_sweep performs a single small-bulge multi-shift QR sweep.   Workspace is provided as an...
Definition multishift_qr_sweep.hpp:77

tlapack_check
#define tlapack_check(cond)
Throw an error if cond is false.
Definition exceptionHandling.hpp:98

tlapack::multishift_QR_sweep_worksize
constexpr WorkInfo multishift_QR_sweep_worksize(bool want_t, bool want_z, size_type< matrix_t > ilo, size_type< matrix_t > ihi, const matrix_t &A, const vector_t &s, const matrix_t &Z)
Worspace query of multishift_QR_sweep()
Definition multishift_qr_sweep.hpp:51

lahqr_shiftcolumn.hpp

larfg.hpp

move_bulge.hpp

tlapack
Sort the numbers in D in increasing order (if ID = 'I') or in decreasing order (if ID = 'D' ).
Definition arrayTraits.hpp:15

tlapack::real_type
typename traits::real_type_traits< Types..., int >::type real_type
The common real type of the list of types.
Definition scalar_type_traits.hpp:113

tlapack::conj
constexpr T conj(const T &x) noexcept
Extends std::conj() to real datatypes.
Definition utils.hpp:100

tlapack::abs1
constexpr real_type< T > abs1(const T &x)
1-norm absolute value, |Re(x)| + |Im(x)|
Definition utils.hpp:133

tlapack::FORWARD
constexpr internal::Forward FORWARD
Forward direction.
Definition types.hpp:381

tlapack::GENERAL
constexpr internal::GeneralAccess GENERAL
General access.
Definition types.hpp:180

tlapack::CONJ_TRANS
constexpr internal::ConjTranspose CONJ_TRANS
conjugate transpose
Definition types.hpp:264

tlapack::COLUMNWISE_STORAGE
constexpr internal::ColumnwiseStorage COLUMNWISE_STORAGE
Columnwise storage.
Definition types.hpp:414

tlapack::NO_TRANS
constexpr internal::NoTranspose NO_TRANS
no transpose
Definition types.hpp:260

tlapack::WorkInfo
Output information in the workspace query.
Definition workspace.hpp:16