Optimize `merge` algorithm for largest data sizes #1933

SergeyKopienko · 2024-11-06T16:10:01Z

In this PR we optimize merge algorithm for data sizes equal or greater then 8M items (16M items for int type).

The main idea - we doing two submits:

in the first submit we find split point in some "base" diagonal's subset.
in the second submit we find split points in all other diagonal and run serial merge for each diagonal (as before).
But when we find split point on the current diagonal, we setup some indexes limits for rng1 and rng2: by this way we decrease the amount of reading data from source data ranges. For these limits we load split point's data from previous and next "base" diagonals, calculated on the step (1).

Applying this approach we have good perf profit for biggest data sizes with float and int data types.

Details:

Probably I should explain why I have create

struct __result_and_scratch_storage_base
{
    virtual ~__result_and_scratch_storage_base() = default;
};

and why I inherit __result_and_scratch_storage from __result_and_scratch_storage_base :

template <typename _ExecutionPolicy, typename _T>
struct __result_and_scratch_storage : __result_and_scratch_storage_base
{
    // ...
};

Let me explain the reason.
In the __parallel_merge(oneapi::dpl::__internal::__device_backend_tag, ...) function we checks in run-time some conditions to make decision which submitter we will call:

__parallel_merge_submitter<std::uint32_t, ...>
__parallel_merge_submitter_large<std::uint32_t, ...>
__parallel_merge_submitter_large<std::uint64_t, ...>

In the cases (2) and (3) we should extend the life-time of different __result_and_scratch_storage instances which were created inside __result_and_scratch_storage<std::uint32_t>::operator() or __result_and_scratch_storage<std::uint64_t>::operator():

in the case (1) we will not have any __result_and_scratch_storage;
in the case (2) we will have __result_and_scratch_storage<std::uint32_t>;
in the case (3) we will have __result_and_scratch_storage<std::uint64_t>.

So the std::shared_ptr<__result_and_scratch_storage_base> is some common interface for the both of them which can extend their life-time.

About virtual ~__result_and_scratch_storage_base() = default - it's needed to properly destroy instances of inherited classes, which are really owned by shared-pointer instance in the cases (2) and (3). Without virtual here we will have memory-leaks.

include/oneapi/dpl/pstl/hetero/dpcpp/parallel_backend_sycl_merge.h

…introduce new function __find_start_point_in Signed-off-by: Sergey Kopienko <sergey.kopienko@intel.com>

…introduce __parallel_merge_submitter_large for merge of biggest data sizes Signed-off-by: Sergey Kopienko <sergey.kopienko@intel.com>

…using __parallel_merge_submitter_large for merge data equal or greater then 4M items Signed-off-by: Sergey Kopienko <sergey.kopienko@intel.com>

Signed-off-by: Sergey Kopienko <sergey.kopienko@intel.com>

…fix compile error Signed-off-by: Sergey Kopienko <sergey.kopienko@intel.com>

…fix Kernel names Signed-off-by: Sergey Kopienko <sergey.kopienko@intel.com>

…rename template parameter names in __parallel_merge_submitter Signed-off-by: Sergey Kopienko <sergey.kopienko@intel.com>

Signed-off-by: Sergey Kopienko <sergey.kopienko@intel.com>

…fix review comment Signed-off-by: Sergey Kopienko <sergey.kopienko@intel.com>

…introduce __starting_size_limit_for_large_submitter into __parallel_merge Signed-off-by: Sergey Kopienko <sergey.kopienko@intel.com>

…fix warning: warning C4804: '<': unsafe use of type 'bool' in operation Signed-off-by: Sergey Kopienko <sergey.kopienko@intel.com>

…remove extra comments before __find_start_point_in function Signed-off-by: Sergey Kopienko <sergey.kopienko@intel.com>

SergeyKopienko · 2024-12-20T09:55:37Z

Other than the comment about __find_start_point, I think this is in good shape and I have no other comments. Hopefully we can find resolution there, and without loss of performance.

I have fixed two moments in the __find_start_point_in function and delete __find_start_point and it's usages at all.
My checks shown me that there is no performance degradation at this step. only profit.

So I propose to save __find_start_point_in only like in mt last commit.

May be make sense only one question here: do we prefer to rename __find_start_point_in to __find_start_point or save as is?

Signed-off-by: Sergey Kopienko <sergey.kopienko@intel.com>

…fix self-review comment: we should describe lambda here as mutable 1) for compatibility with previous implementation 2) because at https://en.cppreference.com/w/cpp/algorithm/merge (for example) we see that bool cmp(const Type1& a, const Type2& b); isn't const Signed-off-by: Sergey Kopienko <sergey.kopienko@intel.com>

Signed-off-by: Sergey Kopienko <sergey.kopienko@intel.com>

include/oneapi/dpl/pstl/hetero/dpcpp/parallel_backend_sycl_merge.h

Signed-off-by: Sergey Kopienko <sergey.kopienko@intel.com>

include/oneapi/dpl/pstl/hetero/dpcpp/parallel_backend_sycl_merge.h

…fix review comment: constexpr bool kValue = false; has been removed Signed-off-by: Sergey Kopienko <sergey.kopienko@intel.com>

mmichel11

LGTM. Great optimization work! Please wait for the final reviews from others as well.

danhoeflinger

LGTM.
I think it worked out nicely.
As mentioned by @mmichel11, I still think there are couple places we have room for more optimization with more effort but this is a big step in the right direction.

Thanks @SergeyKopienko !

MikeDvorskiy · 2024-12-20T15:42:40Z

include/oneapi/dpl/pstl/hetero/dpcpp/parallel_backend_sycl_merge.h

+                                      : (__i_elem < __n ? __find_start_point(__rng1, _IdType{0}, __n1, __rng2,
+                                                                             _IdType{0}, __n2, __i_elem, __comp)
+                                                        : _split_point_t<_IdType>{__n1, __n2});
+                });


? : operator is used instead of if.. else in my proposal. It is by performance reasons? I've just interesting in...
(if.. else was more readable, IMHO)

The implementation of __serial_merge on ternary operator gave us good profit. So I hope some small profit we may have in this place too. But I am not ready to prepare any precision data about this.

MikeDvorskiy

LGTM

SergeyKopienko requested review from dmitriy-sobolev, danhoeflinger, mmichel11 and MikeDvorskiy November 6, 2024 16:10

SergeyKopienko added this to the 2022.8.0 milestone Nov 6, 2024

SergeyKopienko force-pushed the dev/skopienko/optimize_merge_to_main branch 5 times, most recently from a6164fd to d4721ca Compare November 7, 2024 12:24

SergeyKopienko commented Nov 7, 2024

View reviewed changes

include/oneapi/dpl/pstl/hetero/dpcpp/parallel_backend_sycl_merge.h Outdated Show resolved Hide resolved

SergeyKopienko commented Nov 8, 2024

View reviewed changes

include/oneapi/dpl/pstl/hetero/dpcpp/parallel_backend_sycl_merge.h Outdated Show resolved Hide resolved

danhoeflinger reviewed Nov 8, 2024

View reviewed changes

include/oneapi/dpl/pstl/hetero/dpcpp/parallel_backend_sycl_merge.h Outdated Show resolved Hide resolved

mmichel11 reviewed Nov 13, 2024

View reviewed changes

include/oneapi/dpl/pstl/hetero/dpcpp/parallel_backend_sycl_merge.h Outdated Show resolved Hide resolved

SergeyKopienko force-pushed the dev/skopienko/optimize_merge_to_main branch 2 times, most recently from d8366c3 to 58eacbf Compare November 18, 2024 15:23

SergeyKopienko mentioned this pull request Nov 18, 2024

Optimize merge algorithm for data sizes equal or greater then 4M items with SLM cache usage #1937

Closed

SergeyKopienko force-pushed the dev/skopienko/optimize_merge_to_main branch from 8f756f0 to 1b6cd34 Compare November 19, 2024 08:24

SergeyKopienko added 10 commits November 28, 2024 14:42

include/oneapi/dpl/pstl/hetero/dpcpp/parallel_backend_sycl_merge.h - …

4a55877

…introduce new function __find_start_point_in Signed-off-by: Sergey Kopienko <sergey.kopienko@intel.com>

include/oneapi/dpl/pstl/hetero/dpcpp/parallel_backend_sycl_merge.h - …

6553c46

…introduce __parallel_merge_submitter_large for merge of biggest data sizes Signed-off-by: Sergey Kopienko <sergey.kopienko@intel.com>

include/oneapi/dpl/pstl/hetero/dpcpp/parallel_backend_sycl_merge.h - …

6443f2e

…using __parallel_merge_submitter_large for merge data equal or greater then 4M items Signed-off-by: Sergey Kopienko <sergey.kopienko@intel.com>

Apply GitHUB clang format

4c3422b

Signed-off-by: Sergey Kopienko <sergey.kopienko@intel.com>

include/oneapi/dpl/pstl/hetero/dpcpp/parallel_backend_sycl_merge.h - …

afca75a

…fix compile error Signed-off-by: Sergey Kopienko <sergey.kopienko@intel.com>

include/oneapi/dpl/pstl/hetero/dpcpp/parallel_backend_sycl_merge.h - …

3d3fb7d

…fix Kernel names Signed-off-by: Sergey Kopienko <sergey.kopienko@intel.com>

include/oneapi/dpl/pstl/hetero/dpcpp/parallel_backend_sycl_merge.h - …

80cfc42

…rename template parameter names in __parallel_merge_submitter Signed-off-by: Sergey Kopienko <sergey.kopienko@intel.com>

Apply GitHUB clang format

d9377f3

Signed-off-by: Sergey Kopienko <sergey.kopienko@intel.com>

include/oneapi/dpl/pstl/hetero/dpcpp/parallel_backend_sycl_merge.h - …

c5923eb

…fix review comment Signed-off-by: Sergey Kopienko <sergey.kopienko@intel.com>

include/oneapi/dpl/pstl/hetero/dpcpp/parallel_backend_sycl_merge.h - …

400f695

…fix review comment Signed-off-by: Sergey Kopienko <sergey.kopienko@intel.com>

SergeyKopienko force-pushed the dev/skopienko/optimize_merge_to_main branch from eebf508 to 400f695 Compare November 28, 2024 13:43

include/oneapi/dpl/pstl/hetero/dpcpp/parallel_backend_sycl_merge.h - …

8994a67

…introduce __starting_size_limit_for_large_submitter into __parallel_merge Signed-off-by: Sergey Kopienko <sergey.kopienko@intel.com>

SergeyKopienko added 2 commits December 20, 2024 10:15

include/oneapi/dpl/pstl/hetero/dpcpp/parallel_backend_sycl_merge.h - …

52cec85

…fix warning: warning C4804: '<': unsafe use of type 'bool' in operation Signed-off-by: Sergey Kopienko <sergey.kopienko@intel.com>

include/oneapi/dpl/pstl/hetero/dpcpp/parallel_backend_sycl_merge.h - …

6f5ec48

…remove extra comments before __find_start_point_in function Signed-off-by: Sergey Kopienko <sergey.kopienko@intel.com>

SergeyKopienko force-pushed the dev/skopienko/optimize_merge_to_main branch 2 times, most recently from 8465a4b to 2f9a357 Compare December 20, 2024 09:28

SergeyKopienko requested a review from danhoeflinger December 20, 2024 09:53

Remove __find_start_point implementation and usage

6dd8e51

Signed-off-by: Sergey Kopienko <sergey.kopienko@intel.com>

SergeyKopienko force-pushed the dev/skopienko/optimize_merge_to_main branch from 2f9a357 to 6dd8e51 Compare December 20, 2024 10:47

SergeyKopienko added 3 commits December 20, 2024 12:54

Rename __find_start_point_in to __find_start_point

63797c8

Signed-off-by: Sergey Kopienko <sergey.kopienko@intel.com>

Final remove of extra changes

e55ee66

Signed-off-by: Sergey Kopienko <sergey.kopienko@intel.com>

SergeyKopienko commented Dec 20, 2024

View reviewed changes

include/oneapi/dpl/pstl/hetero/dpcpp/parallel_backend_sycl_merge.h Outdated Show resolved Hide resolved

SergeyKopienko commented Dec 20, 2024

View reviewed changes

include/oneapi/dpl/pstl/hetero/dpcpp/parallel_backend_sycl_merge.h Outdated Show resolved Hide resolved

SergeyKopienko commented Dec 20, 2024

View reviewed changes

include/oneapi/dpl/pstl/hetero/dpcpp/parallel_backend_sycl_merge.h Outdated Show resolved Hide resolved

SergeyKopienko commented Dec 20, 2024

View reviewed changes

include/oneapi/dpl/pstl/hetero/dpcpp/parallel_backend_sycl_merge.h Show resolved Hide resolved

SergeyKopienko force-pushed the dev/skopienko/optimize_merge_to_main branch from 1bae441 to e55ee66 Compare December 20, 2024 12:39

SergeyKopienko added 2 commits December 20, 2024 13:40

Final remove of extra changes

3f67f94

Signed-off-by: Sergey Kopienko <sergey.kopienko@intel.com>

Apply GitHUB clang format

297b644

Signed-off-by: Sergey Kopienko <sergey.kopienko@intel.com>

SergeyKopienko commented Dec 20, 2024

View reviewed changes

include/oneapi/dpl/pstl/hetero/dpcpp/parallel_backend_sycl_merge.h Show resolved Hide resolved

SergeyKopienko commented Dec 20, 2024

View reviewed changes

include/oneapi/dpl/pstl/hetero/dpcpp/parallel_backend_sycl_merge.h Show resolved Hide resolved

danhoeflinger reviewed Dec 20, 2024

View reviewed changes

include/oneapi/dpl/pstl/hetero/dpcpp/parallel_backend_sycl_merge.h Outdated Show resolved Hide resolved

include/oneapi/dpl/pstl/hetero/dpcpp/parallel_backend_sycl_merge.h - …

0ec717d

…fix review comment: constexpr bool kValue = false; has been removed Signed-off-by: Sergey Kopienko <sergey.kopienko@intel.com>

SergeyKopienko requested a review from danhoeflinger December 20, 2024 14:49

mmichel11 approved these changes Dec 20, 2024

View reviewed changes

danhoeflinger approved these changes Dec 20, 2024

View reviewed changes

MikeDvorskiy reviewed Dec 20, 2024

View reviewed changes

SergeyKopienko requested a review from MikeDvorskiy December 20, 2024 15:50

MikeDvorskiy approved these changes Dec 20, 2024

View reviewed changes

SergeyKopienko merged commit f6d9ea3 into main Dec 20, 2024
22 checks passed

SergeyKopienko deleted the dev/skopienko/optimize_merge_to_main branch December 20, 2024 15:57

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Optimize `merge` algorithm for largest data sizes #1933

Optimize `merge` algorithm for largest data sizes #1933

SergeyKopienko commented Nov 6, 2024 •

edited

Loading

SergeyKopienko commented Dec 20, 2024 •

edited

Loading

mmichel11 left a comment

danhoeflinger left a comment

MikeDvorskiy Dec 20, 2024 •

edited

Loading

SergeyKopienko Dec 20, 2024

MikeDvorskiy Dec 20, 2024

MikeDvorskiy left a comment

Optimize merge algorithm for largest data sizes #1933

Optimize merge algorithm for largest data sizes #1933

Conversation

SergeyKopienko commented Nov 6, 2024 • edited Loading

Details:

SergeyKopienko commented Dec 20, 2024 • edited Loading

mmichel11 left a comment

Choose a reason for hiding this comment

danhoeflinger left a comment

Choose a reason for hiding this comment

MikeDvorskiy Dec 20, 2024 • edited Loading

Choose a reason for hiding this comment

SergeyKopienko Dec 20, 2024

Choose a reason for hiding this comment

MikeDvorskiy Dec 20, 2024

Choose a reason for hiding this comment

MikeDvorskiy left a comment

Choose a reason for hiding this comment

Optimize `merge` algorithm for largest data sizes #1933

Optimize `merge` algorithm for largest data sizes #1933

SergeyKopienko commented Nov 6, 2024 •

edited

Loading

SergeyKopienko commented Dec 20, 2024 •

edited

Loading

MikeDvorskiy Dec 20, 2024 •

edited

Loading