VowpalWabbit · zwd-ms · Dec 12, 2022 · Nov 24, 2022 · Nov 24, 2022 · Dec 2, 2022
diff --git a/.gitmodules b/.gitmodules
@@ -19,3 +19,6 @@
 [submodule "ext_libs/vcpkg"]
 	path = ext_libs/vcpkg
 	url = ../../microsoft/vcpkg.git
+[submodule "ext_libs/sse2neon"]
+	path = ext_libs/sse2neon
+	url = https://github.com/DLTcollab/sse2neon
diff --git a/cmake/VWFlags.cmake b/cmake/VWFlags.cmake
@@ -18,9 +18,14 @@ if("${CMAKE_SYSTEM_PROCESSOR}" STREQUAL "x86_64")
   endif()
 endif()
 
+set(LINUX_ARM64_OPT_FLAGS "")
+if("${CMAKE_SYSTEM_PROCESSOR}" MATCHES "aarch64|arm64|ARM64")
+  set(LINUX_ARM64_OPT_FLAGS -mcpu=neoverse-n1)
+endif()
+
 # Add -ffast-math for speed, remove for testability.
 # no-stack-check is added to mitigate stack alignment issue on Catalina where there is a bug with aligning stack-check instructions, and stack-check became default option
-set(LINUX_RELEASE_CONFIG -fno-strict-aliasing ${LINUX_X86_64_OPT_FLAGS} -fno-stack-check -fomit-frame-pointer)
+set(LINUX_RELEASE_CONFIG -fno-strict-aliasing ${LINUX_X86_64_OPT_FLAGS} ${LINUX_ARM64_OPT_FLAGS} -fno-stack-check -fomit-frame-pointer)
 set(LINUX_DEBUG_CONFIG -fno-stack-check)
 
 #Use default visiblity on UNIX otherwise a lot of the C++ symbols end up for exported and interpose'able

diff --git a/ext_libs/sse2neon b/ext_libs/sse2neon
diff --git a/vowpalwabbit/core/src/reductions/lda_core.cc b/vowpalwabbit/core/src/reductions/lda_core.cc
@@ -32,6 +32,10 @@ VW_WARNING_STATE_POP
 #include "vw/core/vw_versions.h"
 #include "vw/io/logger.h"
 
+#if defined(__ARM_NEON)
+#include <sse2neon/sse2neon.h>
 target_include_directories(vw_core PRIVATE ${CMAKE_CURRENT_LIST_DIR}/src) 
 target_include_directories(vw_core PRIVATE ${CMAKE_CURRENT_LIST_DIR}/src) 
+#endif
+
 #include <algorithm>
 #include <cassert>
 #include <cmath>
@@ -164,7 +168,7 @@ inline float fastdigamma(float x)
 
 #if !defined(VW_NO_INLINE_SIMD)
 
-#  if defined(__SSE2__) || defined(__SSE3__) || defined(__SSE4_1__)
+#  if defined(__SSE2__) || defined(__SSE3__) || defined(__SSE4_1__) || defined(__ARM_NEON)
 
 namespace
 {
@@ -186,6 +190,13 @@ inline bool is_aligned16(void* ptr)
 #      include <smmintrin.h>
 #    endif
 
+// Transport SSE intrinsics through sse2neon on ARM:
+#if defined(__ARM_NEON)
+#define __SSE2__ 1
+#define __SSE3__ 1
+#define __SSE4_1__ 1
+#endif
+
 #    define HAVE_SIMD_MATHMODE
 
 typedef __m128 v4sf;