Fix tests

zhilingc · zhilingc · commit 7a7a5b51eb7c · 2020-04-26T17:06:33.000+08:00
diff --git a/core/src/main/java/feast/core/service/StatsService.java b/core/src/main/java/feast/core/service/StatsService.java
@@ -41,6 +41,10 @@
 import java.util.*;
 import java.util.stream.Collectors;
 import lombok.extern.slf4j.Slf4j;
+import org.joda.time.DateTime;
+import org.joda.time.DateTimeZone;
+import org.joda.time.format.DateTimeFormat;
+import org.joda.time.format.DateTimeFormatter;
 import org.springframework.beans.factory.annotation.Autowired;
 import org.springframework.stereotype.Service;
 import org.springframework.transaction.annotation.Transactional;
@@ -130,6 +134,15 @@ public GetFeatureStatisticsResponse getFeatureStatistics(GetFeatureStatisticsReq
         featureNameStatisticsList.add(featureNameStatistics);
         timestamp += 86400; // advance by a day
       }
+      if (featureNameStatisticsList.size() == 0) {
+        DateTimeFormatter fmt = DateTimeFormat.forPattern("yyyy-MM-dd");
+        DateTime startDateTime = new DateTime(startDate.getSeconds() * 1000, DateTimeZone.UTC);
+        DateTime endDateTime = new DateTime(endDate.getSeconds() * 1000, DateTimeZone.UTC);
+        throw new RetrievalException(
+            String.format(
+                "Unable to find any data over provided dates [%s, %s)",
+                fmt.print(startDateTime), fmt.print(endDateTime)));
+      }
     } else {
       // else, retrieve by dataset
       for (String datasetId : request.getDatasetIdsList()) {
@@ -141,6 +154,12 @@ public GetFeatureStatisticsResponse getFeatureStatistics(GetFeatureStatisticsReq
                 datasetId,
                 request.getForceRefresh());
         featureNameStatisticsList.add(featureNameStatistics);
+        if (featureNameStatisticsList.size() == 0) {
+          throw new RetrievalException(
+              String.format(
+                  "Unable to find any data over provided datasets %s",
+                  request.getDatasetIdsList()));
+        }
       }
     }
 
@@ -212,6 +231,9 @@ private List<FeatureNameStatistics> getFeatureNameStatisticsByDataset(
 
       // Persist the newly retrieved statistics in the cache.
       for (FeatureNameStatistics stat : featureSetStatistics.getFeatureNameStatistics()) {
+        if (isEmpty(stat)) {
+          continue;
+        }
         FeatureStatistics featureStatistics =
             FeatureStatistics.createForDataset(
                 featureSetSpec.getProject(),
@@ -224,8 +246,8 @@ private List<FeatureNameStatistics> getFeatureNameStatisticsByDataset(
                 featureStatistics.getFeature(), datasetId);
         existingRecord.ifPresent(statistics -> featureStatistics.setId(statistics.getId()));
         featureStatisticsRepository.save(featureStatistics);
+        featureNameStatistics.add(stat);
       }
-      featureNameStatistics.addAll(featureSetStatistics.getFeatureNameStatistics());
     }
     return featureNameStatistics;
   }
@@ -288,6 +310,9 @@ private List<FeatureNameStatistics> getFeatureNameStatisticsByDate(
 
       // Persist the newly retrieved statistics in the cache.
       for (FeatureNameStatistics stat : featureSetStatistics.getFeatureNameStatistics()) {
+        if (isEmpty(stat)) {
+          continue;
+        }
         FeatureStatistics featureStatistics =
             FeatureStatistics.createForDate(
                 featureSetSpec.getProject(),
@@ -300,8 +325,8 @@ private List<FeatureNameStatistics> getFeatureNameStatisticsByDate(
                 featureStatistics.getFeature(), date);
         existingRecord.ifPresent(statistics -> featureStatistics.setId(statistics.getId()));
         featureStatisticsRepository.save(featureStatistics);
+        featureNameStatistics.add(stat);
       }
-      featureNameStatistics.addAll(featureSetStatistics.getFeatureNameStatistics());
     }
     return featureNameStatistics;
   }
@@ -596,4 +621,32 @@ private void validateRequest(GetFeatureStatisticsRequest request) {
       }
     }
   }
+
+  private boolean isEmpty(FeatureNameStatistics featureNameStatistics) {
+    switch (featureNameStatistics.getType()) {
+      case STRUCT:
+        return featureNameStatistics
+            .getStructStats()
+            .getCommonStats()
+            .equals(CommonStatistics.getDefaultInstance());
+      case STRING:
+        return featureNameStatistics
+            .getStringStats()
+            .getCommonStats()
+            .equals(CommonStatistics.getDefaultInstance());
+      case BYTES:
+        return featureNameStatistics
+            .getBytesStats()
+            .getCommonStats()
+            .equals(CommonStatistics.getDefaultInstance());
+      case FLOAT:
+      case INT:
+        return featureNameStatistics
+            .getNumStats()
+            .getCommonStats()
+            .equals(CommonStatistics.getDefaultInstance());
+      default:
+        return true;
+    }
+  }
 }
diff --git a/storage/connectors/bigquery/src/main/java/feast/storage/connectors/bigquery/statistics/StatsQueryResult.java b/storage/connectors/bigquery/src/main/java/feast/storage/connectors/bigquery/statistics/StatsQueryResult.java
@@ -306,8 +306,8 @@ private NumericStatistics getNumericStatistics(Map<String, FieldValue> valuesMap
                 .setMaxNumValues(1)
                 .setAvgNumValues(1)
                 .setTotNumValues(valuesMap.get("feature_count").getLongValue()))
-        .addHistograms(quantilesBuilder)
         .addHistograms(histBuilder)
+        .addHistograms(quantilesBuilder)
         .build();
   }
 
diff --git a/storage/connectors/bigquery/src/test/java/feast/storage/connectors/bigquery/statistics/StatsQueryResultTest.java b/storage/connectors/bigquery/src/test/java/feast/storage/connectors/bigquery/statistics/StatsQueryResultTest.java
@@ -63,7 +63,7 @@ public class StatsQueryResultTest {
               com.google.cloud.bigquery.Field.of("count", LegacySQLTypeName.INTEGER)));
 
   @Test
-  public void voidShouldConvertNumericStatsToFeatureNameStatistics()
+  public void shouldConvertNumericStatsToFeatureNameStatistics()
       throws InvalidProtocolBufferException {
     FieldValueList numericFieldValueList =
         FieldValueList.of(
@@ -128,7 +128,7 @@ public void voidShouldConvertNumericStatsToFeatureNameStatistics()
             .toFeatureNameStatistics(featureSpec.getValueType());
 
     String expectedJson =
-        "{\"type\":\"FLOAT\",\"numStats\":{\"commonStats\":{\"numNonMissing\":\"20\",\"minNumValues\":\"1\",\"maxNumValues\":\"1\",\"avgNumValues\":1,\"totNumValues\":\"20\"},\"mean\":1,\"stdDev\":6,\"min\":-8.5,\"median\":0.5,\"max\":10.5,\"histograms\":[{\"buckets\":[{\"lowValue\":-8.5,\"highValue\":-7.5,\"sampleCount\":2},{\"lowValue\":-7.5,\"highValue\":-5.5,\"sampleCount\":2},{\"lowValue\":-5.5,\"highValue\":-3.5,\"sampleCount\":2},{\"lowValue\":-3.5,\"highValue\":-1.5,\"sampleCount\":2},{\"lowValue\":-1.5,\"highValue\":0.5,\"sampleCount\":2},{\"lowValue\":0.5,\"highValue\":2.5,\"sampleCount\":2},{\"lowValue\":2.5,\"highValue\":4.5,\"sampleCount\":2},{\"lowValue\":4.5,\"highValue\":6.5,\"sampleCount\":2},{\"lowValue\":6.5,\"highValue\":8.5,\"sampleCount\":2},{\"lowValue\":8.5,\"highValue\":10.5,\"sampleCount\":2}],\"type\":\"QUANTILES\"},{\"buckets\":[{\"lowValue\":1,\"highValue\":2,\"sampleCount\":1},{\"lowValue\":2,\"highValue\":3,\"sampleCount\":2}]}]},\"path\":{\"step\":[\"floats\"]}}";
+        "{\"type\":\"FLOAT\",\"numStats\":{\"commonStats\":{\"numNonMissing\":\"20\",\"minNumValues\":\"1\",\"maxNumValues\":\"1\",\"avgNumValues\":1,\"totNumValues\":\"20\"},\"mean\":1,\"stdDev\":6,\"min\":-8.5,\"median\":0.5,\"max\":10.5,\"histograms\":[{\"buckets\":[{\"lowValue\":1,\"highValue\":2,\"sampleCount\":1},{\"lowValue\":2,\"highValue\":3,\"sampleCount\":2}]},{\"buckets\":[{\"lowValue\":-8.5,\"highValue\":-7.5,\"sampleCount\":2},{\"lowValue\":-7.5,\"highValue\":-5.5,\"sampleCount\":2},{\"lowValue\":-5.5,\"highValue\":-3.5,\"sampleCount\":2},{\"lowValue\":-3.5,\"highValue\":-1.5,\"sampleCount\":2},{\"lowValue\":-1.5,\"highValue\":0.5,\"sampleCount\":2},{\"lowValue\":0.5,\"highValue\":2.5,\"sampleCount\":2},{\"lowValue\":2.5,\"highValue\":4.5,\"sampleCount\":2},{\"lowValue\":4.5,\"highValue\":6.5,\"sampleCount\":2},{\"lowValue\":6.5,\"highValue\":8.5,\"sampleCount\":2},{\"lowValue\":8.5,\"highValue\":10.5,\"sampleCount\":2}],\"type\":\"QUANTILES\"}]},\"path\":{\"step\":[\"floats\"]}}";
     FeatureNameStatistics.Builder expected = FeatureNameStatistics.newBuilder();
     JsonFormat.parser().merge(expectedJson, expected);
     assertThat(actual, equalTo(expected.build()));
diff --git a/tests/e2e/bq/feature-stats.py b/tests/e2e/bq/feature-stats.py
@@ -2,6 +2,8 @@
 import pytest
 import pytz
 import uuid
+import time
+import os
 from datetime import datetime, timedelta
 
 from feast.client import Client
@@ -19,6 +21,7 @@
 
 PROJECT_NAME = "batch_" + uuid.uuid4().hex.upper()[0:6]
 STORE_NAME = "historical"
+os.environ['CUDA_VISIBLE_DEVICES'] = "0"
 
 
 @pytest.fixture(scope="module")
@@ -92,13 +95,22 @@ def feature_stats_dataset_basic(client, feature_stats_feature_set):
     )
 
     expected_stats = tfdv.generate_statistics_from_dataframe(
-        df[["entity_id", "strings", "ints", "floats"]]
+        df[["strings", "ints", "floats"]]
     )
     clear_unsupported_fields(expected_stats)
 
+    # Since TFDV computes population std dev
+    for feature in expected_stats.datasets[0].features:
+        if feature.HasField("num_stats"):
+            name = feature.path.step[0]
+            std = combined_df[name].std()
+            feature.num_stats.std_dev = std
+
+    dataset_id = client.ingest(feature_stats_feature_set, df)
+    time.sleep(10)
     return {
         "df": df,
-        "id": client.ingest(feature_stats_feature_set, df),
+        "id": dataset_id,
         "date": datetime(time_offset.year, time_offset.month, time_offset.day).replace(
             tzinfo=pytz.utc
         ),
@@ -132,17 +144,19 @@ def feature_stats_dataset_agg(client, feature_stats_feature_set):
     )
     dataset_id_2 = client.ingest(feature_stats_feature_set, df2)
 
-    combined_df = pd.concat([df1, df2])[["entity_id", "strings", "ints", "floats"]]
+    combined_df = pd.concat([df1, df2])[["strings", "ints", "floats"]]
     expected_stats = tfdv.generate_statistics_from_dataframe(combined_df)
     clear_unsupported_agg_fields(expected_stats)
 
-    # Temporary until TFDV fixes their std dev computation
+    # Since TFDV computes population std dev
     for feature in expected_stats.datasets[0].features:
         if feature.HasField("num_stats"):
             name = feature.path.step[0]
             std = combined_df[name].std()
             feature.num_stats.std_dev = std
 
+    time.sleep(10)
+
     return {
         "ids": [dataset_id_1, dataset_id_2],
         "start_date": datetime(
@@ -157,7 +171,7 @@ def feature_stats_dataset_agg(client, feature_stats_feature_set):
 
 def test_feature_stats_retrieval_by_single_dataset(client, feature_stats_dataset_basic):
     stats = client.get_statistics(
-        f"{PROJECT_NAME}/feature_validation:1",
+        f"{PROJECT_NAME}/feature_stats:1",
         features=["strings", "ints", "floats"],
         store=STORE_NAME,
         dataset_ids=[feature_stats_dataset_basic["id"]],
@@ -168,7 +182,7 @@ def test_feature_stats_retrieval_by_single_dataset(client, feature_stats_dataset
 
 def test_feature_stats_by_date(client, feature_stats_dataset_basic):
     stats = client.get_statistics(
-        f"{PROJECT_NAME}/feature_validation:1",
+        f"{PROJECT_NAME}/feature_stats:1",
         features=["strings", "ints", "floats"],
         store=STORE_NAME,
         start_date=feature_stats_dataset_basic["date"],
@@ -179,17 +193,17 @@ def test_feature_stats_by_date(client, feature_stats_dataset_basic):
 
 def test_feature_stats_agg_over_datasets(client, feature_stats_dataset_agg):
     stats = client.get_statistics(
-        f"{PROJECT_NAME}/feature_validation:1",
+        f"{PROJECT_NAME}/feature_stats:1",
         features=["strings", "ints", "floats"],
         store=STORE_NAME,
-        dataset_ids=[feature_stats_dataset_basic["ids"]],
+        dataset_ids=feature_stats_dataset_agg["ids"],
     )
-    assert_stats_equal(feature_stats_dataset_basic["stats"], stats)
+    assert_stats_equal(feature_stats_dataset_agg["stats"], stats)
 
 
 def test_feature_stats_agg_over_dates(client, feature_stats_dataset_agg):
     stats = client.get_statistics(
-        f"{PROJECT_NAME}/feature_validation:1",
+        f"{PROJECT_NAME}/feature_stats:1",
         features=["strings", "ints", "floats"],
         store=STORE_NAME,
         start_date=feature_stats_dataset_agg["start_date"],
@@ -213,9 +227,10 @@ def test_feature_stats_force_refresh(
         }
     )
     client.ingest(feature_stats_feature_set, df2)
+    time.sleep(10)
 
     actual_stats = client.get_statistics(
-        f"{PROJECT_NAME}/feature_validation:1",
+        f"{PROJECT_NAME}/feature_stats:1",
         features=["strings", "ints", "floats"],
         store="historical",
         start_date=feature_stats_dataset_basic["date"],
@@ -225,8 +240,16 @@ def test_feature_stats_force_refresh(
 
     combined_df = pd.concat([df, df2])
     expected_stats = tfdv.generate_statistics_from_dataframe(combined_df)
+
     clear_unsupported_fields(expected_stats)
 
+    # Since TFDV computes population std dev
+    for feature in expected_stats.datasets[0].features:
+        if feature.HasField("num_stats"):
+            name = feature.path.step[0]
+            std = combined_df[name].std()
+            feature.num_stats.std_dev = std
+
     assert_stats_equal(expected_stats, actual_stats)
 
 
@@ -235,6 +258,8 @@ def clear_unsupported_fields(datasets):
     for feature in dataset.features:
         if feature.HasField("num_stats"):
             feature.num_stats.common_stats.ClearField("num_values_histogram")
+            for hist in feature.num_stats.histograms:
+                hist.buckets[:] = sorted(hist.buckets, key=lambda k: k["highValue"])
         elif feature.HasField("string_stats"):
             feature.string_stats.common_stats.ClearField("num_values_histogram")
             for bucket in feature.string_stats.rank_histogram.buckets:
@@ -252,16 +277,17 @@ def clear_unsupported_agg_fields(datasets):
         if feature.HasField("num_stats"):
             feature.num_stats.common_stats.ClearField("num_values_histogram")
             feature.num_stats.ClearField("histograms")
+            feature.num_stats.ClearField("median")
         elif feature.HasField("string_stats"):
             feature.string_stats.common_stats.ClearField("num_values_histogram")
-            feature.string_stats.ClearField("histograms")
             feature.string_stats.ClearField("rank_histogram")
             feature.string_stats.ClearField("top_values")
             feature.string_stats.ClearField("unique")
         elif feature.HasField("struct_stats"):
-            feature.string_stats.struct_stats.ClearField("num_values_histogram")
+            feature.struct_stats.ClearField("num_values_histogram")
         elif feature.HasField("bytes_stats"):
-            feature.string_stats.bytes_stats.ClearField("num_values_histogram")
+            feature.bytes_stats.ClearField("num_values_histogram")
+            feature.bytes_stats.ClearField("unique")
 
 
 def assert_stats_equal(left, right):
@@ -273,5 +299,5 @@ def assert_stats_equal(left, right):
 
     left_features = sorted(left_stats["features"], key=lambda k: k["path"]["step"][0])
     right_features = sorted(right_stats["features"], key=lambda k: k["path"]["step"][0])
-    diff = DeepDiff(left_features, right_features)
-    assert len(diff) == 0, f"Statistics do not match: \n{diff}"
+    diff = DeepDiff(left_features, right_features, significant_digits=4)
+    assert len(diff) == 0, f"Feature statistics do not match: \nwanted: {left_features}\n got: {right_features}"
diff --git a/tests/e2e/redis/basic-ingest-redis-serving.py b/tests/e2e/redis/basic-ingest-redis-serving.py
@@ -25,6 +25,7 @@
 
 FLOAT_TOLERANCE = 0.00001
 PROJECT_NAME = "basic_" + uuid.uuid4().hex.upper()[0:6]
+ROOT_PATH = os.path.dirname(os.path.abspath(__file__))
 
 
 @pytest.fixture(scope="module")
@@ -77,7 +78,7 @@ def basic_dataframe():
 @pytest.mark.run(order=10)
 def test_basic_register_feature_set_success(client):
     # Load feature set from file
-    cust_trans_fs_expected = FeatureSet.from_yaml("basic/cust_trans_fs.yaml")
+    cust_trans_fs_expected = FeatureSet.from_yaml(os.path.join(ROOT_PATH, "basic/cust_trans_fs.yaml"))
 
     client.set_project(PROJECT_NAME)
 
@@ -380,7 +381,7 @@ def large_volume_dataframe():
 @pytest.mark.run(order=30)
 def test_large_volume_register_feature_set_success(client):
     cust_trans_fs_expected = FeatureSet.from_yaml(
-        "large_volume/cust_trans_large_fs.yaml"
+        os.path.join(ROOT_PATH,"large_volume/cust_trans_large_fs.yaml")
     )
 
     # Register feature set
@@ -513,7 +514,7 @@ def all_types_parquet_file():
 def test_all_types_parquet_register_feature_set_success(client):
     # Load feature set from file
     all_types_parquet_expected = FeatureSet.from_yaml(
-        "all_types_parquet/all_types_parquet.yaml"
+        os.path.join(ROOT_PATH, "all_types_parquet/all_types_parquet.yaml")
     )
 
     # Register feature set

Original file line number	Diff line number	Diff line change
`@@ -306,8 +306,8 @@ private NumericStatistics getNumericStatistics(Map<String, FieldValue> valuesMap`
`306`	`306`	`.setMaxNumValues(1)`
`307`	`307`	`.setAvgNumValues(1)`
`308`	`308`	`.setTotNumValues(valuesMap.get("feature_count").getLongValue()))`
`309`		`- .addHistograms(quantilesBuilder)`
`310`	`309`	`.addHistograms(histBuilder)`
	`310`	`+ .addHistograms(quantilesBuilder)`
`311`	`311`	`.build();`
`312`	`312`	`}`
`313`	`313`