-
Notifications
You must be signed in to change notification settings - Fork 3.5k
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
[C++][Parquet] dictinct_count broken (always 0) in column chunk statistics #27644
Comments
David Rauschenbach:
$ parquet-tools inspect tpch/customer_0_0.parquet --detail
...
■■■■■■■■■■■■■■■■ColumnChunk
■■■■■■■■■■■■■■■■■■■■file_offset = 184618
■■■■■■■■■■■■■■■■■■■■meta_data = ColumnMetaData
■■■■■■■■■■■■■■■■■■■■■■■■type = 6
■■■■■■■■■■■■■■■■■■■■■■■■encodings = list
■■■■■■■■■■■■■■■■■■■■■■■■■■■■3
■■■■■■■■■■■■■■■■■■■■■■■■■■■■0
■■■■■■■■■■■■■■■■■■■■■■■■■■■■4
■■■■■■■■■■■■■■■■■■■■■■■■path_in_schema = list
■■■■■■■■■■■■■■■■■■■■■■■■■■■■c_address
■■■■■■■■■■■■■■■■■■■■■■■■num_values = 7500
■■■■■■■■■■■■■■■■■■■■■■■■total_uncompressed_size = 207320
■■■■■■■■■■■■■■■■■■■■■■■■total_compressed_size = 207320
■■■■■■■■■■■■■■■■■■■■■■■■data_page_offset = 184618
■■■■■■■■■■■■■■■■■■■■■■■■statistics = Statistics
■■■■■■■■■■■■■■■■■■■■■■■■■■■■max = b'zyWvi,SGc,tXTls'
■■■■■■■■■■■■■■■■■■■■■■■■■■■■min = b' 5L06W67,Mw8G'
■■■■■■■■■■■■■■■■■■■■■■■■■■■■null_count = 469 |
@mapleFU It seems solved, yes. |
Hi, I've tried this in recent pyarrow (v16.1.0), and I think it is still broken.
Output:
Can you clarify whether it is expected to work? Is there any option to set to enable distinct count calculation? |
@marcin-krystianc This minor fixes the problem that Besides, it's a bit tricky to maintaining the distinct count:
Currently implementation doesn't calc any distinct count here. |
We can tracking on #36505 for the further development |
The
distinct_count
attribute of the column chunk metadata statistics is broken: It always shows 0. This seems to be the case for all types of columns. Checked with int64 as well as dictionary encoded string columns:Output:
Reporter: ARF / @ARF1
Note: This issue was originally created as ARROW-11793. Please see the migration documentation for further details.
The text was updated successfully, but these errors were encountered: