<div dir="ltr"><div dir="ltr"><div>Hi data users,</div><div><br></div><div>We deployed a
 change yesterday that pre-installs the 
spark-hyperloglog [0] Scala package and python bindings on all new ATMO [1] clusters.  HyperLogLog is an efficient algorithm for approximating the count of distinct entries in a large dataset and spark-hyperloglog is the implementation of that algorithm we use in our Spark-based data processing jobs.<br></div><div><br></div><div>You should now be able to run `from pyspark_hyperloglog 
import hll` in your notebooks on any new ATMO cluster 
without having to install additional software. Using the hll function will be much faster than spark's built-in count distinct functionality when working with datasets larger than a few GB. The package is also 
available on Databricks clusters.</div><div><br></div><div>Message us in
 #datapipeline on IRC if you have any questions or notice any unexpected
 changes in behavior on ATMO clusters or jobs.</div><div><br></div>Bug tracking this work: <a href="https://bugzilla.mozilla.org/show_bug.cgi?id=1466936" target="_blank">https://bugzilla.mozilla.org/show_bug.cgi?id=1466936</a></div><div><br></div><div>[0] <a href="https://github.com/mozilla/spark-hyperloglog">https://github.com/mozilla/spark-hyperloglog</a><br></div><div>[1] <a href="https://analysis.telemetry.mozilla.org/">https://analysis.telemetry.mozilla.org/</a></div><div><br></div></div>