<div dir="ltr">Great job Frank!<br></div><div class="gmail_extra"><br><div class="gmail_quote">2017-10-05 5:50 GMT+02:00 Frank Bertsch <span dir="ltr"><<a href="mailto:fbertsch@mozilla.com" target="_blank">fbertsch@mozilla.com</a>></span>:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
  

    
  
  <div text="#000000" bgcolor="#FFFFFF">
    <p>All -<br>
    </p>
    <p>After much weeping, wailing, and gnashing of teeth, the
      heavy_users dataset is available. It is one-row per client-day,
      where day is submission_date. A client has a row for a specific
      submission_date if they were active at all in the 28 day window
      ending on that submission_date.</p>
    <h2>How to use it:<br>
    </h2>
    <p>In Spark:
      `spark.read.parquet(<a class="m_-2853076115148502276moz-txt-link-rfc2396E">"s3://<wbr>telemetry-parquet/heavy_users/<wbr>v1"</a>)</p>
    <p>In SQL: "SELECT * FROM heavy_users"</p>
    <p>Below are a few example queries for you to peruse.</p>
    <p><a class="m_-2853076115148502276moz-txt-link-freetext" href="https://sql.telemetry.mozilla.org/queries/47041/source#127382" target="_blank">https://sql.telemetry.mozilla.<wbr>org/queries/47041/source#<wbr>127382</a> - <b>Joined
        with main_summary</b> to get distribution of
      max_concurrent_tab_count for heavy vs. non-heavy users</p>
    <p><a class="m_-2853076115148502276moz-txt-link-freetext" href="https://sql.telemetry.mozilla.org/queries/47044/source#127385" target="_blank">https://sql.telemetry.mozilla.<wbr>org/queries/47044/source#<wbr>127385</a> - <b>Joined
        with longitudinal</b> to get crash rates for heavy vs. non-heavy
      users</p>
    <p>You'll note that it seems that heavy_users use more tabs, but
      crash less. These results probably require more investigation.</p>
    <h2>What is it?</h2>
    <p>A user is a heavy_user as of day N if, for the 28 day period
      ending on day N, the sum of their active_ticks is in the 90th
      percentile (or above) of all clients during that period. For more
      analysis on this, and a discussion of new profiles, see
      <a class="m_-2853076115148502276moz-txt-link-freetext" href="https://metrics.mozilla.com/protected/sguha/heavy/heavycutoffs5.html" target="_blank">https://metrics.mozilla.com/<wbr>protected/sguha/heavy/<wbr>heavycutoffs5.html</a>.</p>
    <p>Please note a few caveats:</p>
    <p>0. Data starts at 20170801. There is technically data in the
      table before this, but heavy_user is NULL for those dates because
      it needed to bootstrap the first 28 day window.<br>
    </p>
    <p>1. Because it is top 10% for each 28 day period, and single
      submission_date has more than 10% of clients be considered
      heavy_users. This is because heavy_users, on average, use Firefox
      on more days than non-heavy users.</p>
    <p>2. Each day has a separate, but related, set of heavy_users.
      Initial investigations show that ~97.5% of heavy_user as of a
      certain day are still considered heavy_users as of the next day.</p><span class="HOEnZb"><font color="#888888">
    <p>-Frank<br>
    </p>
  </font></span></div>

<br>______________________________<wbr>_________________<br>
Fx-data-dev mailing list<br>
<a href="mailto:Fx-data-dev@mozilla.org">Fx-data-dev@mozilla.org</a><br>
<a href="https://mail.mozilla.org/listinfo/fx-data-dev" rel="noreferrer" target="_blank">https://mail.mozilla.org/<wbr>listinfo/fx-data-dev</a><br>
<br></blockquote></div><br></div>