<div dir="ltr"><div>I don't think we need to worry about this too much; my plan is to do this only for Gmail, which as far as I know de-duplicates on the server side, so we should match that behavior. Otherwise, we're storing multiple copies of messages that really *are* exact duplicates.<br>
<br></div>- Jim<br><div><div><div class="gmail_extra"><br><div class="gmail_quote">On Fri, Feb 21, 2014 at 11:43 AM, Andrew J. Buehler <span dir="ltr"><<a href="mailto:wanderer@fastmail.fm" target="_blank">wanderer@fastmail.fm</a>></span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div class="">-----BEGIN PGP SIGNED MESSAGE-----<br>
Hash: SHA512<br>
<br>
</div><div class="">On 02/20/2014 07:31 AM, Tanstaafl wrote:<br>
<br>
> On 2014-02-19 7:45 AM, Andrew J. Buehler <<a href="mailto:wanderer@fastmail.fm">wanderer@fastmail.fm</a>><br>
> wrote:<br>
<br>
</div><div class="">>> This is especially - or, at least, primarily - because last time I<br>
>> checked, they don't consider e.g. "the Sent-folder copy of a<br>
>> message I sent to a mailing list" and "the copy of the same message<br>
>> which I received from the mailing list, which has been modified by<br>
>> the mailing list software" to be different messages, even though<br>
>> their contents (e.g. list footers and message header information)<br>
>> are different.<br>
><br>
> I don't see *any* reason to *ever* keep more than one *physical* copy<br>
> of any given message on the same mailstore, I absolutely agree with<br>
> you on the way GMail treats Sent messages. They are *not*, in fact,<br>
> the same message, so should *not* be de-duped like google does now.<br>
><br>
> But other than that, I really like it's de-duplication feature.<br>
<br>
</div>It's not just Sent messages, though.<br>
<br>
Say I post a message to a mailing list, and someone replies both to the<br>
list and directly to me.<br>
<br>
The copy of the reply which I receive through the list has been modified<br>
by the list software. The copy which I receive directly has not. They<br>
are not identical, and I want both versions - or at least to be able to<br>
decide for myself which, if either, to delete.<br>
<br>
Other scenarios are possible as well, where there will be multiple<br>
similar-but-different copies of a given message, with the same<br>
Message-ID; such messages are distinct, and should be treated as such.<br>
Reliably distinguishing between them for deduplication purposes, without<br>
having to essentially cmp every new message against every existing<br>
message (which seems likely to kill performance), would be - at best - a<br>
considerable challenge. The obvious approach would be to use a hash of<br>
the message, but that leaves open the potential for collisions.<br>
<br>
<br>
I'm having a hard time thinking of any example of a scenario where there<br>
would be multiple identical copies of a message in a given account,<br>
except where the user explicitly and/or actively copied the message into<br>
a second location - which I would expect to be rare.<br>
<br>
Deduplication in that case would be fine, I should think, but not pretty<br>
much any other. (And even that case has issues. What if the message has<br>
an attachment, and then the user chooses "remove attachment" on one<br>
copy? Should the attachment be removed from the other copy as well, or<br>
should the deduplication disappear?)<br>
<br>
I like the idea of deduplication within an account in theory, but in<br>
practice, I'm not sure the challenges don't far outweigh the advantages.<br>
<div class=""><br>
- --<br>
  Andrew J. Buehler<br>
-----BEGIN PGP SIGNATURE-----<br>
Version: GnuPG v1<br>
Comment: Using GnuPG with Mozilla - <a href="http://enigmail.mozdev.org/" target="_blank">http://enigmail.mozdev.org/</a><br>
<br>
</div>iQIcBAEBCgAGBQJTB5BJAAoJEASpNY00KDJr/JEQAIocr18RpnVIUDKoIJgXg1U5<br>
bSHBUxdCTTxv5RP+J4k6E8y5RlHBEDJDHW6Aj38ACNbyd2he16uZsd/amnt12auC<br>
hA3iBj1qeFD1UKrcYMPs5b2d/+dbMJU0Bc2i93Cfr4wr0ZbssmB9HbwdkangJMkf<br>
wgR2mb/MPH11r834EQyauqSeZfcHFdrLkt0wgaGKsZeUj6Jme1IFxV3PIzSsLHkR<br>
aDQlfF0YwhIfzu9tI1ghOnyxEzeuRzyOcgjg/1AZhUma44WjpFEfWbLWo4zp57yA<br>
3lUhGlEVYKmdfoRQxF4pBh6BMsRHho/9TCj8MVl/kv8qf/cEdKmV4Ze+/oHpjTas<br>
YhMWtwpymjXKDb+vHwnSTi2+jZbvFQJa6ggFFkHx6UVKNJuQZF0s+76VZN5BY61o<br>
FpXyqxpWF6U5nP8d0yfLhoSODGqFC24ZJ37u9w/E7VEJEomT33pj2t3KkuBcsjKN<br>
R78TyPRwrO/V+58cPc0GX73ablnhLN7Kw6S0ubYPk4wZq3HtOWJkloBLu1cbtfb9<br>
aUW87mA+LWUsRBiMjsBf4nN/4RF4zgaeN/wIPLN7g9CQIWnRmk+/NeUe/ucrf/Uv<br>
AZKavVUX3dwgRxv6iT68mlEGMvz/X3dQHi3eZNXyMFwkJsugHJquZgRDPzImEKuo<br>
S+t4an8OpN/73K08uSoe<br>
=0OrN<br>
-----END PGP SIGNATURE-----<br>
<div class="HOEnZb"><div class="h5">_______________________________________________<br>
tb-planning mailing list<br>
<a href="mailto:tb-planning@mozilla.org">tb-planning@mozilla.org</a><br>
<a href="https://mail.mozilla.org/listinfo/tb-planning" target="_blank">https://mail.mozilla.org/listinfo/tb-planning</a><br>
</div></div></blockquote></div><br></div></div></div></div>