メールのタイトルの文字化け
ふと思ったのだが、spam とかで、メールのタイトルが文字化けして表示できないというのは、あれはもともと正しく書いてあるものが、ブラウザの問題で表示されていないのか、それとも、タイトルが最初からおかしいのか、というのが気になった。
本文も読めないのなら分かるのだが、本文は表示されていたりするのが謎。もっとも、文字化けしていてくれた方が、spam フィルタ的にはありがたいのかもしれないが。タイトルで判別する spam フィルタってあるのだろうか?
あるいは、spam フィルタでフリーのもので、ソースが公開されているものってありましたっけ?
| 固定リンク

コメント
メジャーなところで...
http://spamassassin.apache.org/
http://popfile.sourceforge.net/
投稿: nekurai | 2005.07.25 10:41
日本語のメールの場合、subject(と言うかヘッダ)はMIMEエンコードされていて、
Subject: =?ISO-2022-JP?B?GyRCJDMkcyRLJEEkTxsoQgo=
という形になっていて本文は生JISと、エンコードが違います。
なので、その辺の処理がおかしいメールがsubjectだけ文字化けとなるんじゃないでしょうか?
元がEUCだったのをShift-JIS→ISO-2022-JPコンバートしてしまったとか・・・
文字コードの自動検出とかしてる場合、subjectのように短い文字列だと誤検出する場合も少なくないので。
投稿: <セルダン> | 2005.07.25 17:39
spamフィルターですが、私はbsfilterというヤツをメールサーバに仕込んで使っています。
http://bsfilter.org/
これはヘッダと本文は別々に統計を取っていて、ヘッダは更にフィールド別に統計を取っているので、かなり上手く判断してくれます。
投稿: <セルダン> | 2005.07.25 17:45
情報ありがとうございます。
>本文は生JIS
それがその HTML メールとか…
考えてみると、そもそも日本語のメールかどうか怪しいのかもしれない。
投稿: phinloda | 2005.07.26 06:13
HTMLメールであれば、Content-type:のcharsetでキャラクタセットを指定したりするので、そちらは正確に付いてるとか。
いずれにせよ、ヘッダとbody(マルチパートならパートごと)でエンコードの方法、その表し方が違うので、本文は正常なのにヘッダは文字化け(あるいはその逆)というのは、あっても別に不思議ではないカモ
投稿: <セルダン> | 2005.07.26 15:33