]> git.notmuchmail.org Git - notmuch-wiki/blobdiff - howto.mdwn
Changed "OS X" to "macOS"
[notmuch-wiki] / howto.mdwn
index e9d4d81f20740ee6859005cbd73268e01d48478b..a37149dc546aa1f4fee587e41e5a15d7e3164471 100644 (file)
@@ -12,7 +12,7 @@ Notmuch does not fetch mail for you.  For that, you need to use an
 external mail syncing utility.  Some recommended utilities are listed
 below.
 
-Notmuch requires that every individual message be in it's own file.
+Notmuch requires that every individual message be in its own file.
 The well-supported [maildir](http://cr.yp.to/proto/maildir.html) or
 "mh"-style storage formats are compatible with notmuch.  Basically any
 setup in which each mail is in a file of its own will work.  The older
@@ -61,7 +61,7 @@ when you press the keyboard shortcut to send your message.
 
 notmuch has the ability to synchronize maildir flags and respective tags in both
 directions. For more information on maildir flags see the [maildir
-page](http://cr.yp.to/proto/maildir.html) and [Special tags|special-tags], and for the respective tags see your
+page](http://cr.yp.to/proto/maildir.html) and [[Special tags|special-tags]], and for the respective tags see your
 notmuch configuration file. This feature is enabled by default, but if you don't
 need it, it is simple to disable it with the 'notmuch config' command:
 
@@ -145,6 +145,33 @@ in a scenario where you have encrypted your hard disk anyway and are
 comfortable with the security implications (and until notmuch can index
 encrypted email itself).
 
+## <span id="special_tags">**Index and search emails written in CJK scripts**</span>
+
+CJK (Chinese, Japanese and Korean) languages do not use spaces for word
+separation. The full-text indexer (Xapian) must first perform word segmentation
+on the sentence in its TermGenerator. Otherwise, large amount of long terms
+will be included in the database, leading to extremely slow indexing and
+ineffective searching with CJK search terms.
+
+Xapian supports [N-gram](https://xapian.org/docs/sourcedoc/html/classXapian_1_1TermGenerator.html)
+term generator [since 2011](https://u7fa9.org/memo/HEAD/archives/2012-06/2012-06-01.rst)
+to as a simple substitute for word segmentation. It can be turned on by
+setting the environment variable
+
+        $ export XAPIAN_CJK_NGRAM=1
+        $ notmuch new
+
+For existing databases, one can reindex the database (since notmuch 0.26)
+with
+
+        $ export XAPIAN_CJK_NGRAM=1
+        $ notmuch reindex '*'
+
+Xapian has an on-going [pull-request](https://github.com/xapian/xapian/pull/114)
+that adds support for real CJK word-segmentation based on the ICU library.
+When it gets merged, one probably will gets better indexing and searching
+results with this new method.
+
 ## Translations
 
 - A translation of this page into [[Russian|howto-ru]]