Lucene中對document的CURD操作:為分布式全文檢索設計

作者：張占嶺 2012-08-30 10:20:55

Lucene.net是.net環境中比較強的全文檢索工具，它是從ＪＡＶＡ中轉過來的，.net版本的lucene在功能上也豪不遜色于java版的lucene。今天主要來說一下lucene索引文件在更新時的一些方式。

一、整個索引文件　（cfs文件）覆蓋更新；優點：簡單，缺點：與服務器沒有交互，但在生成索引文件時對ＩＯ影響比較大，前臺lucene信息顯示與數據庫不同步。

二、索引文件按需要更新（對document記錄進行curd操作），優點：與數據庫同步，缺點：與服務器交互多，對于curd的安全性要重視起來，但這樣做是必須的。

下面主要說一下第二種索引文件按需要更新的情況：

追加document（記錄）：當數據庫表中有insert操作時，這時lucene也應該進行相應的insert操作，這就是追加，在IndexWriter中有AddDocument方法，它沒什么好說的，按著方法簽名轉值即可，注意操作完成后要對IndexWriter進行Optimize和Close

[WebMethod]  
         public int AppendLuceneDocument(string primaryKey, string id, string name, string info, string categoryName, string propertyName, string module, string passKey)  
         {  
             int flag = 0;  
             try 
             {  
                 dirInfo = Directory.CreateDirectory(this.GetIndexPath(ConfigurationManager.AppSettings[module]));  
                 directory = LuceneIO.FSDirectory.Open(dirInfo);  
                 IndexWriter writer = new IndexWriter(directory, new StandardAnalyzer(Lucene.Net.Util.Version.LUCENE_29), false, IndexWriter.MaxFieldLength.UNLIMITED);  
                 Document doc = new Document();  
                 doc.Add(new Field("PrimaryKey", primaryKey, Field.Store.YES, Field.Index.ANALYZED));  
                 doc.Add(new Field("ID", id, Field.Store.YES, Field.Index.NO));  
                 doc.Add(new Field("Name", name, Field.Store.YES, Field.Index.ANALYZED));  
                 doc.Add(new Field("Info", info, Field.Store.YES, Field.Index.ANALYZED));  
                 doc.Add(new Field("CategoryName", categoryName, Field.Store.YES, Field.Index.ANALYZED));  
                 doc.Add(new Field("PropertyName", propertyName, Field.Store.YES, Field.Index.ANALYZED));  
                 writer.AddDocument(doc);  
                 writer.Optimize();  
                 writer.Close();  
                 flag = 1;  
             }  
             catch (Exception)  
             {  
   
                 throw;  
             }  
             return flag;  
         }

刪除記錄（document)：這個操作需要我們注意幾點：

１、要刪除的記錄的依據應該具有唯一性，這樣刪除才有意義，并且這個字段在lucene存儲時需要是ANALYZED，即可以被檢索到

２、刪除時的條件***使用Query，而不要使用Term，我做過很多測試，結果證明Term條件總是不要使。

對于刪除的代碼如下：

[WebMethod]  
         public int DeleteLuceneDocument(string primaryKey, string module, string passKey)  
         {  
             int flag = 0;  
             try 
             {  
                 dirInfo = Directory.CreateDirectory(this.GetIndexPath(ConfigurationManager.AppSettings[module]));  
                 directory = LuceneIO.FSDirectory.Open(dirInfo);  
                 IndexWriter writer = new IndexWriter(directory, standardAnalyzer, false, IndexWriter.MaxFieldLength.UNLIMITED);  
                 QueryParser parser = new QueryParser(Lucene.Net.Util.Version.LUCENE_29, "PrimaryKey", new StandardAnalyzer(Lucene.Net.Util.Version.LUCENE_29));  
                 Query query = parser.Parse(primaryKey);  
                 writer.DeleteDocuments(query);  
                 writer.Commit();  
                 writer.Optimize();  
                 writer.Close();  
                 flag = 1;  
             }  
             catch (Exception)  
             {  
   
                 throw;  
             }  
             return flag;  
         }

而更新操作事實上就是先把記錄刪除，再追加一條新的記錄即可，而IndexWriter為我們提供的UpdateDocuments感覺更向是在復制一個，所以不建議使用它，

而是手動刪除和追加來完成這個update操作。

[WebMethod]  
         public int UpdateLuceneDocument(string primaryKey, string id, string name, string info, string categoryName, string propertyName, string module, string passKey)  
         {  
             int flag = 0;  
             try 
             {  
                 dirInfo = Directory.CreateDirectory(this.GetIndexPath(ConfigurationManager.AppSettings[module]));  
                 directory = LuceneIO.FSDirectory.Open(dirInfo);  
                 IndexWriter writer = new IndexWriter(directory, new StandardAnalyzer(Lucene.Net.Util.Version.LUCENE_29), false, IndexWriter.MaxFieldLength.UNLIMITED);  
                 Document doc = new Document();  
                 doc.Add(new Field("PrimaryKey", primaryKey, Field.Store.YES, Field.Index.ANALYZED));  
                 doc.Add(new Field("ID", id, Field.Store.YES, Field.Index.NO));  
                 doc.Add(new Field("Name", name, Field.Store.YES, Field.Index.ANALYZED));  
                 doc.Add(new Field("Info", info, Field.Store.YES, Field.Index.ANALYZED));  
                 doc.Add(new Field("CategoryName", categoryName, Field.Store.YES, Field.Index.ANALYZED));  
                 doc.Add(new Field("PropertyName", propertyName, Field.Store.YES, Field.Index.ANALYZED));  
                 QueryParser parser = new QueryParser(Lucene.Net.Util.Version.LUCENE_29, "PrimaryKey", new StandardAnalyzer(Lucene.Net.Util.Version.LUCENE_29));  
                 Query query = parser.Parse(primaryKey);  
                 writer.DeleteDocuments(query);  
                 writer.Commit();  
                 writer.AddDocument(doc);  
                 writer.Optimize();  
                 writer.Close();  
                 flag = 1;  
             }  
             catch (Exception)  
             {  
   
                 throw;  
             }  
   
             return flag;  
         }

ＯＫ，這就是對索引文件進行按需的操作，以后我會把我的lucene架構整理成文章，供大家討論。

原文鏈接：http://www.cnblogs.com/lori/archive/2012/08/24/2654275.html

責任編輯：林師授來源：博客園

Lucene 分布式全文檢索

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Lucene中對document的CURD操作:為分布式全文檢索設計