Lucene中對document的CURD操作:為分布式全文檢索設計
Lucene.net是.net環境中比較強的全文檢索工具,它是從JAVA中轉過來的,.net版本的lucene在功能上也豪不遜色于java版的lucene。今天主要來說一下lucene索引文件在更新時的一些方式。
一、整個索引文件 (cfs文件)覆蓋更新;優點:簡單,缺點:與服務器沒有交互,但在生成索引文件時對IO影響比較大,前臺lucene信息顯示與數據庫不同步。
二、索引文件按需要更新(對document記錄進行curd操作),優點:與數據庫同步,缺點:與服務器交互多,對于curd的安全性要重視起來,但這樣做是必須的。
下面主要說一下第二種索引文件按需要更新的情況:
追加document(記錄):當數據庫表中有insert操作時,這時lucene也應該進行相應的insert操作,這就是追加,在IndexWriter中有AddDocument方法,它沒什么好說的,按著方法簽名轉值即可,注意操作完成后要對IndexWriter進行Optimize和Close
- [WebMethod]
- public int AppendLuceneDocument(string primaryKey, string id, string name, string info, string categoryName, string propertyName, string module, string passKey)
- {
- int flag = 0;
- try
- {
- dirInfo = Directory.CreateDirectory(this.GetIndexPath(ConfigurationManager.AppSettings[module]));
- directory = LuceneIO.FSDirectory.Open(dirInfo);
- IndexWriter writer = new IndexWriter(directory, new StandardAnalyzer(Lucene.Net.Util.Version.LUCENE_29), false, IndexWriter.MaxFieldLength.UNLIMITED);
- Document doc = new Document();
- doc.Add(new Field("PrimaryKey", primaryKey, Field.Store.YES, Field.Index.ANALYZED));
- doc.Add(new Field("ID", id, Field.Store.YES, Field.Index.NO));
- doc.Add(new Field("Name", name, Field.Store.YES, Field.Index.ANALYZED));
- doc.Add(new Field("Info", info, Field.Store.YES, Field.Index.ANALYZED));
- doc.Add(new Field("CategoryName", categoryName, Field.Store.YES, Field.Index.ANALYZED));
- doc.Add(new Field("PropertyName", propertyName, Field.Store.YES, Field.Index.ANALYZED));
- writer.AddDocument(doc);
- writer.Optimize();
- writer.Close();
- flag = 1;
- }
- catch (Exception)
- {
- throw;
- }
- return flag;
- }
刪除記錄(document):這個操作需要我們注意幾點:
1、要刪除的記錄的依據應該具有唯一性,這樣刪除才有意義,并且這個字段在lucene存儲時需要是ANALYZED,即可以被檢索到
2、刪除時的條件***使用Query,而不要使用Term,我做過很多測試,結果證明Term條件總是不要使。
對于刪除的代碼如下:
- [WebMethod]
- public int DeleteLuceneDocument(string primaryKey, string module, string passKey)
- {
- int flag = 0;
- try
- {
- dirInfo = Directory.CreateDirectory(this.GetIndexPath(ConfigurationManager.AppSettings[module]));
- directory = LuceneIO.FSDirectory.Open(dirInfo);
- IndexWriter writer = new IndexWriter(directory, standardAnalyzer, false, IndexWriter.MaxFieldLength.UNLIMITED);
- QueryParser parser = new QueryParser(Lucene.Net.Util.Version.LUCENE_29, "PrimaryKey", new StandardAnalyzer(Lucene.Net.Util.Version.LUCENE_29));
- Query query = parser.Parse(primaryKey);
- writer.DeleteDocuments(query);
- writer.Commit();
- writer.Optimize();
- writer.Close();
- flag = 1;
- }
- catch (Exception)
- {
- throw;
- }
- return flag;
- }
而更新操作事實上就是先把記錄刪除,再追加一條新的記錄即可,而IndexWriter為我們提供的UpdateDocuments感覺更向是在復制一個,所以不建議使用它,
而是手動刪除和追加來完成這個update操作。
- [WebMethod]
- public int UpdateLuceneDocument(string primaryKey, string id, string name, string info, string categoryName, string propertyName, string module, string passKey)
- {
- int flag = 0;
- try
- {
- dirInfo = Directory.CreateDirectory(this.GetIndexPath(ConfigurationManager.AppSettings[module]));
- directory = LuceneIO.FSDirectory.Open(dirInfo);
- IndexWriter writer = new IndexWriter(directory, new StandardAnalyzer(Lucene.Net.Util.Version.LUCENE_29), false, IndexWriter.MaxFieldLength.UNLIMITED);
- Document doc = new Document();
- doc.Add(new Field("PrimaryKey", primaryKey, Field.Store.YES, Field.Index.ANALYZED));
- doc.Add(new Field("ID", id, Field.Store.YES, Field.Index.NO));
- doc.Add(new Field("Name", name, Field.Store.YES, Field.Index.ANALYZED));
- doc.Add(new Field("Info", info, Field.Store.YES, Field.Index.ANALYZED));
- doc.Add(new Field("CategoryName", categoryName, Field.Store.YES, Field.Index.ANALYZED));
- doc.Add(new Field("PropertyName", propertyName, Field.Store.YES, Field.Index.ANALYZED));
- QueryParser parser = new QueryParser(Lucene.Net.Util.Version.LUCENE_29, "PrimaryKey", new StandardAnalyzer(Lucene.Net.Util.Version.LUCENE_29));
- Query query = parser.Parse(primaryKey);
- writer.DeleteDocuments(query);
- writer.Commit();
- writer.AddDocument(doc);
- writer.Optimize();
- writer.Close();
- flag = 1;
- }
- catch (Exception)
- {
- throw;
- }
- return flag;
- }
OK,這就是對索引文件進行按需的操作,以后我會把我的lucene架構整理成文章,供大家討論。
原文鏈接:http://www.cnblogs.com/lori/archive/2012/08/24/2654275.html