# **************************************************** # Name des Moduls: mod_DocumentProcessor # Name des Projekts: TaxoSearch # # Autor(en): # Thorsten Beinhorn, Vesna Cvoro, # Khaled Dhaoui und Christian Pretzsch # # Aufgaben des Moduls: siehe Code Dokumentation TaxoSearch # # # Datum der letzten Aenderung: 26.11.2003 # **************************************************** import sys,string,re,time import MontyTagger import threading import urllib import time # **************************************************** # Name des Moduls: mod_DocumentProcessor # Name des Projekts: TaxoSearch # # Autor(en): # Thorsten Beinhorn, Vesna Cvoro, # Khaled Dhaoui und Christian Pretzsch # # Aufgaben des Moduls: siehe Code Dokumentation TaxoSearch # # # Datum der letzten Aenderung: 26.11.2003 # **************************************************** from mod_DocumentObjects import * from wntools import * from types import * #Begin of class DocumentProcessor class DocumentProcessor: def __init__(self, DocumentCollection, lstQuery): self.MAX_THREADS=5 self.numThreads=0 self.lstThreadList=[] self.queue=[] self.DocumentCollection=DocumentCollection self.Tagger=MontyTagger.MontyTagger() self.lstQuery=lstQuery def run(self): self.queue=self.CreateQueue(self.DocumentCollection) while self.queue or self.lstThreadList: while self.queue and (self.numThreads < self.MAX_THREADS): tmpDocument=self.queue.pop() self.PageProcess(tmpDocument) self.CheckThreads() def CheckThreads(self): #check if a thread is finished, get the page content and pass it to a document object tmpnumThreads = self.numThreads for pcThread in self.lstThreadList[:]: if pcThread.done: self.DocumentCollection.UpdateDocument(pcThread.DocumentObject) self.lstThreadList.remove(pcThread) #print "Thread finished..." self.numThreads = self.numThreads - 1 if tmpnumThreads == self.numThreads: time.sleep(1) def CreateQueue(self, DocumentCollection): tmpqueue=[] for DocumentObject in DocumentCollection.dicDocumentCollection.itervalues(): tmpqueue.append(DocumentObject) return tmpqueue def PageProcess(self, DocumentObject): pcThread = PageProcessor(DocumentObject, self.Tagger, self.lstQuery) pcThread.start() #print "Thread started..." self.lstThreadList.append(pcThread) self.numThreads = self.numThreads + 1 #End of class DocumentProcessor #Begin of class PageProcessor class PageProcessor(threading.Thread): def __init__(self, DocumentObject, MyTagger, lstQuery): threading.Thread.__init__(self) self.Tagger= MyTagger self.done = 0 self.DocumentObject=DocumentObject self.lstQuery=lstQuery def run(self): self.DocumentObject.PageContent=self.DeHTML(self.DocumentObject.Page) #print "de-html ready..." self.DocumentObject.dicDocumentVector=self.CreateDocumentVector(self.DocumentObject.PageContent) #print "document vector ready..." self.DocumentObject.numWordCount=self.GetWordCount(self.DocumentObject.dicDocumentVector) self.DocumentObject.Title=self.DeHTML(self.DocumentObject.Title) print "DocumentProcessor: Document ready" self.done=1 def DeHTML(self, page): style = re.compile('.*?', re.I | re.S) script = re.compile('.*?', re.I | re.S) comments= re.compile('', re.I | re.S) tags = re.compile('<.*?>', re.S) nbsp = re.compile(' ', re.S) tmpPageContent = nbsp.sub('', tags.sub(' ', comments.sub(' ', script.sub(' ', style.sub(' ', page))))) tmpPageContent=tmpPageContent.replace('\n', ' ') for iSpace in string.whitespace: if not iSpace==' ': tmpPageContent=tmpPageContent.replace(iSpace, '') PageContent='' for iChar in range(len(tmpPageContent)): if iChar