indexCorpus
index
/home/max/LRApy/indexCorpus.py

Project: LRApy
Author: Max Jakob (max.jakob@web.de)
Module: indexCorpus
Module Description: This Module contains functions to prepare a corpus of
uncompressed XML-Files of the Reuters Corpus or text files for retrieval.
 
Version: 1.0
Last change: 2007-02-15
 
Copyright 2007 by Max Jakob.
This code is released under the GNU GPL. See the accompanying LICENSE file.
 
Embedded documentation can be translated with the Python pydoc module.

 
Modules
       
fnmatch
os
re
shutil
sys
xml

 
Classes
       
xml.sax.handler.ContentHandler
ReutersContentHandler

 
class ReutersContentHandler(xml.sax.handler.ContentHandler)
    SAX Content Handler for XML-files of the Reuters Corpus.
usage:
  import xml.sax
  parser = xml.sax.make_parser()
  thisHandler = ReutersContentHandler()
  parser.setContentHandler(thisHandler)
  try:
    parser.parse(someXmlFileName)
  except SAXException:
    return thisHandler.getArticleText()
 
A SAXException is risen when a </text> tag is encountered, because
the article data is finished at that point, and the parser can stop.
Headlines and text body are returned in a string when calling the
getArticleText method.
 
  Methods defined here:
__init__(self)
characters(self, content)
endElement(self, name)
getArticleText(self)
startElement(self, name, attrs)

Methods inherited from xml.sax.handler.ContentHandler:
endDocument(self)
Receive notification of the end of a document.
 
The SAX parser will invoke this method only once, and it will
be the last method invoked during the parse. The parser shall
not invoke this method until it has either abandoned parsing
(because of an unrecoverable error) or reached the end of
input.
endElementNS(self, name, qname)
Signals the end of an element in namespace mode.
 
The name parameter contains the name of the element type, just
as with the startElementNS event.
endPrefixMapping(self, prefix)
End the scope of a prefix-URI mapping.
 
See startPrefixMapping for details. This event will always
occur after the corresponding endElement event, but the order
of endPrefixMapping events is not otherwise guaranteed.
ignorableWhitespace(self, whitespace)
Receive notification of ignorable whitespace in element content.
 
Validating Parsers must use this method to report each chunk
of ignorable whitespace (see the W3C XML 1.0 recommendation,
section 2.10): non-validating parsers may also use this method
if they are capable of parsing and using content models.
 
SAX parsers may return all contiguous whitespace in a single
chunk, or they may split it into several chunks; however, all
of the characters in any single event must come from the same
external entity, so that the Locator provides useful
information.
processingInstruction(self, target, data)
Receive notification of a processing instruction.
 
The Parser will invoke this method once for each processing
instruction found: note that processing instructions may occur
before or after the main document element.
 
A SAX parser should never report an XML declaration (XML 1.0,
section 2.8) or a text declaration (XML 1.0, section 4.3.1)
using this method.
setDocumentLocator(self, locator)
Called by the parser to give the application a locator for
locating the origin of document events.
 
SAX parsers are strongly encouraged (though not absolutely
required) to supply a locator: if it does so, it must supply
the locator to the application by invoking this method before
invoking any of the other methods in the DocumentHandler
interface.
 
The locator allows the application to determine the end
position of any document-related event, even if the parser is
not reporting an error. Typically, the application will use
this information for reporting its own errors (such as
character content that does not match an application's
business rules). The information returned by the locator is
probably not sufficient for use with a search engine.
 
Note that the locator will return correct information only
during the invocation of the events in this interface. The
application should not attempt to use it at any other time.
skippedEntity(self, name)
Receive notification of a skipped entity.
 
The Parser will invoke this method once for each entity
skipped. Non-validating processors may skip entities if they
have not seen the declarations (because, for example, the
entity was declared in an external DTD subset). All processors
may skip external entities, depending on the values of the
http://xml.org/sax/features/external-general-entities and the
http://xml.org/sax/features/external-parameter-entities
properties.
startDocument(self)
Receive notification of the beginning of a document.
 
The SAX parser will invoke this method only once, before any
other methods in this interface or in DTDHandler (except for
setDocumentLocator).
startElementNS(self, name, qname, attrs)
Signals the start of an element in namespace mode.
 
The name parameter contains the name of the element type as a
(uri, localname) tuple, the qname parameter the raw XML 1.0
name used in the source document, and the attrs parameter
holds an instance of the Attributes class containing the
attributes of the element.
 
The uri part of the name tuple is None for elements which have
no namespace.
startPrefixMapping(self, prefix, uri)
Begin the scope of a prefix-URI Namespace mapping.
 
The information from this event is not necessary for normal
Namespace processing: the SAX XML reader will automatically
replace prefixes for element and attribute names when the
http://xml.org/sax/features/namespaces feature is true (the
default).
 
There are cases, however, when applications need to use
prefixes in character data or in attribute values, where they
cannot safely be expanded automatically; the
start/endPrefixMapping event supplies the information to the
application to expand prefixes in those contexts itself, if
necessary.
 
Note that start/endPrefixMapping events are not guaranteed to
be properly nested relative to each-other: all
startPrefixMapping events will occur before the corresponding
startElement event, and all endPrefixMapping events will occur
after the corresponding endElement event, but their order is
not guaranteed.

 
Functions
       
getCompleteFilesList(directory, pat='*')
Scans through <directory> and all its subdirectories for files
matching the shell pattern <pat> and returns a list of complete paths.
getInvertedWordIndexDict(fileList)
Returns a dictionary with the words of all files in fileList as keys.
The values are tuples. The first element is the index of the file, in
which the word occurrs, and the second element is the position in
which the word occurrs (number of bytes from the start).
getReutersArticleString(xmlFileName)
Returns the headline and the article text of <xmlFileName>, which
is a file of the Reuters Corpus, as a string. A SAX-Parser is used.
The parser raises a SAXException when the closing text tag is
encountered, because it can stop parsing at this point.
makeIndex(indexPath)
Creates two index files in <indexPath>.
The first file is a mapping of indices to complete paths of all the
filenames in <indexPath> and its subdirectories:
  00    /home/usr/corpus/herText.txt
  01    /home/usr/corpus/myText.txt
  02    /home/usr/corpus/someText.txt
  ...
 
The other file is a mapping of all the words in the corpus, to their
occurrences in the files, and their position in the files. The list
of words is sorted alphabetically, so that the Unix look command, or
an equivalent binary search, can use it:
  all   0:45 2:14
  belong        0:3 0:187 1:38
  count 2:21
  ...
makeIndex_lowMemory(indexPath)
Like makeIndex, but saves first the files list, then 128 portion
files of the words index, which are finally merged.
mergeToOneWordIndexFile(indexPath)
Ugly but working fuction for merging all the files created by
savePortionWordFiles to one 'words.index' file.
printUsage()
saveBothIndices(fileList, invDict, indexPath)
Dumps <fileList> and <invDict> into <indexPath> in appropriate
formats.
saveFilesList(directory, pat='*')
Scans through <directory> and all its subdirectories for files
matching the shell pattern <pat> and saves a list of complete paths.
  fileindex-complete path splitter: "   "
savePortionWordFiles(indexPath, portions=32)
Creates <portions> files with word indices.

 
Data
        STOPWORDS_LIST = 'stopwords_en.txt'
stopwordfile = []
stopwords = {}