# ****************************************************
# Name des Moduls: CleanGoldStandard
# Name des Projekts: TaxoSearch
#
# Autor(en):
#        Thorsten Beinhorn, Vesna Cvoro,
#        Khaled Dhaoui und Christian Pretzsch 
#
# Aufgaben des Moduls: siehe Code Dokumentation TaxoSearch
# 
#
# Datum der letzten Aenderung: 26.11.2003
# ****************************************************



import MontyTagger
import string,sys
if __name__ == "__main__":
    print 'USAGE: python CleanGoldStandard.py "in.txt" "out.txt"\n'
    print 'Loading Corpus...'
    paragraphs = ['']
    f = open(sys.argv[-2],'r')
    paragraph_index = 0
    line = f.readline()
    while line:
        stripped = string.strip(line)
        if stripped[0:1] == '=' or stripped[0:8] in ['SpeakerA','SpeakerB']:
            paragraph_index += 1
            paragraphs.append(stripped)
            line = f.readline()
            continue
        paragraphs[paragraph_index] += ' ' + line
        line = f.readline()
    for i in range(len(paragraphs)):
        if string.find(paragraphs[i],'*x') != -1:
            paragraphs[i] = ""
            continue
        paragraphs[i] = string.replace(paragraphs[i],'=','')
        paragraphs[i] = string.strip(paragraphs[i])
        toks = string.split(paragraphs[i])
        toks = filter(lambda x: x not in ['[',']'],toks)
        paragraphs[i] = string.join(toks,' ')
    paragraphs = filter(lambda x: x != '',paragraphs)
    print 'Saving...'
    filename = sys.argv[-1]
    g = open(filename,'w')
    output = string.join(paragraphs,' ')
    g.write(output)
    g.close()
    print 'Done!'