You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
bazarr/libs/subzero/modification/dictionaries/data.py

201 lines
688 KiB

5 years ago
from __future__ import absolute_import
6 years ago
import re
from collections import OrderedDict
5 years ago
import six
6 years ago
data = {'bos': {'BeginLines': {'data': OrderedDict(),
'pattern': None},
'EndLines': {'data': OrderedDict(),
'pattern': None},
'PartialLines': {'data': OrderedDict([(u'da nadjem', u'na\u0107i'), (u'da nadjes', u'na\u0107i'), (u'da budes', u'biti'), (u'da ides', u'i\u0107i'), (u'da prodemo', u'pro\u0107i'), (u'da udem', u'u\u0107i'), (u'gdje ides', u'kamo ide\u0161'), (u'Gdje ides', u'Kamo ide\u0161'), (u'hocu da budem', u'\u017eelim biti'), (u'Hocu da budem', u'\u017delim biti'), (u'hocu da kazem', u'\u017eelim re\u0107i'), (u'hoces da kazes', u'\u017eeli\u0161 re\u0107i'), (u'hoce da kaze', u'\u017eeli re\u0107i'), (u'kao sto sam', u'kao \u0161to sam'), (u'me leda', u'me le\u0111a'), (u'medu nama', u'me\u0111u nama'), (u'moramo da idemo', u'moramo i\u0107i'), (u'moras da ides', u'mora\u0161 i\u0107i'), (u'na vecer', u'nave\u010der'), (u'Na vecer', u'Nave\u010der'), (u'ne cu', u'ne\u0107u'), (u'ne ces', u'ne\u0107e\u0161'), (u'ne\u0161to sto', u'ne\u0161to \u0161to'), (u'ono sto', u'ono \u0161to'), (u'Ono sto', u'Ono \u0161to'), (u'reci \u0107u', u're\u0107i \u0107u'), (u'sto ti se ne', u'\u0161to ti se ne'), (u'sto vise', u'\u0161to vi\u0161e'), (u'sve sto', u'sve \u0161to'), (u'Zao mi', u'\u017dao mi'), (u'zao mi', u'\u017eao mi'), (u'Zato sto', u'Zato \u0161to'), (u'zato sto', u'zato \u0161to'), (u'znas sto', u'zna\u0161 \u0161to'), (u'zna\u0161 sto', u'zna\u0161 \u0161to')]),
'pattern': u'(?um)(?:(?<=\\s)|(?<=^)|(?<=\\b))(?:da\\ nadjem|da\\ nadjes|da\\ budes|da\\ ides|da\\ prodemo|da\\ udem|gdje\\ ides|Gdje\\ ides|hocu\\ da\\ budem|Hocu\\ da\\ budem|hocu\\ da\\ kazem|hoces\\ da\\ kazes|hoce\\ da\\ kaze|kao\\ sto\\ sam|me\\ leda|medu\\ nama|moramo\\ da\\ idemo|moras\\ da\\ ides|na\\ vecer|Na\\ vecer|ne\\ cu|ne\\ ces|ne\\\u0161to\\ sto|ono\\ sto|Ono\\ sto|reci\\ \\\u0107u|sto\\ ti\\ se\\ ne|sto\\ vise|sve\\ sto|Zao\\ mi|zao\\ mi|Zato\\ sto|zato\\ sto|znas\\ sto|zna\\\u0161\\ sto)(?:(?=\\s)|(?=$)|(?=\\b))'},
'PartialWordsAlways': {'data': OrderedDict(),
6 years ago
'pattern': None},
'WholeLines': {'data': OrderedDict(),
'pattern': None},
'WholeWords': {'data': OrderedDict([(u'andele', u'an\u0111ele'), (u'andeli', u'an\u0111eli'), (u'bacas', u'baca\u0161'), (u'bas', u'ba\u0161'), (u'Bas', u'Ba\u0161'), (u'basta', u'vrt'), (u'Basta', u'Vrt'), (u'baste', u'vrtovi'), (u'Baste', u'Vrtovi'), (u'basti', u'vrtu'), (u'Basti', u'Vrtu'), (u'bastom', u'vrtom'), (u'Bastom', u'Vrtom'), (u'bastu', u'vrt'), (u'Bastu', u'Vrt'), (u'Bice', u'Bi\u0107e'), (u'bice', u'bi\u0107e'), (u'Bice\u0161', u'Bit \u0107e\u0161'), (u'Bicu', u'Bit \u0107u'), (u'bicu', u'bi\u0107u'), (u'blagonaklonoscu', u'blagonaklono\u0161\u0107u'), (u'blizi', u'bli\u017ei'), (u'bljesti', u'blije\u0161ti'), (u'Bljesti', u'Blije\u0161ti'), (u'bojis', u'boji\u0161'), (u'braca', u'bra\u0107a'), (u'Braca', u'Bra\u0107a'), (u'broncane', u'bron\u010dane'), (u'broncanu', u'bron\u010danu'), (u'budes', u'bude\u0161'), (u'caj', u'\u010daj'), (u'caja', u'\u010daja'), (u'Cak', u'\u010cak'), (u'cak', u'\u010dak'), (u'cale', u'tata'), (u'Cao', u'\u0106ao'), (u'cao', u'\u0107ao'), (u'cas', u'sat'), (u'casno', u'\u010dasno'), (u'Casno', u'\u010casno'), (u'castis', u'\u010dasti\u0161'), (u'casu', u'ca\u0161u'), (u'ca\u0161u', u'\u010da\u0161u'), (u'cebe', u'deku'), (u'cega', u'\u010dega'), (u'Cek', u'\u010cek'), (u'cek', u'\u010dek'), (u'cekali', u'\u010dekali'), (u'cekas', u'\u010deka\u0161'), (u'Cemu', u'\u010cemu'), (u'cemu', u'\u010demu'), (u'cerka', u'k\u0107i'), (u'Cerka', u'K\u0107i'), (u'cerke', u'k\u0107eri'), (u'Cerke', u'K\u0107eri'), (u'cerku', u'k\u0107er'), (u'Cerku', u'K\u0107er'), (u'ces', u'\u0107e\u0161'), (u'cesce', u'\u010de\u0161\u0107e'), (u'Cesce', u'\u010ce\u0161\u0107e'), (u'Ceskoj', u'\u010ce\u0161koj'), (u'cestitki', u'\u010destitki'), (u'cesto', u'\u010desto'), (u'Cesto', u'\u010cesto'), (u'cetiri', u'\u010detiri'), (u'Cetiri', u'\u010cetiri'), (u'cetri', u'\u010detiri'), (u'cetu', u'\u010detu'), (u'ceznja', u'\u010de\u017enja'), (u'ceznje', u'\u010de\u017enje'), (u'ceznji', u'\u010de\u017enji'), (u'ceznjom', u'\u010de\u017enjom'), (u'ceznju', u'\u010de\u017enju'), (u'ceznu', u'\u010deznu'), (u'ce\u0161', u'\u0107e\u0161'), (u'Cija', u'\u010cija'), (u'cija', u'\u010dija'), (u'cije', u'\u010dije'), (u'Ciji', u'\u010ciji'), (u'ciji', u'\u010diji'), (u'cijih', u'\u010dijih'), (u'Cijih', u'\u010cijih'), (u'cijim', u'\u010dijim'), (u'Cijim', u'\u010cijim'), (u'Cim', u'\u010cim'), (u'cim', u'\u010dim'), (u'cime', u'\u010dime'), (u'cinila', u'\u010dinila'), (u'cinili', u'\u010dinili'), (u'cinio', u'\u010dinio'), (u'cinis', u'\u010dini\u0161'), (u'ciniti', u'\u010diniti'), (u'cipka', u'\u010dipka'), (u'cipku', u'\u010dipku'), (u'cita', u'\u010dita'), (u'citao', u'\u010ditao'), (u'citas', u'\u010dita\u0161'), (u'citavu', u'\u010ditavu'), (u'cizme', u'\u010dizme'), (u'clan', u'\u010dlan'), (u'Clan', u'\u010clan'), (u'clanke', u'\u010dlanke'), (u'clanove', u'\u010dlanove'), (u'clanovi', u'\u010dlanovi'), (u'clanovima', u'\u010dlanovima'), (u'cmo', u'\u0107emo'), (u'corsokak', u'slijepa ulica'), (u'corsokaku', u'slijepoj ulici'), (u'cosak', u'ugao'), (u'cosku', u'uglu'), (u'covece', u'\u010dovje\u010de'), (u'covek', u'\u010dovjek'), (u'covjece', u'\u010dovje\u010de'), (u'covjecnost', u'\u010dovje\u010dnost'), (u'covjek', u'\u010dovjek'), (u'covjeka', u'\u010dovjeka'), (u'covjeku', u'\u010dovjeku'), (u'crpeci', u'crpe\u0107i'), (u'cte', u'\u0107ete'), (u'Cu', u'\u0106u'), (u'Ce\u0161', u'\u0106e\u0161'), (u'Ce', u'\u0106e'), (u'Cemo', u'\u0106emo'), (u'Cete', u'\u0106ete'), (u'cu', u'\u0107u'), (u'ce', u'\u0107e'), (u'cemo', u'\u0107emo'), (u'cete', u'\u0107ete'), (u'cudi', u'\u010dudi'), (u'Cudo', u'\u010cudo'), (u'cudo', u'\u010dudo'), (u'Cujte', u'\u010cujte'), (u'cula', u'\u010dula'), (u'culi', u'\u010duli'), (u'Culi', u'\u010culi'), (u'culima', u'\u010dulima'), (u'cuo', u'\u010duo'), (u'Cuo', u'\u010cuo'), (u'cupam', u'\u010dupam'), (u'cutanje', u'\u0161utnja'), (u'Cutanje', u'\u0160utnja'), (u'cutao', u'\u0161utio'), (u'Cutao', u'\u0160utio'), (u'cuti', u'\u010duti'), (u'cutljiv', u'\u0161utljiv'), (u'cutnja', u'\u0161utnja'), (u'cuvali', u'\u010duvali'), (u'cuveni', u'\u010duveni'), (u'da
'pattern': u'(?um)(\\b|^)(?:andele|andeli|bacas|bas|Bas|basta|Basta|baste|Baste|basti|Basti|bastom|Bastom|bastu|Bastu|Bice|bice|Bice\\\u0161|Bicu|bicu|blagonaklonoscu|blizi|bljesti|Bljesti|bojis|braca|Braca|broncane|broncanu|budes|caj|caja|Cak|cak|cale|Cao|cao|cas|casno|Casno|castis|casu|ca\\\u0161u|cebe|cega|Cek|cek|cekali|cekas|Cemu|cemu|cerka|Cerka|cerke|Cerke|cerku|Cerku|ces|cesce|Cesce|Ceskoj|cestitki|cesto|Cesto|cetiri|Cetiri|cetri|cetu|ceznja|ceznje|ceznji|ceznjom|ceznju|ceznu|ce\\\u0161|Cija|cija|cije|Ciji|ciji|cijih|Cijih|cijim|Cijim|Cim|cim|cime|cinila|cinili|cinio|cinis|ciniti|cipka|cipku|cita|citao|citas|citavu|cizme|clan|Clan|clanke|clanove|clanovi|clanovima|cmo|corsokak|corsokaku|cosak|cosku|covece|covek|covjece|covjecnost|covjek|covjeka|covjeku|crpeci|cte|Cu|Ce\\\u0161|Ce|Cemo|Cete|cu|ce|cemo|cete|cudi|Cudo|cudo|Cujte|cula|culi|Culi|culima|cuo|Cuo|cupam|cutanje|Cutanje|cutao|Cutao|cuti|cutljiv|cutnja|cuvali|cuveni|dace|dacemo|davo|definise|definisi|Desava|desava|disemo|disi|dobijes|dobivas|doci|dode|dodem|dodes|dodete|dode\\\u0161|Dodi|dodi|dodite|Dodji|dodji|Dodjite|dodjite|Dodju|dodju|dodu|dolazis|dopustao|dorucak|dorucku|Dosao|dosao|drhteci|drhte\\\u0107i|Drhte\\\u0107i|drugacija|Drugacije|drugacije|drugaciji|Drugaciji|drukciji|drveca|drvece|drvecem|drvecu|drzi|Drzim|dugmici|duze|duzinom|dzanki|Dzejk|Dzime|Dzone|flasom|flasu|fucka|funkcionisu|gacice|gadao|gadis|Gadis|gdica|gdice|gdici|gdicu|gdu|glupaco|govoris|gradani|gradic|gradica|gradicu|grancica|grancicu|gresci|grese|greski|gresku|gubis|Hoces|hoces|hocu|Hocu|hodas|htjeo|iceg|icega|icemu|Ici|ici|Ides|ides|iduce|iduceg|iducem|Iduci|iduci|ignorisi|igras|Ijudi|imas|imidz|inace|Inace|isao|Isao|iscupao|ise\\\u0107emo|isla|istjece|istrazio|Istrazio|isuvise|izaci|Izaci|izade|Izade|izadem|izades|izadete|Izadi|izadi|izasao|izasla|izici|izluduje|izluduju|izmedu|Izmedu|izostri|izostrim|izvuci|i\\\u0161cupao|jebes|Jebes|jos|Jos|juce|Juce|jucer|Jucer|kaslja|kaze|Kaze|kazemo|kazite|Kazite|kazu|Kcer|kcer|kcerka|Kcerka|kcerkama|kcerku|Kcerku|kecap|kecapa|kise|kisi|kleknes|kociji|kolaca|kolace|komadic|komsijama|komsije|komsiji|komsiluk|komsiluku|kom\\\u0161ija|Kom\\\u0161ija|Konkurise|konkurise|konkurisem|konkurisu|kontrolisu|kosulja|kosulje|kosulji|kosulju|kovceg|kovcegu|krada|Krada|Krece|krece|Kreci|kreci|krecu|kre\\\u0107es|krosnje|krvaris|kuca|kucama|kuce|kuci|kusa|kusas|ku\\\u010da|ku\\\u010di|lakocom|laz|lazac|laze|lazi|lazne|lazni|lazov|ledja|ledjima|leprsa|lezala|lezali|lezati|lezis|Lezis|lici|licim|licis|licnost|licnosti|lijecniku|ljubis|los|losa|losu|majcine|masini|medu|Medutim|medutim|mici|Mici|micu|mislis|Mislis|mjesecevom|mjesecine|mjesecini|mjesecinu|mladic|moc|moci|motivisu|mozda|Mozda|moze|mozete|mreza|mrezu|mrzis|muce|mucenik|mucne|muska|muz|muza|naci|Naci|nacin|nadem|Nadem|nademo|nades|Nades|nadete|nadici|nadje|Nadje|nadjen|nadjes|Nadjes|nadjete|nagovestaj|najvise|Najvise|naklonoscu|naocale|Napisite|nasa|Nase|nase|naseg|nasi|Nasi|nasao|Nasao|nasla|Nasla|nasli|Nasli|nasoj|nasrecu|nastavis|nasu|nauce|neceg|necega|necemo|necemu|necije|neciji|necim|necovjecnost|necovjecnosti|necu|Necu|nekaze|nekoc|Nemas|nemas|Nesreca|nesto|Nesto|new\\ yorski|Nezan|nezan|nezna|Neznam|Neznas|Neznajuci|Neznavsi|neznam|neznas|neznajuci|neznavsi|nezni|neznih|neznim|nezno|neznu|niceg|nicega|nicemu|nicija|niciji|nicim|njezno|nju\\ jorski|noci|nocnu|nosac|nosices|nosis|noz|nozem|Obecao|Obezbedjuju|obezbedjuju|obide|objasnis|obozavalac|obracas|obra\\\u0107as|obuce|obucem|oceve|ocito|ocnjaci|odes|odlazis|odlezati|odlucim|odmice|odraduje|odreden|odreduje|odredujemo|odvec|ogrtac|ohrabrujuce|ojacam|okrece|opasac|operise|operisemo|operisete|operise\\\u0161|osecaces|osjecaces|osjecam|osjecanja|oslobada|ostra|ostre|ostri|ostrom|ostru|osvrnes|Osvrnes|otezala|otidi|otidji|otisao|oziljak|palaca|palaci|palacu|papucama|parce|pateci|patis|pcela|pcele|pecini|pecinski|peraca|Peraci|pica|pice|picem|pijes|pisacoj|pise|pisem|pisemo|pises|pisite|pisu|pitas|placa|placam|placanje|placanjem|place|placem|placete|place\\\u0161|placu|placuci|Plasi|plazi|plazu|plese|plesemo|plese
'dan': {'BeginLines': {'data': OrderedDict(),
'pattern': None},
'EndLines': {'data': OrderedDict(),
'pattern': None},
'PartialLines': {'data': OrderedDict(),
'pattern': None},
'PartialWordsAlways': {'data': OrderedDict([(u'\xa4', u'o'), (u'IVI', u'M'), (u'lVI', u'M'), (u'IVl', u'M'), (u'lVl', u'M')]),
6 years ago
'pattern': None},
'WholeLines': {'data': OrderedDict(),
'pattern': None},
'WholeWords': {'data': OrderedDict([(u'Haner', u'Han er'), (u'JaveL', u'Javel'), (u'Pa//e', u'Palle'), (u'bffte', u'bitte'), (u'Utro//gt', u'Utroligt'), (u'Kommerdu', u'Kommer du'), (u'smi/er', u'smiler'), (u'/eg', u'leg'), (u'harvinger', u'har vinger'), (u'/et', u'let'), (u'erjeres', u'er jeres'), (u'hardet', u'har det'), (u't\xe6nktjer', u't\xe6nkt jer'), (u'erjo', u'er jo'), (u'sti/', u'stil'), (u'Iappe', u'lappe'), (u'Beklagel\xe7', u'Beklager,'), (u'vardet', u'var det'), (u'afden', u'af den'), (u'snupperjeg', u'snupper jeg'), (u'ikkejeg', u'ikke jeg'), (u'bliverjeg', u'bliver jeg'), (u'hartravit', u'har travlt'), (u'pandekagef/ag', u'pandekageflag'), (u'Stormvarsell', u'Stormvarsel!'), (u'stormvejn', u'stormvejr.'), (u'morgenkomp/et', u'morgenkomplet'), (u'/yv', u'lyv'), (u'varjo', u'var jo'), (u'/eger', u'leger'), (u'harjeg', u'har jeg'), (u'havdejeg', u'havde jeg'), (u'hvorjeg', u'hvor jeg'), (u'n\xe5rjeg', u'n\xe5r jeg'), (u'g\xe5rvi', u'g\xe5r vi'), (u'atjeg', u'at jeg'), (u'isine', u'i sine'), (u'f\xe5rjeg', u'f\xe5r jeg'), (u'k\xe6rtighed', u'k\xe6rlighed'), (u'skullejeg', u'skulle jeg'), (u'laest', u'l\xe6st'), (u'laese', u'l\xe6se'), (u'g\xf8rjeg', u'g\xf8r jeg'), (u'g\xf8rvi', u'g\xf8r vi'), (u'angrerjo', u'angrer jo'), (u'Hvergang', u'Hver gang'), (u'erder', u'er der'), (u'villetilgive', u'ville tilgive'), (u'\ufb01eme', u'fjeme'), (u'genopst\xe5ri', u'genopst\xe5r i'), (u'svigtejer', u'svigte jer'), (u'kommernu', u'kommer nu'), (u'n\xe5rman', u'n\xe5r man'), (u'erfire', u'er fire'), (u'Hvorfor\ufb01nderdu', u'Hvorfor \ufb01nder du'), (u'undertigt', u'underligt'), (u'itroen', u'i troen'), (u'erl\xf8gnt', u'er l\xf8gn!'), (u'g\xf8rden', u'g\xf8r den'), (u'forhelvede', u'for helvede'), (u'hjpe', u'hj\xe6lpe'), (u'togeti', u'toget i'), (u'M\xe5jeg', u'M\xe5 jeg'), (u'savnerjer', u'savner jer'), (u'erjeg', u'er jeg'), (u'vaere', u'v\xe6re'), (u'geme', u'gerne'), (u'trorp\xe5', u'tror p\xe5'), (u'forham', u'for ham'), (u'afham', u'af ham'), (u'harjo', u'har jo'), (u'ovema\ufb01et', u'overnattet'), (u'begae\ufb01ighed', u'beg\xe6rlighed'), (u'sy\u2019g', u'syg'), (u'Imensjeg', u'Imens jeg'), (u'bliverdu', u'bliver du'), (u'\ufb01ser', u'fiser'), (u'manipuierer', u'manipulerer'), (u'forjeg', u'for jeg'), (u'iivgivendefor', u'livgivende for'), (u'formig', u'for mig'), (u'Hardu', u'Har du'), (u'fornold', u'forhold'), (u'defrelste', u'de frelste'), (u'S\xe5jeg', u'S\xe5 jeg'), (u'varjeg', u'var jeg'), (u'g\xf8rved', u'g\xf8r ved'), (u'kalderjeg', u'kalder jeg'), (u'\ufb02ytte', u'flytte'), (u'handlerdet', u'handler det'), (u'trorjeg', u'tror jeg'), (u'\ufb02ytter', u'flytter'), (u'soverjeg', u'sover jeg'), (u'\ufb01nderud', u'\ufb01nder ud'), (u'naboerp\xe5', u'naboer p\xe5'), (u'ervildt', u'er vildt'), (u'v\xe6reher', u'v\xe6re her'), (u'hyggerjer', u'hygger jer'), (u'borjo', u'bor jo'), (u'kommerikke', u'kommer ikke'), (u'folkynde', u'forkynde'), (u'farglad', u'far glad'), (u'misterjeg', u'mister jeg'), (u'\ufb01nt', u'fint'), (u'Harl', u'Har I'), (u'bedejer', u'bede jer'), (u'synesjeg', u'synes jeg'), (u'vartil', u'var til'), (u'eren', u'er en'), (u'\\Al', u'Vil'), (u'\\A', u'Vi'), (u'fjeme', u'fjerne'), (u'Iigefyldt', u'lige fyldt'), (u'ertil', u'er til'), (u'fa\ufb01igt', u'farligt'), (u'\ufb01nder', u'finder'), (u'\ufb01ndes', u'findes'), (u'irettesae\ufb01else', u'irettes\xe6ttelse'), (u'ermed', u'er med'), (u'\xe8n', u'\xe9n'), (u'gikjoi', u'gik jo i'), (u'Hvisjeg', u'Hvis jeg'), (u'ovema\ufb01er', u'overnatter'), (u'hoident', u'holdent'), (u'\\Adne', u'Vidne'), (u'fori', u'for i'), (u'vei', u'vel'), (u'savnerjerjo', u'savner jer jo'), (u'elskerjer', u'elsker jer'), (u'harl\xf8jet', u'har l\xf8jet'), (u'eri', u'er i'), (u'\ufb01ende', u'fjende'), (u'derjo', u'der jo'), (u'sigerjo', u'siger jo'), (u'menerjeg', u'mener jeg'), (u'Harjeg', u'Har jeg'), (u'sigerjeg', u'siger jeg'), (u'splitterjeg', u'splitter jeg'), (u'erjournalist', u'er journalist'), (u'erjoumalist', u'er journalist'), (u'Forjeg', u'For jeg'), (u'g\xe2rjeg', u'g\xe5r jeg'), (u'N\xe2rjeg', u'N\xe5r jeg'), (u'a\ufb02lom', u'afkom'), (u'
'pattern': u"(?um)(\\b|^)(?:Haner|JaveL|Pa\\/\\/e|bffte|Utro\\/\\/gt|Kommerdu|smi\\/er|\\/eg|harvinger|\\/et|erjeres|hardet|t\\\xe6nktjer|erjo|sti\\/|Iappe|Beklagel\\\xe7|vardet|afden|snupperjeg|ikkejeg|bliverjeg|hartravit|pandekagef\\/ag|Stormvarsell|stormvejn|morgenkomp\\/et|\\/yv|varjo|\\/eger|harjeg|havdejeg|hvorjeg|n\\\xe5rjeg|g\\\xe5rvi|atjeg|isine|f\\\xe5rjeg|k\\\xe6rtighed|skullejeg|laest|laese|g\\\xf8rjeg|g\\\xf8rvi|angrerjo|Hvergang|erder|villetilgive|\\\ufb01eme|genopst\\\xe5ri|svigtejer|kommernu|n\\\xe5rman|erfire|Hvorfor\\\ufb01nderdu|undertigt|itroen|erl\\\xf8gnt|g\\\xf8rden|forhelvede|hjpe|togeti|M\\\xe5jeg|savnerjer|erjeg|vaere|geme|trorp\\\xe5|forham|afham|harjo|ovema\\\ufb01et|begae\\\ufb01ighed|sy\\\u2019g|Imensjeg|bliverdu|\\\ufb01ser|manipuierer|forjeg|iivgivendefor|formig|Hardu|fornold|defrelste|S\\\xe5jeg|varjeg|g\\\xf8rved|kalderjeg|\\\ufb02ytte|handlerdet|trorjeg|\\\ufb02ytter|soverjeg|\\\ufb01nderud|naboerp\\\xe5|ervildt|v\\\xe6reher|hyggerjer|borjo|kommerikke|folkynde|farglad|misterjeg|\\\ufb01nt|Harl|bedejer|synesjeg|vartil|eren|\\\\Al|\\\\A|fjeme|Iigefyldt|ertil|fa\\\ufb01igt|\\\ufb01nder|\\\ufb01ndes|irettesae\\\ufb01else|ermed|\\\xe8n|gikjoi|Hvisjeg|ovema\\\ufb01er|hoident|\\\\Adne|fori|vei|savnerjerjo|elskerjer|harl\\\xf8jet|eri|\\\ufb01ende|derjo|sigerjo|menerjeg|Harjeg|sigerjeg|splitterjeg|erjournalist|erjoumalist|Forjeg|g\\\xe2rjeg|N\\\xe2rjeg|a\\\ufb02lom|farerjo|tagerjeg|Virkerjeg|morerjer|kommerjo|istand|b\\\xf8m|frygterjeg|kommerjeg|eriournalistelev|harfat|f\\\xe5r\\\ufb01ngre|sl\\\xe2rjeg|bam|erjournalistelev|politietjo|elskerjo|vari|fornemmerjeres|udkl\\\xe6kketl|\\\xed|nyi|Iumijelse|vures|I\\/Vash\\\xedngtan|opleverjeg|PANTEL\\\xc3NER|Gudmurgen|SKYDEV\\\xc3BEN|P\\\xc3LIDELIG|avertalte|Oms\\\xedder|lurteb\\\xe5d|Telrslning|miU\\\xf8|g\\\xe5ri|Fan\\/el|abe\\\ufb01\\\xe6s|hartalt|\\\\\\\xc5rkelig|beklagerjeg|N\\\xe5rjeg|rnaend|vaskebjorn|Ivil|besog|Vaer|Undersogte|modte|toj|fodt|gore|provede|forste|igang|ligenu|clet|Strombell|tmvlt|studererjournalistik|inforrnererjeg|omk\\\ufb01ng|tilAsg\\\xe5rd|Kederjeg|jaettetamp|erjer|atjulehygge|Ueneste|foltsaetter|A\\/ice|tvivlerjeg|henterjer|forst\\\xe5rjeg|hvisjeg|\\/\\\xe6rt|vfgtrgt|hurtigtjeg|kenderjo|seiv|\\/\\\xe6gehuset|herjo|stolerjeg|digi|taberi|sl\\\xe5rjeres|laere|tr\\\xe6nerwushu|efterjeg|e\\\ufb01er|dui|a\\\ufb01en|bliveri|acceptererjer|drikkerjo|\\\ufb01anjin|erl\\\xe6nge|erikke|medjer|Tmykke|\\'\\\ufb01anjins|Mesteri|sagdetil|indei|o\\\ufb01e|\\'\\\ufb01lgiv|Lf\\\xe5r|viserjer|Rejsjerblot|\\'\\\ufb01llad|iiiie\\\ufb01nger|VILOMFATTE|mo\\\ufb01o|g\\\xf8rjer|gifi|hardu|gi\\\ufb01|Iaeggerjeg|iet|sv\\/yte|ti\\/|Wdal|\\\ufb01\\\xe5et|Hvo\\/for|hellerikke|Wlle|dr\\/ver|V\\\\\\\ufb02lliam|V\\\\\\\ufb02lliams|Vk\\\ufb01lliam|v\\\xe5dejakke|k\\\xe6\\\ufb02l|sagdejeg|oven\\/ejet|karameisauce|Lf\\\xf8lgej\\\xf8disk|blevjo|asiateri|erV\\\\\\\ufb02lliam|lidt\\\ufb02ov|sagdejo|erlige|Vt\\\ufb01lliam|W\\\ufb01II|a\\\ufb02darede|hj\\\xe6iperjeg|laderjeg|H\\\xe2ndledsbeskyttere|Lsabels|G\\\xf8rjeg|m\\\xe2jeg|ogjeg|gjordejeg|villejeg|Vl\\\ufb02lliams|Dajeg|iorden|fandtjeg|Tilykke|k\\\xf8rerjer|g\\\xf8fjeg|Selvflgelig|fdder|bnfaldt|t\\\\\\/ehovedede|EIler|ringerjeg|blevv\\\xe6k|st\\\xe1rjeg|varforbi|harfortalt|iflere|t\\\xf8rjeg|kunnejeg|m\\\xe1|hart\\\xe6nkt|F\\\xe1rjeg|afdelingervar|0rd|p\\\xe1st\\\xe1|gr\\\xe1haret|varforbl\\\xf8ffende|holdtjeg|h\\\xe6ngerjo|fikjeg|f\\\xe1r|Hvorforf\\\xf8lerjeg|harfeber|\\\xe1ndssvagt|0g|vartre|abner|garjeg|sertil|hvorfin|harfri|forstarjeg|S\\\xe4|hvorfint|m\\\xe6rkerjeg|ogsa|n\\\xe1rjeg|Jas\\\xe1|b\\\xe1ndoptager|bed\\\xe1rende|s\\\xe1|n\\\xe1r|kunnejo|Brammertil|serjeg|gikjeg|udholderjeg|m\\\xe1neder|vartr\\\xe6t|d\\\xe1rligt|klaretjer|pavirkelig|spekulererjeg|fors\\\xf8gerjeg|huskerjeg|ifavnen|skullejo|vartung|varfuldst\\\xe6ndig|Paskedag|turi|spillerschumanns|forst\\\xe1rjeg|istedet|n\\\xe1rfrem|habertrods|forf\\\xf8rste|varto|overtil|forfem|holdtjo|passerjo|ellerto|hartrods|harfuldst\\\xe6ndig|g\\\xe5rjeg|giderjeg|forjer|erindrerjeg|t\\\xe6nkerjeg|GAEt|h\\\xf8rerjo|forladerjeg|koste
'deu': {'BeginLines': {'data': OrderedDict(),
'pattern': None},
'EndLines': {'data': OrderedDict(),
'pattern': None},
'PartialLines': {'data': OrderedDict(),
'pattern': None},
'PartialWordsAlways': {'data': OrderedDict([(u'IVI', u'M'), (u'IVl', u'M'), (u'I\\/I', u'M'), (u'I\\/l', u'M'), (u'lVI', u'M'), (u'lVl', u'M'), (u'l\\/I', u'M'), (u'l\\/l', u'M'), (u'\xa4', u'o')]),
6 years ago
'pattern': None},
'WholeLines': {'data': OrderedDict(),
'pattern': None},
'WholeWords': {'data': OrderedDict([(u'/a', u'Ja'), (u'/ch', u'Ich'), (u'/d/of', u'Idiot'), (u'/ebte', u'lebte'), (u'/eid', u'leid'), (u'/hn', u'ihn'), (u'/hnen', u'Ihnen'), (u'/hr', u'Ihr'), (u'/hre', u'Ihre'), (u'/hren', u'Ihren'), (u'/m', u'im'), (u'/mmer', u'immer'), (u'/n', u'In'), (u'/ndividuen', u'Individuen'), (u'/nn', u'Inn'), (u'/oe', u'Joe'), (u'/sf', u'ist'), (u'/sf/0/1n', u'Ist John'), (u'/ungs', u'Jungs'), (u'/Vfinuten', u'Minuten'), (u'/\xe9nger', u'l\xe4nger'), (u'/\xe9uft', u'l\xe4uft'), (u'0/1', u'Oh'), (u'0/me', u'ohne'), (u'0/vne', u'ohne'), (u'00om', u'000 m'), (u'100m', u'100 m'), (u'120m', u'120 m'), (u'13Oj\xa7hrie', u'130-j\xe4hrige'), (u'145m', u'145 m'), (u'150m', u'150 m'), (u'160m', u'160 m'), (u'165m', u'165 m'), (u'19m', u'19 m'), (u'20m', u'20 m'), (u'27m', u'27 m'), (u'30m', u'30 m'), (u'37m', u'37 m'), (u'38m', u'38 m'), (u'3km', u'3 km'), (u'5/ch', u'sich'), (u'5/cher', u'sicher'), (u'5/cherer', u'sicherer'), (u'5/e', u'Sie'), (u'5/nd', u'Sind'), (u'500m', u'500 m'), (u'5ulSere', u'\xe4u\xdfere'), (u'60m', u'60 m'), (u'6de', u'\xf6de'), (u'6dere', u'\xf6dere'), (u'6ffne', u'\xf6ffne'), (u'6ffnen', u'\xf6ffnen'), (u'6ffnet', u'\xd6ffnet'), (u'6fter', u'\xf6fter'), (u'750m', u'750 m'), (u'85m', u'85 m'), (u'90m', u'90 m'), (u'a//em', u'allem'), (u'A//es', u'Alles'), (u'abbeif$en', u'abbei\xdfen'), (u'abdrficken', u'abdr\xfccken'), (u'aBen', u'a\xdfen'), (u'abergl\xe9iubischen', u'abergl\xe4ubischen'), (u'aberja', u'aber ja'), (u'aberjemand', u'aber jemand'), (u'Aberjetzt', u'Aber jetzt'), (u'abf\xe9hrt', u'abf\xe4hrt'), (u'abf\xe9illt', u'abf\xe4llt'), (u'abgef\xe9rbt', u'abgef\xe4rbt'), (u'abgeh\xe9ngt', u'abgeh\xe4ngt'), (u'abgeh\xe9rt', u'abgeh\xf6rt'), (u'abgelost', u'abgel\xf6st'), (u'abgesprengli', u'abgesprengt!'), (u'abgestfirztl', u'abgest\xfcrzt'), (u'abgestilrzt', u'abgest\xfcrzt'), (u'abgestofien', u'abgesto\xdfen'), (u'abgew\xe9hlt', u'abgew\xe4hlt'), (u'abgew\xe9hnen', u'abgew\xf6hnen'), (u'abgew\xe9hnt', u'abgew\xf6hnt'), (u'abge\xe9nderten', u'abge\xe4nderten'), (u'abh\xe9ingt', u'abh\xe4ngt'), (u'abh\xe9ngen', u'abh\xe4ngen'), (u'abh\xe9ngig', u'abh\xe4ngig'), (u'abh\xe9ngiges', u'abh\xe4ngiges'), (u'Abh\xe9rstationen', u'Abh\xf6rstationen'), (u'Abjetzt', u'Ab jetzt'), (u'abkfihlen', u'abk\xfchlen'), (u'Abkfirzung', u'Abk\xfcrzung'), (u'abkommlich', u'abk\xf6mmlich'), (u'Ablegenl', u'Ablegen!'), (u'ablfisen', u'abl\xf6sen'), (u'ablosen', u'abl\xf6sen'), (u'Ablosung', u'Abl\xf6sung'), (u'abreif$en', u'abrei\xdfen'), (u'Abrijcken', u'Abr\xfccken'), (u'abr\xe9umen', u'abr\xe4umen'), (u'Absch/ed', u'Abschied'), (u'abschiefien', u'abschie\xdfen'), (u'abschlief$en', u'abschlie\xdfen'), (u'abschliefien', u'abschlie\xdfen'), (u'abschwiiren', u'abschw\xf6ren'), (u'abstoflsend', u'absto\xdfend'), (u'Abtrijnnige', u'Abtr\xfcnnige'), (u'abwiirgt', u'abw\xfcrgt'), (u'abw\xe9gen', u'abw\xe4gen'), (u'abzuh\xe9ren', u'abzuh\xf6ren'), (u'abzuschwiiren', u'abzuschw\xf6ren'), (u'abzusfofien', u'abzusto\xdfen'), (u'ACh', u'Ach'), (u'Achtungl', u'Achtung!'), (u'Achzen', u'\xc4chzen'), (u'ACHZT', u'\xc4CHZT'), (u'Acic', u'Acid'), (u'ADDRESSDATEI', u'ADRESSDATEI'), (u'Adi\xf6s', u'Adi\xf3s'), (u'Admiralitat', u'Admiralit\xe4t'), (u'Admiralit\xe9it', u'Admiralit\xe4t'), (u'Admiralit\xe9t', u'Admiralit\xe4t'), (u'Aff\xe9re', u'Aff\xe4re'), (u'Aff\xe9ren', u'Aff\xe4ren'), (u'AFl', u'AFI'), (u'aggresivem', u'aggressivem'), (u'Agypten', u'\xc4gypten'), (u'aher', u'aber'), (u'AI/en/vichtigste', u'Allerwichtigste'), (u'Ain/vays', u'Airways'), (u'AIs', u'Als'), (u'Aktivit\xe9iten', u'Aktivit\xe4ten'), (u'Aktivit\xe9ten', u'Aktivit\xe4ten'), (u'AKTMERT', u'AKTIVIERT'), (u'Alarmsfufe', u'Alarmstufe'), (u'albem', u'albern'), (u'Albtriiume', u'Albtr\xe4ume'), (u'ale', u'als'), (u'alleinl', u'allein!'), (u'allejubeln', u'alle jubeln'), (u'allern\xe9chsten', u'allern\xe4chsten'), (u'Allmiichtigerl', u'Allm\xe4chtiger!'), (u'Allm\xe9chtige', u'Allm\xe4chtige'), (u'Allm\xe9chtiger', u'Allm\xe4chtiger'), (u'allm\xe9hlich', u'allm\xe4hlich'), (u'Allm\xe9ichtiger', u'Allm\xe4chtiger'), (u'Allsparkl', u'
'pattern': u"(?um)(\\b|^)(?:\\/a|\\/ch|\\/d\\/of|\\/ebte|\\/eid|\\/hn|\\/hnen|\\/hr|\\/hre|\\/hren|\\/m|\\/mmer|\\/n|\\/ndividuen|\\/nn|\\/oe|\\/sf|\\/sf\\/0\\/1n|\\/ungs|\\/Vfinuten|\\/\\\xe9nger|\\/\\\xe9uft|0\\/1|0\\/me|0\\/vne|00om|100m|120m|13Oj\\\xa7hrie|145m|150m|160m|165m|19m|20m|27m|30m|37m|38m|3km|5\\/ch|5\\/cher|5\\/cherer|5\\/e|5\\/nd|500m|5ulSere|60m|6de|6dere|6ffne|6ffnen|6ffnet|6fter|750m|85m|90m|a\\/\\/em|A\\/\\/es|abbeif\\$en|abdrficken|aBen|abergl\\\xe9iubischen|aberja|aberjemand|Aberjetzt|abf\\\xe9hrt|abf\\\xe9illt|abgef\\\xe9rbt|abgeh\\\xe9ngt|abgeh\\\xe9rt|abgelost|abgesprengli|abgestfirztl|abgestilrzt|abgestofien|abgew\\\xe9hlt|abgew\\\xe9hnen|abgew\\\xe9hnt|abge\\\xe9nderten|abh\\\xe9ingt|abh\\\xe9ngen|abh\\\xe9ngig|abh\\\xe9ngiges|Abh\\\xe9rstationen|Abjetzt|abkfihlen|Abkfirzung|abkommlich|Ablegenl|ablfisen|ablosen|Ablosung|abreif\\$en|Abrijcken|abr\\\xe9umen|Absch\\/ed|abschiefien|abschlief\\$en|abschliefien|abschwiiren|abstoflsend|Abtrijnnige|abwiirgt|abw\\\xe9gen|abzuh\\\xe9ren|abzuschwiiren|abzusfofien|ACh|Achtungl|Achzen|ACHZT|Acic|ADDRESSDATEI|Adi\\\xf6s|Admiralitat|Admiralit\\\xe9it|Admiralit\\\xe9t|Aff\\\xe9re|Aff\\\xe9ren|AFl|aggresivem|Agypten|aher|AI\\/en\\/vichtigste|Ain\\/vays|AIs|Aktivit\\\xe9iten|Aktivit\\\xe9ten|AKTMERT|Alarmsfufe|albem|Albtriiume|ale|alleinl|allejubeln|allern\\\xe9chsten|Allmiichtigerl|Allm\\\xe9chtige|Allm\\\xe9chtiger|allm\\\xe9hlich|Allm\\\xe9ichtiger|Allsparkl|allt\\\xe9iglichen|ALTESTE|Altester|Alzte|Amerx\\'kaner|amfisierst|Amiilsierst|amiisieren|amiisierenl|amiisierte|Amijsant|amlllsant|amlllsiert|amtlsant|Amusanf|amusant|Amusiert|Anderst|Anderung|Anderungen|anfa\\'ngt|Anffihrer|Anffingerl|Anfiihrer|anfijhlt|Anfingerl|Anfuhrer|Anfuhrern|Anf\\\xe9inger|Anf\\\xe9ingergliick|Anf\\\xe9nge|anf\\\xe9ngst|anf\\\xe9ngt|angebrfillt|angebrullt|angefiihrt|ANGEHCHDRIGE|angehfirt|Angehtirigen|angeh\\\xe9ren|angeh\\\xe9rt|angel\\\xe9chelt|angerilhrt|anger\\\ufb02hrt|angeschweifit|angespruht|angetiltert|Angriffspl\\\xe9nen|Angstschweili|anhiiren|Anh\\\xe9inger|anh\\\xe9lt|anh\\\xe9ngen|anh\\\xe9ren|ankijndigen|anliigen|anlugen|anmal3ende|ann\\\xe9hern|anriihrst|anrijuhren|anst\\\xe9indig|anst\\\xe9indiger|anst\\\xe9indiges|anst\\\xe9ndig|anst\\\xe9ndige|anst\\\xe9ndigen|Anst\\\xe9ndiges|Antik\\\xe9rper|Antiquit\\\xe9t|Antistrahlenger\\\xe9t|antwortenl|Anwe\\/sung|Anwe\\/sungen|Anw\\\xe9iltin|Anw\\\xe9lte|Anw\\\xe9ltin|Anzilge|Anztinden|Anzuge|Anzugen|anzuhiiren|anzuhoren|anzundenl|anzupiibeln|An\\\xe9sthesie|An\\\xe9sthesieprofessor|An\\\xe9sthesieteam|An\\\xe9sthesist|An\\\xe9sthesisten|An\\\xe9sthetikum|ARBEITERI|Arbeitsfl\\\ufb02gel|Armeefunkger\\\xe9t|Armel|Arschkichern|Arschliicher|Arschliichern|Arschl\\\xe9cher|Arschl\\\xe9chern|Arzte|Arzten|Arztin|Atemger\\\xe9usche|Atlantikkiiste|Atlantikkuste|ATMOSPHARE|Atmosph\\\xe9re|Atmosph\\\xe9renbereich|Atmosph\\\xe9reneinflugsequenz|Atmosph\\\xe9reneintritt|Attenfaiter|Attent\\\xe9iter|Attent\\\xe9ter|Attent\\\xe9ters|Attraktivit\\\xe9t|auBen|Aubenblick|AuBenbord|AuBenwelt|auBer|AuBerdem|auBerhalb|auc\\/1|auchl|Auf\\$erdem|auf3er|aufAugenh6he|aufblilhende|auff\\'a\\'ngt|Auff\\\xe9lliges|aufgebltiht|aufgeftlhrt|aufgeh\\\xe9ingt|aufgeh\\\xe9rt|aufgekl\\\xe9rt|aufger\\\xe9umt|aufgespiefit|aufgewiihlter|aufgez\\\xe9hlt|Aufh6ren|aufhbren|aufhdrf|aufhfiren|aufhiiren|Aufhoren|Aufh\\\xe9iren|aufh\\\xe9ngen|Aufh\\\xe9ren|aufh\\\xe9renl|aufi|Aufienministerium|aufier|Aufierdem|aufiergew\\\xe9hnliche|aufierhalb|Aufierirdischer|Aufierlich|aufierordentlich|Aufkenposten|aufkisen|aufkl\\\xe9ren|Aufkl\\\xe9rung|aufl|Aufl6sung|aufliisen|auflser|aufl\\\xe9sen|aufmiibeln|aufraumte|aufr\\\xe9umen|aufschlief\\$en|Aufschlull|aufSer|aufSIJBigkeiten|aufspturen|aufstellenl|Aufst\\\xe9ndige|aufTanis|Auftr\\\xe9ge|aufvv\\\xe9ndigen|aufw\\\xe9ichst|aufw\\\xe9rmen|aufZ\\>er|Aufztlge|aufzuhiivren|aufzukl\\\xe9ren|aufzuldsen|aufzur\\\xe9umen|aufz\\\xe9hlen|auf\\\xe9er|auf\\\ufb02iegen|Augenm\\\xe9igen|aul\\'5er|aul3er|Aul3erdem|aul5er|aulier|Aulierdem|auliergewfihnlich|aulierhalb|Aulierirdischen|auller|aullerhalb|AulSer|AulSerdem
'eng': {'BeginLines': {'data': OrderedDict([(u'lgot it', u'I got it'), (u'Don,t ', u"Don't "), (u'Can,t ', u"Can't "), (u'Let,s ', u"Let's "), (u'He,s ', u"He's "), (u'I,m ', u"I'm "), (u'I,ve ', u"I've "), (u'I,ll ', u"I'll "), (u'You,ll ', u"You'll "), (u'T hey ', u'They '), (u'T here ', u'There '), (u'W here ', u'Where '), (u'M aybe ', u'Maybe '), (u'S hould ', u'Should '), (u'|was', u'I was'), (u'|am ', u'I am'), (u'No w, ', u'Now, '), (u'l... I ', u'I... I '), (u'L... I ', u'I... I '), (u'lrn gonna', u"I'm gonna"), (u"-l don't", u"-I don't"), (u"l don't", u"I don't"), (u'L ', u'I '), (u'-L ', u'-I '), (u'- L ', u'- I '), (u'-l ', u'-I '), (u'- l ', u'- I '), (u'G0', u'Go'), (u'GO get', u'Go get'), (u'GO to', u'Go to'), (u'GO for', u'Go for'), (u'Ifl', u'If I'), (u"lt'll", u"It'll"), (u"Lt'll", u"It'll"), (u'IVIa', u'Ma'), (u'IVIu', u'Mu'), (u'0ne', u'One'), (u'0nly', u'Only'), (u'0n ', u'On '), (u'lt ', u'It '), (u'Lt ', u'It '), (u"lt's ", u"It's "), (u"Lt's ", u"It's "), (u'ln ', u'In '), (u'Ln ', u'In '), (u'l-in ', u'I-in '), (u'l-impossible', u'I-impossible'), (u'l- impossible', u'I-impossible'), (u'L- impossible', u'I-impossible'), (u"l-isn't ", u"I-isn't "), (u"L-isn't ", u"I-isn't "), (u"l- isn't ", u"I-isn't "), (u"L- isn't ", u"I-isn't "), (u'l- l ', u'I-I '), (u'L- l ', u'I-I '), (u'l- it ', u'I-it '), (u'L- it ', u'I-it '), (u'Ls it ', u'Is it '), (u'Ls there ', u'Is there '), (u'Ls he ', u'Is he '), (u'Ls she ', u'Is she '), (u'L can', u'I can'), (u'l can', u'I can'), (u"L'm ", u"I'm "), (u"L' m ", u"I'm "), (u"Lt' s ", u"It's "), (u"I']I ", u"I'll "), (u'...ls ', u'...Is '), (u'- ls ', u'- Is '), (u'...l ', u'...I '), (u'Ill ', u"I'll "), (u'L hope ', u'I hope '), (u"|\u2019E'$ ", u"It's "), (u"The y're ", u"They're "), (u'<i>/ ', u'<i>I '), (u'/ ', u'I '), (u'<i>/n ', u'<i>In '), (u'/n ', u'In '), (u'<i>Ana\u2019 ', u'<i>And '), (u"<i>Ana' ", u'<i>And '), (u'~ ', u'- '), (u"<i>A'|'|'EN BOROUGH:", u'<i>ATTENBOROUGH:'), (u"A'|'|'EN BOROUGH:", u'ATTENBOROUGH:'), (u"DAVID A'|'|'EN BOROUGH:", u'DAVID ATTENBOROUGH:'), (u"AT|'EN BOROUGH:", u'ATTENBOROUGH:'), (u"DAVID AT|'EN BOROUGH:", u'DAVID ATTENBOROUGH:'), (u"<i>AT|'EN BOROUGH:", u'<i>ATTENBOROUGH:'), (u'TH REE ', u'THREE '), (u'NARRA TOR', u'NARRATOR'), (u'<i>NARRA TOR', u'<i>NARRATOR'), (u"lt'syour", u"It's your"), (u"It'syour", u"It's your"), (u'Ls ', u'Is '), (u'I ve ', u"I've "), (u'I ii ', u"I'll "), (u'I m ', u"I'm "), (u'Why d ', u"Why'd "), (u'why d ', u"Why'd "), (u'Couldn t ', u"Couldn't "), (u'couldn t ', u"Couldn't "), (u'That s ', u"That's "), (u'that s ', u"That's "), (u'l ', u'I ')]),
'pattern': u"(?um)^(?:lgot\\ it|Don\\,t\\ |Can\\,t\\ |Let\\,s\\ |He\\,s\\ |I\\,m\\ |I\\,ve\\ |I\\,ll\\ |You\\,ll\\ |T\\ hey\\ |T\\ here\\ |W\\ here\\ |M\\ aybe\\ |S\\ hould\\ |\\|was|\\|am\\ |No\\ w\\,\\ |l\\.\\.\\.\\ I\\ |L\\.\\.\\.\\ I\\ |lrn\\ gonna|\\-l\\ don\\'t|l\\ don\\'t|L\\ |\\-L\\ |\\-\\ L\\ |\\-l\\ |\\-\\ l\\ |G0|GO\\ get|GO\\ to|GO\\ for|Ifl|lt\\'ll|Lt\\'ll|IVIa|IVIu|0ne|0nly|0n\\ |lt\\ |Lt\\ |lt\\'s\\ |Lt\\'s\\ |ln\\ |Ln\\ |l\\-in\\ |l\\-impossible|l\\-\\ impossible|L\\-\\ impossible|l\\-isn\\'t\\ |L\\-isn\\'t\\ |l\\-\\ isn\\'t\\ |L\\-\\ isn\\'t\\ |l\\-\\ l\\ |L\\-\\ l\\ |l\\-\\ it\\ |L\\-\\ it\\ |Ls\\ it\\ |Ls\\ there\\ |Ls\\ he\\ |Ls\\ she\\ |L\\ can|l\\ can|L\\'m\\ |L\\'\\ m\\ |Lt\\'\\ s\\ |I\\'\\]I\\ |\\.\\.\\.ls\\ |\\-\\ ls\\ |\\.\\.\\.l\\ |Ill\\ |L\\ hope\\ |\\|\\\u2019E\\'\\$\\ |The\\ y\\'re\\ |\\<i\\>\\/\\ |\\/\\ |\\<i\\>\\/n\\ |\\/n\\ |\\<i\\>Ana\\\u2019\\ |\\<i\\>Ana\\'\\ |\\~\\ |\\<i\\>A\\'\\|\\'\\|\\'EN\\ BOROUGH\\:|A\\'\\|\\'\\|\\'EN\\ BOROUGH\\:|DAVID\\ A\\'\\|\\'\\|\\'EN\\ BOROUGH\\:|AT\\|\\'EN\\ BOROUGH\\:|DAVID\\ AT\\|\\'EN\\ BOROUGH\\:|\\<i\\>AT\\|\\'EN\\ BOROUGH\\:|TH\\ REE\\ |NARRA\\ TOR|\\<i\\>NARRA\\ TOR|lt\\'syour|It\\'syour|Ls\\ |I\\ ve\\ |I\\ ii\\ |I\\ m\\ |Why\\ d\\ |why\\ d\\ |Couldn\\ t\\ |couldn\\ t\\ |That\\ s\\ |that\\ s\\ |l\\ )"},
'EndLines': {'data': OrderedDict([(u', sin', u', sir.'), (u' mothen', u' mother.'), (u" can't_", u" can't."), (u' openiL', u' open it.'), (u' of\ufb02', u' off!'), (u'pshycol', u'psycho!'), (u' i...', u' I...'), (u' L.', u' I.')]),
'pattern': u"(?um)(?:\\,\\ sin|\\ mothen|\\ can\\'t\\_|\\ openiL|\\ of\\\ufb02|pshycol|\\ i\\.\\.\\.|\\ L\\.)$"},
'PartialLines': {'data': OrderedDict([(u' /be ', u' I be '), (u" aren '1'", u" aren't"), (u" aren'tyou", u" aren't you"), (u" doesn '1'", u" doesn't"), (u" fr/eno'", u' friend'), (u" fr/eno'.", u' friend.'), (u" haven 'z' ", u" haven't "), (u" haven 'z'.", u" haven't."), (u' I ha ve ', u' I have '), (u" I']I ", u" I'll "), (u' L am', u' I am'), (u' L can', u' I can'), (u" L don't ", u" I don't "), (u' L hate ', u' I hate '), (u' L have ', u' I have '), (u' L like ', u' I like '), (u' L will', u' I will'), (u' L would', u' I would'), (u" L'll ", u" I'll "), (u" L've ", u" I've "), (u' m y family', u' my family'), (u" 's ", u"'s "), (u" shou/dn '1 ", u" shouldn't "), (u" won 'z' ", u" won't "), (u" won 'z'.", u" won't."), (u" wou/c/n 'z' ", u" wouldn't "), (u" wou/c/n 'z'.", u" wouldn't."), (u" wou/dn 'z' ", u" wouldn't "), (u" wou/dn 'z'.", u" wouldn't."), (u'/ did', u'I did'), (u'/ have ', u'I have '), (u'/ just ', u'I just '), (u'/ loved ', u'I loved '), (u'/ need', u'I need'), (u'|was11', u'I was 11'), (u'at Hrst', u'at first'), (u"B ullshiz'", u'Bullshit'), (u'big lunk', u'love you'), (u"can 't", u"can't"), (u"can' t ", u"can't "), (u"can 't ", u"can't "), (u'CHA TTERING', u'CHATTERING'), (u'come 0n', u'come on'), (u'Come 0n', u'Come on'), (u"couldn 't", u"couldn't"), (u"couldn' t ", u"couldn't "), (u"couldn 't ", u"couldn't "), (u"Destin y's", u"Destiny's"), (u"didn 't", u"didn't"), (u"didn' t ", u"didn't "), (u"didn 't ", u"didn't "), (u"Doesn '1'", u"Doesn't"), (u"doesn '1' ", u"doesn't "), (u"doesn '1\u2018 ", u"doesn't "), (u"doesn 't", u"doesn't"), (u"doesn'1' ", u"doesn't "), (u"doesn'1\u2018 ", u"doesn't "), (u"don '1' ", u"don't "), (u"don '1\u2018 ", u"don't "), (u"don '2' ", u"don't "), (u" aren '2'", u" aren't"), (u"aren '2' ", u"aren't "), (u"don '2\u2018 ", u"don't "), (u"don 't", u"don't"), (u"Don' t ", u"Don't "), (u"Don 't ", u"Don't "), (u"don'1' ", u"don't "), (u"don'1\u2018 ", u"don't "), (u"there '5 ", u"there's "), (u'E very', u'Every'), (u'get 0n', u'get on'), (u'go 0n', u'go on'), (u'Go 0n', u'Go on'), (u"H3993' birthday", u'Happy birthday'), (u"hadn 't", u"hadn't"), (u"he 's", u"he's"), (u"He 's", u"He's"), (u'He y', u'Hey'), (u'he)/', u'hey'), (u'He)/', u'Hey'), (u'HEA VY', u'HEAVY'), (u'Henry ll', u'Henry II'), (u'Henry lll', u'Henry III'), (u'Henry Vlll', u'Henry VIII'), (u'Henry Vll', u'Henry VII'), (u'Henry Vl', u'Henry VI'), (u'Hold 0n', u'Hold on'), (u'I am. ls', u'I am. Is'), (u'I d0', u'I do'), (u"I 'm", u"I'm"), (u"I 'rn ", u"I'm "), (u"I 've", u"I've"), (u'I0 ve her', u'love her'), (u'I0 ve you', u'love you'), (u"I02'", u'lot'), (u"I'm sony", u"I'm sorry"), (u"isn' t ", u"isn't "), (u"isn 't ", u"isn't "), (u'K)/le', u'Kyle'), (u'L ook', u'Look'), (u'let me 90', u'let me go'), (u'Let me 90', u'Let me go'), (u"let's 90", u"let's go"), (u"Let's 90", u"Let's go"), (u'lfl had', u'If I had'), (u'lova you', u'love you'), (u'Lova you', u'love you'), (u'lovo you', u'love you'), (u'Lovo you', u'love you'), (u'ls anyone', u'Is anyone'), (u'ls he', u'Is he'), (u'-ls he', u'- Is he'), (u'ls it', u'Is it'), (u'-ls it', u'- Is it'), (u'ls she', u'Is she'), (u'-ls she', u'- Is she'), (u'ls that', u'Is that'), (u'-ls that', u'- Is that'), (u'ls this', u'Is this'), (u'-ls this', u'- Is this'), (u'Maze] tov', u'Mazel tov'), (u"N02' ", u'Not '), (u' of 0ur ', u' of our '), (u' ot mine ', u' of mine '), (u'PLA YING', u'PLAYING'), (u'REPEA TING ', u'REPEATING '), (u'Sa y', u'Say'), (u"she 's", u"she's"), (u"She 's", u"She's"), (u"shouldn 't", u"shouldn't"), (u'sta y', u'stay'), (u'Sta y', u'Stay'), (u'SWO rd', u'Sword'), (u'taka care', u'take care'), (u'Taka care', u'Take care'), (u'the Hrst', u'the first'), (u'toc late', u'too late'), (u'uf me', u'of me'), (u'uf our', u'of our'), (u'wa y', u'way'), (u'Wal-I\\/Iart', u'Wal-Mart'), (u"wasn '1' ", u"wasn't "), (u"Wasn '1' ", u"Wasn't "), (u"wasn '1\u2018 ", u"wasn't "), (u"Wasn '1\u2018 ", u"Wasn't "), (u"wasn 't", u"wasn't"), (u"Wasn 't", u"Wasn't"), (u"we 've", u"we've"), (u"We 've", u"We've"), (u"wem' off", u'went off'), (u"weren 't", u"weren
'pattern': u"(?um)(?:(?<=\\s)|(?<=^)|(?<=\\b))(?:\\ \\/be\\ |\\ aren\\ \\'1\\'|\\ aren\\'tyou|\\ doesn\\ \\'1\\'|\\ fr\\/eno\\'|\\ fr\\/eno\\'\\.|\\ haven\\ \\'z\\'\\ |\\ haven\\ \\'z\\'\\.|\\ I\\ ha\\ ve\\ |\\ I\\'\\]I\\ |\\ L\\ am|\\ L\\ can|\\ L\\ don\\'t\\ |\\ L\\ hate\\ |\\ L\\ have\\ |\\ L\\ like\\ |\\ L\\ will|\\ L\\ would|\\ L\\'ll\\ |\\ L\\'ve\\ |\\ m\\ y\\ family|\\ \\'s\\ |\\ shou\\/dn\\ \\'1\\ |\\ won\\ \\'z\\'\\ |\\ won\\ \\'z\\'\\.|\\ wou\\/c\\/n\\ \\'z\\'\\ |\\ wou\\/c\\/n\\ \\'z\\'\\.|\\ wou\\/dn\\ \\'z\\'\\ |\\ wou\\/dn\\ \\'z\\'\\.|\\/\\ did|\\/\\ have\\ |\\/\\ just\\ |\\/\\ loved\\ |\\/\\ need|\\|was11|at\\ Hrst|B\\ ullshiz\\'|big\\ lunk|can\\ \\'t|can\\'\\ t\\ |can\\ \\'t\\ |CHA\\ TTERING|come\\ 0n|Come\\ 0n|couldn\\ \\'t|couldn\\'\\ t\\ |couldn\\ \\'t\\ |Destin\\ y\\'s|didn\\ \\'t|didn\\'\\ t\\ |didn\\ \\'t\\ |Doesn\\ \\'1\\'|doesn\\ \\'1\\'\\ |doesn\\ \\'1\\\u2018\\ |doesn\\ \\'t|doesn\\'1\\'\\ |doesn\\'1\\\u2018\\ |don\\ \\'1\\'\\ |don\\ \\'1\\\u2018\\ |don\\ \\'2\\'\\ |\\ aren\\ \\'2\\'|aren\\ \\'2\\'\\ |don\\ \\'2\\\u2018\\ |don\\ \\'t|Don\\'\\ t\\ |Don\\ \\'t\\ |don\\'1\\'\\ |don\\'1\\\u2018\\ |there\\ \\'5\\ |E\\ very|get\\ 0n|go\\ 0n|Go\\ 0n|H3993\\'\\ birthday|hadn\\ \\'t|he\\ \\'s|He\\ \\'s|He\\ y|he\\)\\/|He\\)\\/|HEA\\ VY|Henry\\ ll|Henry\\ lll|Henry\\ Vlll|Henry\\ Vll|Henry\\ Vl|Hold\\ 0n|I\\ am\\.\\ ls|I\\ d0|I\\ \\'m|I\\ \\'rn\\ |I\\ \\'ve|I0\\ ve\\ her|I0\\ ve\\ you|I02\\'|I\\'m\\ sony|isn\\'\\ t\\ |isn\\ \\'t\\ |K\\)\\/le|L\\ ook|let\\ me\\ 90|Let\\ me\\ 90|let\\'s\\ 90|Let\\'s\\ 90|lfl\\ had|lova\\ you|Lova\\ you|lovo\\ you|Lovo\\ you|ls\\ anyone|ls\\ he|\\-ls\\ he|ls\\ it|\\-ls\\ it|ls\\ she|\\-ls\\ she|ls\\ that|\\-ls\\ that|ls\\ this|\\-ls\\ this|Maze\\]\\ tov|N02\\'\\ |\\ of\\ 0ur\\ |\\ ot\\ mine\\ |PLA\\ YING|REPEA\\ TING\\ |Sa\\ y|she\\ \\'s|She\\ \\'s|shouldn\\ \\'t|sta\\ y|Sta\\ y|SWO\\ rd|taka\\ care|Taka\\ care|the\\ Hrst|toc\\ late|uf\\ me|uf\\ our|wa\\ y|Wal\\-I\\\\\\/Iart|wasn\\ \\'1\\'\\ |Wasn\\ \\'1\\'\\ |wasn\\ \\'1\\\u2018\\ |Wasn\\ \\'1\\\u2018\\ |wasn\\ \\'t|Wasn\\ \\'t|we\\ \\'ve|We\\ \\'ve|wem\\'\\ off|weren\\ \\'t|who\\ \\'s|won\\ \\'t|would\\ ha\\ ve|wouldn\\ \\'t|Wouldn\\ \\'t|y\\(\\)u|you\\ QUYS|you\\'\\ re\\ |you\\ \\'re\\ |you\\ \\'ve|You\\ \\'ve|you\\'\\ ve\\ |you\\ \\'ve\\ |aftera\\ while|Aftera\\ while|THUN\\ DERCLAPS|\\(BUZZI\\ N\\ G\\)|\\[BUZZI\\ N\\ G\\]|\\(G\\ RU\\ NTING|\\[G\\ RU\\ NTING|\\(G\\ ROWLING|\\[G\\ ROWLING|\\ WAI\\ LS\\)|\\ WAI\\ LS\\]|\\(scu\\ RRYING\\)|\\[scu\\ RRYING\\]|\\(GRUNT5\\)|\\[GRUNT5\\]|NARRA\\ TOR\\:|\\(GROAN\\ ING|\\[GROAN\\ ING|GROAN\\ ING\\)|GROAN\\ ING\\]|\\(LAUGH\\ ING|\\[LAUGH\\ ING|LAUGH\\ ING\\)|LAUGH\\ ING\\]|\\(BU\\ BBLING|\\[BU\\ BBLING|BU\\ BBLING\\)|BU\\ BBLING\\]|\\(SH\\ USHING|\\[SH\\ USHING|SH\\ USHING\\)|SH\\ USHING\\]|\\(CH\\ ILDREN|\\[CH\\ ILDREN|CH\\ ILDREN\\)|CH\\ ILDREN\\]|\\(MURMU\\ RING|\\[MURMU\\ RING|MURMU\\ RING\\)|MURMU\\ RING\\]|\\(GU\\ N\\ |\\[GU\\ N\\ |GU\\ N\\)|GU\\ N\\]|CH\\ ILDREN\\:|STU\\ DENTS\\:|\\(WH\\ ISTLE|\\[WH\\ ISTLE|WH\\ ISTLE\\)|WH\\ ISTLE\\]|U\\ LU\\ LATING|AU\\ DIENCE\\:|HA\\ WAIIAN|\\(ARTH\\ UR|\\[ARTH\\ UR|ARTH\\ UR\\)|ARTH\\ UR\\]|J\\ EREMY\\:|\\(ELEVA\\ TOR|\\[ELEVA\\ TOR|ELEVA\\ TOR\\)|ELEVA\\ TOR\\]|CONTIN\\ U\\ ES|WIN\\ D\\ HOWLING|telis\\ me|Telis\\ me|\\.\\ Ls\\ |\\!\\ Ls\\ |\\?\\ Ls\\ |\\.\\ Lt\\ |\\!\\ Lt\\ |\\?\\ Lt\\ |SQMEWH\\ ERE\\ ELSE|\\ I\\,m\\ |\\ I\\,ve\\ |\\ you\\,re\\ |\\ you\\,ll\\ |\\ doesn\\,t\\ |\\ let\\,s\\ |\\ he\\,s\\ |\\ it\\,s\\ |\\ can\\,t\\ |\\ Can\\,t\\ |\\ don\\,t\\ |\\ Don\\,t\\ |wouldn\\ \\'tyou|\\ lgot\\ it|\\ you\\,ve\\ |\\ I\\ ve\\ |\\ I\\ ii\\ |\\ I\\ m\\ |\\ why\\ d\\ |\\ couldn\\ t\\ |\\ that\\ s\\ |\\ i\\.\\.\\.\\ |L\\ don\\'t|L\\ won\\'t|L\\ should|L\\ had|L\\ happen|L\\ wasn\\'t|H\\ i|L\\ didn\\'t|L\\ do|L\\ could|L\\ will|L\\ suggest|L\\ reckon|L\\ am|L\\ couldn\\'t|L\\ might|L\\ would|L\\ was|L\\ know|L\\ think|L\\ haven\\'t|L\\ have\\ |L\\ want|L\\ can|L\\ love|L\\ like)(?:(?=\\s)|(?=$)|(?=\\b))"},
'PartialWordsAlways': {'data': OrderedDict([(u'\xa4', u'o'), (u'lVI', u'M'), (u'IVl', u'M'), (u'lVl', u'M'), (u'I\\/I', u'M'), (u'l\\/I', u'M'), (u'I\\/l', u'M'), (u'l\\/l', u'M'), (u'IVIa', u'Ma'), (u'IVIe', u'Me'), (u'IVIi', u'Mi'), (u'IVIo', u'Mo'), (u'IVIu', u'Mu'), (u'IVIy', u'My'), (u' l ', u' I '), (u'l/an', u'lian'), (u'\xb0x\xb0', u'%'), (u'\xc3\xc2s', u"'s"), (u'at/on', u'ation'), (u'lljust', u'll just'), (u"'sjust", u"'s just"), (u'";', u"'s"), (u'compiete', u'complete'), (u' L ', u' I '), (u'a/ion', u'ation'), (u'\xc2s', u"'s"), (u"'tjust", u"'t just")]),
6 years ago
'pattern': None},
'WholeLines': {'data': OrderedDict([(u'H ey.', u'Hey.'), (u'He)\u2019-', u'Hey.'), (u'N0.', u'No.'), (u'-N0.', u'-No.'), (u'Noll', u'No!!'), (u'(G ROANS)', u'(GROANS)'), (u'[G ROANS]', u'[GROANS]'), (u'(M EOWS)', u'(MEOWS)'), (u'[M EOWS]', u'[MEOWS]'), (u'Uaughs]', u'[laughs]'), (u'[chitte rs]', u'[chitters]'), (u'Hil\u2018 it!', u'Hit it!'), (u'<i>Hil\u2018 it!</i>', u'<i>Hit it!</i>'), (u'ISIGHS]', u'[SIGHS]')]),
'pattern': None},
'WholeWords': {'data': OrderedDict([(u'$COff$', u'scoffs'), (u'$ergei', u'Sergei'), (u"$'llOp", u'Stop'), (u"/'//", u"I'll"), (u"/'/I", u"I'll"), (u'/ennifer', u'Jennifer'), (u'/got', u'I got'), (u'/have', u'I have'), (u'/hope', u'I hope'), (u'/just', u'I just'), (u'/love', u'I love'), (u"/'m", u"I'm"), (u'/mmerse', u'immerse'), (u'/nsu/ts', u'Insults'), (u'/ong', u'long'), (u'/ook', u'look'), (u"/t's", u"It's"), (u"/'ve", u"I've"), (u"\\/\\/e'd", u"We'd"), (u"\\/\\/e're", u"We're"), (u"\\/\\/e've", u"We've"), (u'\\/\\/hat', u'What'), (u"\\/\\/here'd", u"Where'd"), (u'\\/\\/hoo', u'Whoo'), (u'\\/\\/hy', u'Why'), (u"\\/\\/hy'd", u"Why'd"), (u"\\/\\le're", u"We're"), (u'\\/Ve', u'We'), (u"\\Ne're", u"We're"), (u"\\Nhat's", u"What's"), (u"\\Nhere's", u"Where's"), (u"|'mjust", u"I'm just"), (u'\xa4ff', u'off'), (u'\xa4Id', u'old'), (u'\xa4Ids', u'olds'), (u'\xa4n', u'on'), (u'\xa4ne', u'one'), (u'\xa4nly', u'only'), (u'\xa4pen', u'open'), (u'\xa4r', u'or'), (u'\xa4rder', u'order'), (u'\xa4ther', u'other'), (u'\xa4ur', u'our'), (u'\xa4ut', u'out'), (u'\xa4ver', u'over'), (u'\xa4wn', u'own'), (u"\u20acV\u20acI'y", u'every'), (u"0'clock", u"o'clock"), (u'0f', u'of'), (u'0fEngland', u'of England'), (u'0fft0', u'off to'), (u'0l/er', u'over'), (u'0n', u'on'), (u'0ne', u'one'), (u"0ne's", u"one's"), (u'0r', u'or'), (u'0rders', u'orders'), (u"0thers'", u"others'"), (u'0ut', u'out'), (u"0utlaw's", u"outlaw's"), (u"0utlaws'", u"outlaws'"), (u'0ver', u'over'), (u'13oos', u'1300s'), (u'18oos', u'1800s'), (u'195os', u'1950s'), (u"1et's", u"let's"), (u'1o', u'10'), (u'1oo', u'100'), (u'1ooth', u'100th'), (u'1oth', u'10th'), (u'2E_', u'2E.'), (u"2'IST", u'21ST'), (u"2'Ist_", u"2'1st."), (u'2o', u'20'), (u'2oth', u'20th'), (u'3o', u'30'), (u'3oth', u'30th'), (u'4o', u'40'), (u'4os', u'40s'), (u'4oth', u'40th'), (u'50rry', u'sorry'), (u'5o', u'50'), (u'5oth', u'50th'), (u'6o', u'60'), (u'6os', u'60s'), (u"'6os", u"'60s"), (u'6oth', u'60th'), (u'7o', u'70'), (u"'7os", u"'70s"), (u'7oth', u'70th'), (u'8o', u'80'), (u"'8os", u"'80s"), (u'8oth', u'80th'), (u'9/aim', u'alarm'), (u'9o', u'90'), (u'9oth', u'90th'), (u'9UnShQt', u'gunshot'), (u'a//', u'all'), (u'a/bum', u'album'), (u'a/so', u'also'), (u'A/ways', u'Always'), (u'abcut', u'about'), (u'aboutjoining', u'about joining'), (u'aboutposh', u'about posh'), (u'aboutus', u'about us'), (u'aboutyou', u'about you'), (u'accldent', u'accident'), (u'Acool', u'A cool'), (u'afier', u'after'), (u'affraid', u'afraid'), (u'Afriend', u'A friend'), (u'afterall', u'after all'), (u'afterthe', u'after the'), (u'afulcrum', u'a fulcrum'), (u'Afunny', u'A funny'), (u'aga/nst', u'against'), (u'ahsolutes', u'absolutes'), (u'AI_I_', u'ALL'), (u'AIien', u'Alien'), (u'AIex', u'Alex'), (u'AII', u'All'), (u'AIIan', u'Allan'), (u'AIIow', u'Allow'), (u'AIive', u'Alive'), (u"ain'tgotno", u"ain't got no"), (u"Ain'tgotno", u"Ain't got no"), (u'airstrike', u'air strike'), (u'AIVIBULANCE', u'AMBULANCE'), (u'ajob', u'a job'), (u'ajockey_', u'a jockey.'), (u'ajoke', u'a joke'), (u'Ajoke', u'A joke'), (u'ajoking', u'a joking'), (u'al/', u'all'), (u'al/en', u'alien'), (u'alittle', u'a little'), (u'allgasp', u'all gasp'), (u'alljustforshow', u'all just for show'), (u"aln't", u"ain't"), (u'alot', u'a lot'), (u'Alot', u'A lot'), (u'An5wer', u'Answer'), (u'Andit', u'And it'), (u"Andit's", u"And it's"), (u'andl', u'and I'), (u'andlaughs', u'and laughs'), (u'andleave', u'and leave'), (u'andthe', u'and the'), (u'andyou', u'and you'), (u'Andyou', u'And you'), (u'ANNOUNC/NG', u'ANNOUNCING'), (u'anotherstep', u'another step'), (u'ANSWER/NG', u'ANSWERING'), (u'answerwhat', u'answer what'), (u'antiquejoke', u'antique joke'), (u"anyhcdy's", u"anybody's"), (u'Anyidea', u'Any idea'), (u"anyone's_", u"anyone's."), (u'apejust', u'ape just'), (u'ARABlc', u'ARABIC'), (u"aren't_", u"aren't."), (u"arerl't", u"aren't"), (u"Arnsteln's", u"Arnstein's"), (u'atleast', u'at least'), (u'Atough', u'A tough'), (u'Awhole', u'A whole'), (u'awoman', u'a woman'), (u'Awoman', u'A woman'), (u'barelytalked', u'barely talked'), (u'bcat', u'boat'), (u'Bcllvla'
'pattern': u'(?um)(\\b|^)(?:\\$COff\\$|\\$ergei|\\$\\\'llOp|\\/\\\'\\/\\/|\\/\\\'\\/I|\\/ennifer|\\/got|\\/have|\\/hope|\\/just|\\/love|\\/\\\'m|\\/mmerse|\\/nsu\\/ts|\\/ong|\\/ook|\\/t\\\'s|\\/\\\'ve|\\\\\\/\\\\\\/e\\\'d|\\\\\\/\\\\\\/e\\\'re|\\\\\\/\\\\\\/e\\\'ve|\\\\\\/\\\\\\/hat|\\\\\\/\\\\\\/here\\\'d|\\\\\\/\\\\\\/hoo|\\\\\\/\\\\\\/hy|\\\\\\/\\\\\\/hy\\\'d|\\\\\\/\\\\le\\\'re|\\\\\\/Ve|\\\\Ne\\\'re|\\\\Nhat\\\'s|\\\\Nhere\\\'s|\\|\\\'mjust|\\\xa4ff|\\\xa4Id|\\\xa4Ids|\\\xa4n|\\\xa4ne|\\\xa4nly|\\\xa4pen|\\\xa4r|\\\xa4rder|\\\xa4ther|\\\xa4ur|\\\xa4ut|\\\xa4ver|\\\xa4wn|\\\u20acV\\\u20acI\\\'y|0\\\'clock|0f|0fEngland|0fft0|0l\\/er|0n|0ne|0ne\\\'s|0r|0rders|0thers\\\'|0ut|0utlaw\\\'s|0utlaws\\\'|0ver|13oos|18oos|195os|1et\\\'s|1o|1oo|1ooth|1oth|2E\\_|2\\\'IST|2\\\'Ist\\_|2o|2oth|3o|3oth|4o|4os|4oth|50rry|5o|5oth|6o|6os|\\\'6os|6oth|7o|\\\'7os|7oth|8o|\\\'8os|8oth|9\\/aim|9o|9oth|9UnShQt|a\\/\\/|a\\/bum|a\\/so|A\\/ways|abcut|aboutjoining|aboutposh|aboutus|aboutyou|accldent|Acool|afier|affraid|Afriend|afterall|afterthe|afulcrum|Afunny|aga\\/nst|ahsolutes|AI\\_I\\_|AIien|AIex|AII|AIIan|AIIow|AIive|ain\\\'tgotno|Ain\\\'tgotno|airstrike|AIVIBULANCE|ajob|ajockey\\_|ajoke|Ajoke|ajoking|al\\/|al\\/en|alittle|allgasp|alljustforshow|aln\\\'t|alot|Alot|An5wer|Andit|Andit\\\'s|andl|andlaughs|andleave|andthe|andyou|Andyou|ANNOUNC\\/NG|anotherstep|ANSWER\\/NG|answerwhat|antiquejoke|anyhcdy\\\'s|Anyidea|anyone\\\'s\\_|apejust|ARABlc|aren\\\'t\\_|arerl\\\'t|Arnsteln\\\'s|atleast|Atough|Awhole|awoman|Awoman|barelytalked|bcat|Bcllvla|bcmb|bcmbs|be\\/\\/y|becuase|Beep\\/\\\'ng|bejumpy|besldes|bestfriend|bestguy|bestjob|BIack|BIess|bigos\\_\\_\\_|BIame|BIind|BIood|BIue|BLOVVS|blowholel|blt|Bo99|bodiedyoung|breakf\\\xe9wtl|bulldozlng|butjust|butl|Butl|butljust|Butljustcan\\\'tgetenough|Butyou\\\'re|buythem|buyyou|byjust|bythe|C\\/latter\\/\\\'\\/7g|ca\\/\\/\\/ng|ca\\/I|call\\/ng|callyou|can\\*t|can\\\'i|can\\\'I|canlgetyou|cannotchange|cannut|can\\\'T|can\\\'t\\_|can\\\'tjust|can\\\'tletgo|Car0l|Carhorn|carrled|Ccug|Ccugs|Ccver|cellularchange|cff|cfycu|cfycur|Ch\\/rping|chaletgirl|changejobs|Charliejust|Chatter\\/\\\'rtg|CHATTERWG|Chequeredlove|cHIRPINcs|chjldishness|chlldrcn|chlldren|chocolatte|Cho\\/r|cHucKl\\_Es|CIark|CIear|circumcised\\_|ckay|cl\\_osEs|CLATTERWG|cn|cne|cnes|Coincidenta\\/\\/y|COm\\\u20ac|comp\\/etey|complainingabout|coms|cond\\/lion|confdence|conhrmed|connrm|Consecutivelyl|COUGH5|CouGHING|couIdn\\\'t|couldjust|couldn\\\'T|couldn\\\'tjust|Couldyou|crappyjob|CRAsHING|crder|Crowdcheers|Cruoially|cther|cuuld|cver|d\\/\\\'dn\\\'t|d\\/squietude|D\\\xa4esn\\\'t|d\\\xa4n\\\'i|d\\\xa4n\\\'t|d\\\xb09|d0|D0|D0asn\\\'t|Dad\\\'\\/\\/|dairyjust|Dar\\/\\/ng|dc|Dcbby|dccsn\\\'t|dcctcr|Dces|dcgs|dcing|dcn\\\'I|dcn\\\'t|Dcn\\\'t|dcughnut|declslons|deedhas|Dehnitely|desewes|desperate\\/\\\xbby|D\\\ufb02nk|DIAl\\_lNcs|didn\\\'\\!|didnt|didn\\\'T|dIdn\\\'t|didn\\\'t\\_|didrft|didrl\\\'t|didyou|divorcing\\_|dld|dldn\\\'t|dlfflcull|dlg|dlsobeyed|doasn\\\'t|Doasn\\\'t|doctoh|Doctor\\_\\_\\_tell|doesnt|doesn\\\'T|doesri\\\'t|doesrt|Doesrt|doit|dojust|don\\*t|donejobs|don\\\'i|don\\\'l|Don\\\'l|Donllook|dont|don\\\'T|don\\\'tcare|don\\\'tjoke|Don\\\'tjudge|don\\\'tjust|Don\\\'tjust|Don\\\'tlet|don\\\'tlhink|don\\\'tpush|Don\\\'tyou|DonWlook|Dooropens|doorshuts|dothat|dothis|Drinkthis|dumbass|dumbto|dun\\\'t|E\\/\\/e|E9YPt|ea\\/\\\'t\\/7|eart\\/7|efi\\\'\\/\\\'c\\/\\\'ent|EN\\<3LlsH|Enjoythe|Erv\\\\\\/an|Erv\\\\\\/an\\\'s|etemity|ev\\/I|eve\\/yone|even\\/body\\\'s|eversay|Everymonth|everythings|Everythirlg\\\'s|Everythlng\\\'s|Everytime|Exac\\\ufb02y|ExacUy\\_|excitedshrieking|ExcLAllvls|exploatation|expreusion|fairthat|Fathef|fatherfigure|FBl|fcrebcdlng|fcreverjudges|fcund|feeleverything|feelsweet|fiam\\/\\\'\\/y|\\\ufb01ngernail|finishedjunior|FIynn|flll|flra|Flylng|Fnends|fo\\/low|fonzvard|fora|Fora|forajob|forAmerica|forNew|forone|forso|Forsuch|forsunburns|forthe|Foryears|foryou|Foudeen|Fou\\\ufb02een|FourSeasons|fr\\/ends|freezerfood|F\\\xfchrerfeels|furthernotice|furyou|G0|g0in9|gamlenias|GAsPING|gc|gcing|gcnna|G
'fin': {'BeginLines': {'data': OrderedDict(),
'pattern': None},
'EndLines': {'data': OrderedDict(),
'pattern': None},
'PartialLines': {'data': OrderedDict(),
'pattern': None},
'PartialWordsAlways': {'data': OrderedDict(),
6 years ago
'pattern': None},
'WholeLines': {'data': OrderedDict([(u'Katsokaa pa.', u'Katsokaapa.'), (u'Mik!\r\n""e\u201c9ir\xe4\u0131', u'Mik!\r\n-Hengit\xe4!'), (u'Tu lta!', u'Tulta!'), (u'...0I1...', u'...on...'), (u'Ken g\xe4n nauh oja?', u'Keng\xe4nnauhoja?'), (u'k\xe3mmott\xe3V\xe3ll\xe3 mUiStoll\xe3.', u'kammottavana muistona.'), (u'H\xe4n n\xe4ki naisen menev\xe4n\r\nkellarikerroksen ksen asun to o ns\xe4.', u'H\xe4n n\xe4ki naisen menev\xe4n\r\nkellarikerroksen asuntoonsa.'), (u'Min\xe4 etsin k\xe4siini miehen, joka\r\non aurtanutiestradea ja minua:', u'Min\xe4 etsin k\xe4siini miehen, joka\r\non auttanut Lestradea ja minua:'), (u'Huomaa erityisesti\r\npunaisella merkitty "kitoris.', u'Huomaa erityisesti\r\npunaisella merkitty "klitoris".'), (u'Tulkaa, meill\xe4 on\r\nHa va\u0131ji-bileet suihkussa', u'Tulkaa, meill\xe4 on\r\nHavaiji-bileet suihkussa'), (u'Ta rkoitatko ett\xe4\r\nh\xe4net myrkytettiin?', u'Tarkoitatko ett\xe4\r\nh\xe4net myrkytettiin?'), (u'Odotta kaa soittoani\r\nIev\xe4hdyspaikalla.', u'Odottakaa soittoani\r\nlev\xe4hdyspaikalla.'), (u'Nyt kuuntelet, perska rva.', u'Nyt kuuntelet, perskarva.'), (u'Ta patko h\xe4net sitten?', u'Tapatko h\xe4net sitten?'), (u'Seuraa vissa va/oissa.', u'Seuraavissa valoissa.'), (u'A\u0131o\u0131t rapattaa minut.\r\n- En.', u'Aioit tapattaa minut.\r\n- En.'), (u'Todella vaku uttavaa.', u'Todella vakuuttavaa.'), (u'I-le ovat tuolla alhaalla', u'He ovat tuolla alhaalla'), (u'Nainen kuuluu minulle.\r\n- I-I\xe0ivy siit\xe4, ylikasvuinen hyttynen!', u'Nainen kuuluu minulle.\r\n- H\xe4ivy siit\xe4, ylikasvuinen hyttynen!'), (u'I-Ialuatte k\xe4ytt\xe4\xe4 pyh\xe0\xe0 kive\xe4\r\ndynastian aarteen l\xf6yt\xe4miseksi.', u'Haluatte k\xe4ytt\xe4\xe4 pyh\xe0\xe0 kive\xe4\r\ndynastian aarteen l\xf6yt\xe4miseksi.'), (u'Mit\xe4f?', u'Mit\xe4.. ?'), (u'Kuuluuko Hiru ko-klaanista mit\xe4\xe4n?\r\n- Ninjasoturit ovat edell\xe4mme.', u'Kuuluuko Hiruko-klaanista mit\xe4\xe4n?\r\n- Ninjasoturit ovat edell\xe4mme.'), (u'Anteeks\u0131} painoin kai... -', u'Anteeksi, painoin kai... -'), (u'ja Rea! Ho usew\xedves.', u'ja Real Housewives.'), (u'Et halu n n ut Julkkistansseihinkaan.', u'Et halunnut Julkkistansseihinkaan.'), (u'Laard i k\xe4si?', u'Laardik\xe4si?'), (u'Varo kaa!', u'Varokaa!'), (u'N\xe4ytt\xe4v\xe4t k\xf6 tyt\xf6t v\xe4h \xe4n\r\nh uorahtavi m m i lta?', u'N\xe4ytt\xe4v\xe4tk\xf6 tyt\xf6t v\xe4h\xe4n\r\nhuorahtavimmilta?'), (u'Stif... Ier.', u'Stif... ler.'), (u'J u mantsu kka! M it\xe4?', u'Jumantsukka! Mit\xe4?'), (u'Varasin Ch u m bawam ban,', u'Varasin Chumbawamban,'), (u'J u malavita!', u'Jumalavita!'), (u'S', u'Isi...'), (u'Haluan kertoa jotai n', u'Haluan kertoa jotain'), (u'I-Ialuatte', u'Haluatte')]),
'pattern': None},
'WholeWords': {'data': OrderedDict([(u'kellojo', u'kello jo'), (u'onjo', u'on jo'), (u'senj\xe4lkeen', u'sen j\xe4lkeen'), (u'Ts\xe4u', u'Tsau'), (u'hydraulinenjousitus', u'hydraulinen jousitus'), (u'Kevyetja', u'Kevyet ja'), (u'Oleijo', u'Olet jo'), (u'viimeinenjuna', u'viimeinen juna'), (u'n\xe4ytt\xe4\xe4jotenkin', u'n\xe4ytt\xe4\xe4 jotenkin'), (u'onjoku', u'on joku'), (u'Iapsuuteen', u'Lapsuuteen'), (u'Ieikitjunill\xe4', u'leikit junilla'), (u'Sfiy', u'Stig'), (u'Iukulasejani', u'Lukulasejani'), (u'Ieikkiminen', u'Leikkiminen'), (u'K\xe4\xe4lik\xe4\xe4rylepizz\xe4', u'Kaalik\xe4\xe4rylepizza'), (u'sukl\xe4\xe4k\xe4stikkeen', u'suklaakastikkeen'), (u'p\xe4istetun', u'paistetun'), (u'b\xe4n\xe4\xe4nin', u'banaanin'), (u'pifi', u'piti'), (u'a\u0131keasfaan', u'oikeastaan'), (u'Stg', u'Stig'), (u'sikain\ufb02uenssatja', u'sikainfluenssat ja'), (u'Hienojuna', u'Hieno juna'), (u'kiinnostuajunista', u'kiinnostua junista'), (u'h\xe4y\u0131yvetu\u0131\xedn', u'h\xf6yryveturin'), (u'pienaismalli', u'pienoismalli'), (u'ena', u'eno'), (u'racfios\xe3hk\xe4ff\xe1j\xe3n\xe3', u'radios\xe4hk\xf6tt\xe4j\xe4n\xe4'), (u'Amenkan', u'Amerikan'), (u'laiva/la', u'laivalla'), (u'0/in', u'Olin'), (u'Junaha\u0131rasfus', u'Junaharrastus'), (u'enasfa', u'enosta'), (u'/V\u0131\xedn', u'Niin'), (u'Oliivarmasii', u'Olit varmasti'), (u'Internetist\xe4juuri', u'Internetist\xe4 juuri'), (u'hu\u0131janj\xe3nniff\xe5v\xe3\xe0l', u'hurjan j\xe4nnitt\xe4v\xe4\xe4.'), (u'Vaikkajunat', u'Vaikka junat'), (u'k\xe4\xe4ntyija', u'k\xe4\xe4ntyi ja'), (u'osaajotain', u'osaa jotain'), (u'Ieikill\xe4mme', u'leikill\xe4mme'), (u'Bellinjuna', u'Beltin juna'), (u't\xe4st\xe4johtolangasta', u't\xe4st\xe4 johtolangasta'), (u'tuntisijonkun', u'tuntisi jonkun'), (u'Olgajotain', u'Olga jotain'), (u'tulokseivuodesia', u'tulokset vuodesta'), (u'tuloksetvuodesta', u'tulokset vuodesta'), (u'Vainjalkapallo', u'Vain jalkapallo'), (u'lloveyou', u'I love you'), (u'po\ufb02\u2039aisi', u'potkaisi'), (u'minufulos', u'minut ulos'), (u'Ieiv\xe4npaahdinl', u'leiv\xe4npaahdin!'), (u'Ieiv\xe4npaahdinta', u'leiv\xe4npaahdinta'), (u'asuajossain', u'asua jossain'), (u'Koiratjuoksentelivat', u'Koirat juoksentelivat'), (u'tiet\xe4\xe4jotain', u'tiet\xe4\xe4 jotain'), (u'osaatjuna', u'osaat juna'), (u'va/as', u'valas'), (u'va/asperhe', u'valasperhe'), (u'koskeejotain', u'koskee jotain'), (u'I\xe4\xe4kkeens\xe4', u'l\xe4\xe4kkeens\xe4'), (u'Iaulavan', u'laulavan'), (u'Kuulitj\xe4\xe4n', u'Kuulit j\xe4\xe4n'), (u'Ievolle', u'levolle'), (u'Va/aa//e', u'Valaalle'), (u'va/aa//a', u'valaalla'), (u'I\xe4hdenkin', u'l\xe4hdenkin'), (u'Iakkiin', u'lakkiin'), (u'Iohik\xe4\xe4rmeell\xe4', u'lohik\xe4\xe4rmeell\xe4'), (u'Mik\u0131', u'Mik!'), (u'Iukossa', u'lukossa'), (u'Va/aan', u'Valaan'), (u's\xe4ve/m\xe4', u's\xe4velm\xe4'), (u'j\xe4//een', u'j\xe4lleen'), (u'P\xf6\xf6\u0131', u'P\xf6\xf6!'), (u'Hnjaa', u'Hiljaa'), (u'Iiftasin', u'liftasin'), (u'Jute//aan', u'Jutellaan'), (u'Iohduttamaan', u'lohduttamaan'), (u"L'lYP\xe4f\xe4\xe4n", u'Hyp\xe4t\xe4\xe4n'), (u'\xc4\u0131r\u0131\u0131', u'\xc4iti!'), (u'F\u0131\u0131\u0131p\u0131', u'Filip!'), (u'Yr\u203ar\u203a\xe4\xe4\u0131', u'Hypp\xe4\xe4!'), (u'Miki', u'Mik!'), (u'Heng\u0131r\xe4\u0131', u'Hengit\xe4!'), (u'Va/as', u'Valas'), (u'Ko///is', u'Koillis'), (u'Audieja', u'Audie ja'), (u'I/man', u'Ilman'), (u'/entotukia/ukse/ta', u'lentotukialukselta'), (u'/aivastosta', u'laivastosta'), (u'/entotukikohtaan', u'lentotukikohtaan'), (u'tu/ee', u'tulee'), (u'akse/iva//at', u'akselivallat'), (u'a\u0131\u0131ek\u0131rjo\u0131rerr\u0131\u0131n', u'allekirjoitettiin'), (u'Iitkua', u'litkua'), (u'0li', u'Oli'), (u'Iaskuvarjojoukkoihin', u'laskuvarjojoukkoihin'), (u'Iaskuvarjojoukoissa', u'laskuvarjojoukoissa'), (u'Tarvitsetjotain', u'Tarvitset jotain'), (u'Ieukaremmi', u'leukaremmi'), (u'Iainaatko', u'lainaatko'), (u'p\xe4\xe4llik\xf6lleja', u'p\xe4\xe4llik\xf6lle ja'), (u'I\xe4hell\xe4ni', u'l\xe4hell\xe4ni'), (u'Soti/aan', u'Sotilaan'), (u'va//attava', u'vallattava'), (u'viho//ise/ta', u'viholliselta'), (u'/iittoutuneet', u'liittoutuneet'), (u'voitjoh
'pattern': u"(?um)(\\b|^)(?:kellojo|onjo|senj\\\xe4lkeen|Ts\\\xe4u|hydraulinenjousitus|Kevyetja|Oleijo|viimeinenjuna|n\\\xe4ytt\\\xe4\\\xe4jotenkin|onjoku|Iapsuuteen|Ieikitjunill\\\xe4|Sfiy|Iukulasejani|Ieikkiminen|K\\\xe4\\\xe4lik\\\xe4\\\xe4rylepizz\\\xe4|sukl\\\xe4\\\xe4k\\\xe4stikkeen|p\\\xe4istetun|b\\\xe4n\\\xe4\\\xe4nin|pifi|a\\\u0131keasfaan|Stg|sikain\\\ufb02uenssatja|Hienojuna|kiinnostuajunista|h\\\xe4y\\\u0131yvetu\\\u0131\\\xedn|pienaismalli|ena|racfios\\\xe3hk\\\xe4ff\\\xe1j\\\xe3n\\\xe3|Amenkan|laiva\\/la|0\\/in|Junaha\\\u0131rasfus|enasfa|\\/V\\\u0131\\\xedn|Oliivarmasii|Internetist\\\xe4juuri|hu\\\u0131janj\\\xe3nniff\\\xe5v\\\xe3\\\xe0l|Vaikkajunat|k\\\xe4\\\xe4ntyija|osaajotain|Ieikill\\\xe4mme|Bellinjuna|t\\\xe4st\\\xe4johtolangasta|tuntisijonkun|Olgajotain|tulokseivuodesia|tuloksetvuodesta|Vainjalkapallo|lloveyou|po\\\ufb02\\\u2039aisi|minufulos|Ieiv\\\xe4npaahdinl|Ieiv\\\xe4npaahdinta|asuajossain|Koiratjuoksentelivat|tiet\\\xe4\\\xe4jotain|osaatjuna|va\\/as|va\\/asperhe|koskeejotain|I\\\xe4\\\xe4kkeens\\\xe4|Iaulavan|Kuulitj\\\xe4\\\xe4n|Ievolle|Va\\/aa\\/\\/e|va\\/aa\\/\\/a|I\\\xe4hdenkin|Iakkiin|Iohik\\\xe4\\\xe4rmeell\\\xe4|Mik\\\u0131|Iukossa|Va\\/aan|s\\\xe4ve\\/m\\\xe4|j\\\xe4\\/\\/een|P\\\xf6\\\xf6\\\u0131|Hnjaa|Iiftasin|Jute\\/\\/aan|Iohduttamaan|L\\'lYP\\\xe4f\\\xe4\\\xe4n|\\\xc4\\\u0131r\\\u0131\\\u0131|F\\\u0131\\\u0131\\\u0131p\\\u0131|Yr\\\u203ar\\\u203a\\\xe4\\\xe4\\\u0131|Miki|Heng\\\u0131r\\\xe4\\\u0131|Va\\/as|Ko\\/\\/\\/is|Audieja|I\\/man|\\/entotukia\\/ukse\\/ta|\\/aivastosta|\\/entotukikohtaan|tu\\/ee|akse\\/iva\\/\\/at|a\\\u0131\\\u0131ek\\\u0131rjo\\\u0131rerr\\\u0131\\\u0131n|Iitkua|0li|Iaskuvarjojoukkoihin|Iaskuvarjojoukoissa|Tarvitsetjotain|Ieukaremmi|Iainaatko|p\\\xe4\\\xe4llik\\\xf6lleja|I\\\xe4hell\\\xe4ni|Soti\\/aan|va\\/\\/attava|viho\\/\\/ise\\/ta|\\/iittoutuneet|voitjohtaa|pohditkojotain|viho\\/\\/ista|sej\\\xe4isi|Ient\\\xe4jill\\\xe4|Soltutl|Iaulustamme|Iakkiani|Iiemeen|kanadala\\\u0131\\\u0161ia|si\\/\\/anp\\\xe4\\\xe4asema|vahv\\\u0131\\\u0161tettiin|tu\\/ituki|eliitt\\\u0131joukkoa|pa\\\u0131ka\\\u0131\\\u0131as\\\u0131\\\u0131|Ieikkinyt|Iujitettu|Ete\\/\\\xe4|viho\\/\\/isranna\\/\\/e|sivusta\\/ta|\\/oppuisi|Iaskuvarjojoukkojen|p\\\xe4\\\xe4tt\\\xe4nytj\\\xe4\\\xe4d\\\xe4|Iuutnanteille|I\\\xe4ht\\\xf6valmiiksi|Iokoisat|Korjaus\\/ukemat|tanke\\/\\/\\/e|ky\\\u0131\\\u0131\\\xe4\\\u0131|Iisti\\\xe4|Kunniamita\\/in|Vemon|fied\\\xe3n|Ei\\\u0131is|Inlem\\\xe4tion\\\xe4|holelfss\\\xe4|Han\\\u0131ey|peikk\\\xe4|Ehisl\\\xe3|Y\\\ufb02\\\xe3ll\\\xe3v\\\xe3|mahdolisuus|loisteiaan|aku|Garonilie|Iikainen|vaiehtelijoita|puutari\\\u0131aasi|Garunin|oravaietti\\\xe4|paijon|sutja|gospeikvartetissa|Iauiajaksi|viihdylt\\\xe4j\\\xe4|hannaala|Iaulajalta|saatjotain|L\\\xf6yd\\\xe4njonkun|py\\\xfcr\\\xedyi|Cn\\\u0131dupia|Iiikaa|ke\\\u0131taa|Thafs|Kappaietta|soijoka|Levytl\\\xe4|paiaamista|kuonnunn|Tytt\\\xfcyst\\\xe4v\\\xe4t|k\\\xe3p\\\xe3l\\\xf6ifiin|Oiko|tuipalo|hebofiavaa|ongeina|ongeimia|Ajateikaa|ku\\\u0131ki|lhailen|L\\\xe4ht\\\xfcsi|yhti\\\xf6ile|eitoimi|voij\\\xe4\\\xe4d\\\xe4|Pomkat|kon\\\u0131ata|konsentien|Sep\\\xe3|hebolus|k\\\xfcyryss\\\xe4|repiat|kuikee|pon\\\u0131koita|naisetja|ten\\\u0131etuileeksi|yl\\\xe4puolelia|kuullut180|Iapsellista|esiinnytja|Iaulat|Henanjestas|teilie|IIe|t\\\xe4ilaisia|Varu|nimeli\\\xe4\\\xe4n|anneijaan|pen\\\u0131staa|minkkitu\\\u0131kkia|minkkituiiiilla|Ten\\\u0131etuioa|kuitalevy\\\xe4|ei\\\xe4m\\\xe4ss\\\xe4|jutkaisua|Fo\\\u0131t|oien|asioilie|Eitarvitsekaan|p\\\xf6kenyin|yll\\\xe4iiyy|komeaita|Chadie|laulaisilteko|Iaittaa|iytt\\\xe4renne|pikkutytt\\\xfcn\\\xe4|tytt\\\xfckulta|vimuilua|reporitereita|vime|eijohdu|eriiainen|Iasketa|kem\\\u0131ttu|Manyja|etteijutusta|Katifomiassa|sun\\\xb0filaudan|bn\\\u0131netti|vaimiina|yiim\\\xe4\\\xe4r\\\xe4iset|leffatj\\\xe4\\\xe4|koin\\'lle|T\\\xe4ilaisen|antanutjo|Cha\\\u0131lien|ymp\\\xe4riliesi|Iy\\\xfc|lopan\\'t|h\\\u0131isi|kuuiuvanijonnekin|juh\\\u0131n|miefkseni|Tuisitko|I\\\u0131on\\\xe4ni|\\\xe4k\\\xe4\\\xe4|yi|rupallelemaan|Priscilialla|Hemmoltelet|Hearlbreak|Holelia|Nyto
'fra': {'BeginLines': {'data': OrderedDict(),
'pattern': None},
'EndLines': {'data': OrderedDict(),
'pattern': None},
'PartialLines': {'data': OrderedDict([(u" I'", u" l'"), (u" |'", u" l'")]),
'pattern': u"(?um)(?:(?<=\\s)|(?<=^)|(?<=\\b))(?:\\ I\\'|\\ \\|\\')(?:(?=\\s)|(?=$)|(?=\\b))"},
'PartialWordsAlways': {'data': OrderedDict(),
6 years ago
'pattern': None},
'WholeLines': {'data': OrderedDict([(u'"D\'ac:c:ord."', u'"D\'accord."'), (u'\u201ci QU\xce gagne, qui perd,', u'ni qui gagne, qui perd,'), (u"L'ac:c:ent est mis \r\n \r\n sur son trajet jusqu'en Suisse.", u"L'accent est mis \r\n \r\n sur son trajet jusqu'en Suisse."), (u"C'est la plus gentille chose \r\n \r\n qu'Hitchc:oc:k m'ait jamais dite.", u"C'est la plus gentille chose \r\n \r\n qu'Hitchcock m'ait jamais dite."), (u"Tout le monde, en revanche, qualifie \r\n \r\n Goldfinger d'aventu re structur\xe9e,", u"Tout le monde, en revanche, qualifie \r\n \r\n Goldfinger d'aventure structur\xe9e,"), (u'et le film Shadow of a man \r\n \r\n a lanc\xe9 sa carri\xe8re au cin\xe9ma.', u'et le film <i>Shadow of a man</i> \r\n \r\n a lanc\xe9 sa carri\xe8re au cin\xe9ma.'), (u'En 1948, Young est pass\xe9 \xe0 la r\xe9alisation \r\n \r\n avec One night with you.', u'En 1948, Young est pass\xe9 \xe0 la r\xe9alisation \r\n \r\n avec <i>One night with you</i>.'), (u'Il a construit tous ces v\xe9hicules \r\n \r\n \xe0 C)c:ala, en Floride.', u'Il a construit tous ces v\xe9hicules \r\n \r\n \xe0 Ocala, en Floride.'), (u'Tokyo Pop et A Taxing Woman? Return.', u"Tokyo Pop et A Taxing Woman's Return."), (u'Peter H u nt.', u'Peter Hunt.'), (u'"C\'est bien mieux dans Peau. \r\n \r\n On peut s\ufb02\xe9clabousser, faire du bruit."', u'"C\'est bien mieux dans l\'eau. \r\n \r\n On peut s\'\xe9clabousser, faire du bruit."')]),
'pattern': None},
'WholeWords': {'data': OrderedDict([(u'@immatriculation', u"d'immatriculation"), (u'acquer', u'acqu\xe9r'), (u'acteurjoue', u'acteur joue'), (u'aerien', u'a\xe9rien'), (u'agreable', u'agr\xe9able'), (u'aientjamais', u'aient jamais'), (u'AII', u'All'), (u'aitjamais', u'ait jamais'), (u'aitjus', u'ait jus'), (u'alle', u'all\xe9'), (u'alles', u'all\xe9s'), (u'appele', u'appel\xe9'), (u'apres', u'apr\xe8s'), (u'aujourdhui', u"aujourd'hui"), (u'aupres', u'aupr\xe8s'), (u'beaute', u'beaut\xe9'), (u'cabossee', u'caboss\xe9e'), (u"carj'", u"car j'"), (u"Carj'", u"Car j'"), (u'carla', u'car la'), (u'CEdipe', u'\u0152dipe'), (u'Cest', u"C'est"), (u"c'etaient", u"c'\xe9taient"), (u'C\xe9taient', u"C'\xe9taient"), (u"c'etait", u"c'\xe9tait"), (u"C'etait", u"C'\xe9tait"), (u'C\xe9tait', u"C'\xe9tait"), (u'choregraphiee', u'chor\xe9graphi\xe9e'), (u'cinema', u'cin\xe9ma'), (u"cl'AIcatraz", u"d'Alcatraz"), (u'cles', u'cl\xe9s'), (u'c\u0153urjoie', u'c\u0153ur-joie'), (u'completer', u'compl\xe9ter'), (u'costumiere', u'costumi\xe8re'), (u'cree', u'cr\xe9\xe9'), (u'daccord', u"d'accord"), (u"d'AIbert", u"d'Albert"), (u"d'AIdous", u"d'Aldous"), (u"d'AIec", u"d'Alec"), (u'danniversaire', u"d'anniversaire"), (u"d'Arra'bida", u"d'Arrabida"), (u"d'autod\xe9rision", u"d'auto-d\xe9rision"), (u'dautres', u"d'autres"), (u'debattait', u'd\xe9battait'), (u'decor', u'd\xe9cor'), (u'decorateurs', u'd\xe9corateurs'), (u'decors', u'd\xe9cors'), (u'defi', u'd\xe9fi'), (u'dej\xe0', u'd\xe9j\xe0'), (u'd\xe9j\xe0m', u'd\xe9j\xe0...'), (u'dejeunait', u'd\xe9jeunait'), (u'dengager', u"d'engager"), (u'd\xe9quipement', u"d'\xe9quipement"), (u'd\xe9rni\xe8r\xe9', u'derni\xe8re'), (u'Desole', u'D\xe9sol\xe9'), (u'dessayage', u"d'essayage"), (u'dessence', u"d'essence"), (u'd\xe9taient', u"c'\xe9taient"), (u'detail', u'd\xe9tail'), (u'dexcellents', u"d'excellents"), (u'dexp\xe9rience', u"d'exp\xe9rience"), (u'dexp\xe9riences', u"d'exp\xe9riences"), (u"d'h\xe9ro'l'ne", u"d'h\xe9ro\xefne"), (u"d'idees", u"d'id\xe9es"), (u"d'intensite", u"d'intensit\xe9"), (u'dontj', u'dont j'), (u'doublaitAlfo', u'doublait Alfo'), (u'DrNo', u'Dr No'), (u"e'", u'\xe9'), (u'ecrit', u'\xe9crit'), (u'elegant', u'\xe9l\xe9gant'), (u'Ell\xe9', u'Elle'), (u'\xe9n', u'en'), (u'equipe', u'\xe9quipe'), (u'erjus', u'er jus'), (u'estjamais', u'est jamais'), (u'\xe9t', u'et'), (u'etaient', u'\xe9taient'), (u'etait', u'\xe9tait'), (u'ete', u'\xe9t\xe9'), (u'etiez', u'\xe9tiez'), (u"etj'", u"et j'"), (u"Etj'", u"Et j'"), (u'etje', u'et je'), (u'Etje', u'Et je'), (u'EtsouvenL', u'Et souvent'), (u'eviter', u'\xe9viter'), (u'Fabsence', u"l'absence"), (u'fadapter', u"t'adapter"), (u'fadore', u"j'adore"), (u'F\xe2ge', u"l'\xe2ge"), (u'Fagent', u"l'agent"), (u'faiessay\xe9', u"j'ai essay\xe9"), (u'Failure', u"l'alllure"), (u'Fambiance', u"l'ambiance"), (u'Famener', u"l'amener"), (u'Fanniversaire', u"l'anniversaire"), (u'Fapparence', u"l'apparence"), (u'Fapres', u"l'apres"), (u'Fapr\xe8s', u"l'apr\xe8s"), (u'Farm\xe9e', u"l'arm\xe9e"), (u'Farri\xe8re', u"l'arri\xe8re"), (u'Farriv\xe9e', u"l'arriv\xe9e"), (u'Fascenseur', u"l'ascenseur"), (u'Fascension', u"l'ascension"), (u'Fassaut', u"l'assaut"), (u'Fassomme', u"l'assomme"), (u'Fatmosph\xe8re', u"l'atmosph\xe8re"), (u'Fattention', u"l'attention"), (u'Favalanche', u"l'avalanche"), (u'F\xe9clairage', u"l'\xe9clairage"), (u'F\xe9cran', u"l'\xe9cran"), (u'F\xe9motion', u"l'\xe9motion"), (u'Femplacement', u"l'emplacement"), (u'Fendroit', u"l'endroit"), (u'Fenseigne', u"l'enseigne"), (u'Fensemble', u"l'ensemble"), (u'Fentouraient', u"l'entouraient"), (u'Fentr\xe9e', u"l'entr\xe9e"), (u'F\xe9paisseur', u"l'\xe9paisseur"), (u'F\xe9poque', u"l'\xe9poque"), (u'F\xe9quipe', u'\xc9quipe'), (u'Fespace', u"l'espace"), (u'fesp\xe9rais', u"j'esp\xe9rais"), (u'Fesp\xe8re', u"l'esp\xe8re"), (u'Festh\xe9tique', u"l'esth\xe9tique"), (u'Fetranger', u"l'etranger"), (u'F\xe9vasion', u"l'\xe9vasion"), (u'F\xe9voque', u"l'\xe9voque"), (u'Fexp\xe9rience', u"l'exp\xe9rience"), (u'Fexplique', u"l'explique"), (u'Fexplosion', u"l'explosion"), (u'Fext\xe9rieur', u"l'ext\xe9rie
'pattern': u"(?um)(\\b|^)(?:\\@immatriculation|acquer|acteurjoue|aerien|agreable|aientjamais|AII|aitjamais|aitjus|alle|alles|appele|apres|aujourdhui|aupres|beaute|cabossee|carj\\'|Carj\\'|carla|CEdipe|Cest|c\\'etaient|C\\\xe9taient|c\\'etait|C\\'etait|C\\\xe9tait|choregraphiee|cinema|cl\\'AIcatraz|cles|c\\\u0153urjoie|completer|costumiere|cree|daccord|d\\'AIbert|d\\'AIdous|d\\'AIec|danniversaire|d\\'Arra\\'bida|d\\'autod\\\xe9rision|dautres|debattait|decor|decorateurs|decors|defi|dej\\\xe0|d\\\xe9j\\\xe0m|dejeunait|dengager|d\\\xe9quipement|d\\\xe9rni\\\xe8r\\\xe9|Desole|dessayage|dessence|d\\\xe9taient|detail|dexcellents|dexp\\\xe9rience|dexp\\\xe9riences|d\\'h\\\xe9ro\\'l\\'ne|d\\'idees|d\\'intensite|dontj|doublaitAlfo|DrNo|e\\'|ecrit|elegant|Ell\\\xe9|\\\xe9n|equipe|erjus|estjamais|\\\xe9t|etaient|etait|ete|etiez|etj\\'|Etj\\'|etje|Etje|EtsouvenL|eviter|Fabsence|fadapter|fadore|F\\\xe2ge|Fagent|faiessay\\\xe9|Failure|Fambiance|Famener|Fanniversaire|Fapparence|Fapres|Fapr\\\xe8s|Farm\\\xe9e|Farri\\\xe8re|Farriv\\\xe9e|Fascenseur|Fascension|Fassaut|Fassomme|Fatmosph\\\xe8re|Fattention|Favalanche|F\\\xe9clairage|F\\\xe9cran|F\\\xe9motion|Femplacement|Fendroit|Fenseigne|Fensemble|Fentouraient|Fentr\\\xe9e|F\\\xe9paisseur|F\\\xe9poque|F\\\xe9quipe|Fespace|fesp\\\xe9rais|Fesp\\\xe8re|Festh\\\xe9tique|Fetranger|F\\\xe9vasion|F\\\xe9voque|Fexp\\\xe9rience|Fexplique|Fexplosion|Fext\\\xe9rieur|Fhabituelle|Fh\\\xe9licopt\\\xe8re|Fh\\\xe9liport|Fh\\\xe9listation|Fhonneur|Fhorloge|Fid\\\xe9e|Fimage|Fimportance|Fimpression|Finfluence|Finscription|Fint\\\xe9rieur|Fintrigue|Fobjectif|Foccasion|Fordre|Forigine|fr\\\xeare|gaylns|general|hawa\\\xefennel|hawa\\'l\\'en|Ia|I\\\xe0|Iaryngotomie|idee|idees|Ie|Ies|Iester|II|Iimit|IIs|immediatement|insufflee|integrer|interessante|Iogions|Iorsqu|isee|Iumiere|Iynchage|J\\'espere|Jessaie|j\\'etais|J\\'etais|lat\\\xe9ral\\\xe9m\\\xe9nt|lci|Lci|l\\\xe9\\-|lepidopteres|litteraire|ll|Ll|lls|Lls|maintenanu|maniere|mariee|Mayer\\/ing|meilleurjour|melange|n\\'avai\\\xe9nt|n\\'etait|oitjamais|oitjus|ontete|operateur|ouv\\\xe9rt\\\xe9|P\\\xe9preuve|pere|plateforme|pourjouer|precipice|preferes|premierjour|presenter|prevu|prevue|propriete|prot\\\xe8geraient|qu\\\xe9|qwangoiss\\\xe9|realisateur|reception|re\\\xe9valu|repute|reussi|s\\'arr\\\xe9tait|s\\'ave\\'rer|scenario|scene|scenes|seances|sequence|s\\\ufb02\\\xe9crasa|speciale|Supen|torturee|Uadmirable|Uensemblier|Uexplosion|Uouvre|Vaise|vecu|vehicules|\\\u0178appr\\\xe9ciais|\\\u0178esp\\\xe8re|\\\xff\\\xe9trangle)(\\b|$)"}},
'hrv': {'BeginLines': {'data': OrderedDict(),
'pattern': None},
'EndLines': {'data': OrderedDict(),
'pattern': None},
'PartialLines': {'data': OrderedDict([(u'Ako ej', u'Ako je'), (u'ako ej', u'ako je'), (u'bez svesti', u'bez svijesti'), (u'Bi\u0107u uz', u'Bit \u0107u uz'), (u'bi ja', u'bih ja'), (u'bi la', u'bila'), (u'biti uredu', u'biti u redu'), (u'bi da bude', u'bi biti'), (u'Bi ste', u'Biste'), (u'Bilo ko', u'Bilo tko'), (u'bilo ko', u'bilo tko'), (u'\u0107e da do\u0111e', u'\u0107e do\u0107i'), (u'Da li \u0107e', u'Ho\u0107e li'), (u'Da li \u0107emo', u'Ho\u0107emo li'), (u'Da li \u0107u', u'Ho\u0107u li'), (u'da li \u0107u', u'ho\u0107u li'), (u'dali \u0107u', u'ho\u0107u li'), (u'Da li je', u'Je li'), (u'da li je', u'je li'), (u'dali je', u'je li'), (u'Da li ste', u'Jeste li'), (u'Da li si', u'Jesi li'), (u'dali si', u'jesi li'), (u'da li \u0107e', u'ho\u0107e li'), (u'dali \u0107e', u'ho\u0107e li'), (u'do srede', u'do srijede'), (u'Dobro ve\u010de', u'Dobra ve\u010der'), (u'Dobro ve\u010der', u'Dobra ve\u010der'), (u'Dobar ve\u010der', u'Dobra ve\u010der'), (u'gdje ide\u0161', u'kamo ide\u0161'), (u'Gdje ide\u0161', u'Kamo ide\u0161'), (u'Gdje sada', u'Kamo sada'), (u'gle ko', u'gle tko'), (u'ho\u0107u da budem', u'\u017eelim biti'), (u'Ho\u0107u da budem', u'\u017delim biti'), (u'ho\u0107u da ka\u017eem', u'\u017eelim re\u0107i'), (u'ho\u0107e\u0161 da ka\u017ee\u0161', u'\u017eeli\u0161 re\u0107i'), (u'ho\u0107e da ka\u017ee', u'\u017eeli re\u0107i'), (u'ho\u0107u da \u017eivim', u'\u017eelim \u017eivjeti'), (u'Izvini se', u'Ispri\u010daj se'), (u'izvini se', u'ispri\u010daj se'), (u'Izvinite me', u'Ispri\u010dajte me'), (u'Izvinite nas', u'Ispri\u010dajte nas'), (u'izvinite nas', u'ispri\u010dajte nas'), (u'Izvinjavamo se', u'Ispri\u010davamo se'), (u'ja bi', u'ja bih'), (u'Ja bi', u'Ja bih'), (u'Jel sam ti', u'Jesam li ti'), (u'Jeli se', u'Je li se'), (u'Jeli sve', u'Je li sve'), (u'Jeli ti', u'Je li ti'), (u'ko je', u'tko je'), (u'ko si', u'tko si'), (u'ko ti je', u'tko ti je'), (u'ko te je', u'tko te je'), (u'ko zna', u'tko zna'), (u'mo\u0107i da idemo', u'mo\u0107i i\u0107i'), (u'moglo da bude', u'moglo biti'), (u'moje sau\u010de\u0161\u0107e', u'moja su\u0107ut'), (u'mora da bude', u'mora biti'), (u'moram da budem', u'moram biti'), (u'Moram da idem', u'Moram i\u0107i'), (u'moram da idem', u'moram i\u0107i'), (u'Mora\u0161 da ide\u0161', u'Mora\u0161 i\u0107i'), (u'Moramo da idemo', u'Moramo i\u0107i'), (u'moram da vidim', u'moram vidjeti'), (u'moram da zaboravim', u'moram zaboraviti'), (u'mora\u0161 da zaboravi\u0161', u'mora\u0161 zaboraviti'), (u'mora da zna', u'mora znati'), (u'moram da znam', u'moram znati'), (u'Moram da znam', u'Moram znati'), (u'mora\u0161 da zna\u0161', u'mora\u0161 znati'), (u'mora\u0161 da ide\u0161', u'mora\u0161 i\u0107i'), (u'mo\u017ee da bude', u'mo\u017ee biti'), (u'mo\u017ee\u0161 da bude\u0161', u'mo\u017ee\u0161 biti'), (u'mo\u017ee da di\u0161e', u'mo\u017ee disati'), (u'mo\u017ee\u0161 da dobije\u0161', u'mo\u017ee\u0161 dobiti'), (u'mo\u017eemo da imamo', u'mo\u017eemo imati'), (u'na ve\u010der', u'nave\u010der'), (u'Na ve\u010der', u'Nave\u010der'), (u'ne\u0107e da bude', u'ne\u0107e biti'), (u'ne\u0107e\u0161 da bude\u0161', u'ne\u0107e\u0161 biti'), (u'ne\u0107e\u0161 da po\u017eali\u0161', u'ne\u0107e\u0161 po\u017ealiti'), (u'Neko ko', u'Netko tko'), (u'neko ko', u'netko tko'), (u'neko ne\u0161to', u'netko ne\u0161to'), (u'nedjelju dana', u'tjedan dana'), (u'Ne mogu da verujem', u'Ne mogu vjerovati'), (u'new yor\u0161ki', u'njujor\u0161ki'), (u'nju jor\u0161ki', u'njujor\u0161ki'), (u'od kako', u'otkako'), (u'Pla\u0161im se', u'Bojim se'), (u'pla\u0161im se', u'bojim se'), (u'pravo u o\u010di', u'ravno u o\u010di'), (u'sa njim', u's njim'), (u'sa njima', u's njima'), (u'sa njom', u's njom'), (u'sa tim', u's tim'), (u'sa tom', u's tom'), (u'sa tobom', u's tobom'), (u'sa vama', u's vama'), (u'sam da budem', u'sam biti'), (u'si\u0107i dolje', u'si\u0107i'), (u'Si dobro', u'Jesi li dobro'), (u'Svako ko', u'Svatko tko'), (u'Svo vreme', u'Sve vrijeme'), (u'Svo vrijeme', u'Sve vrijeme'), (u'smeo da', u'smio'), (u'smeli da', u'smjeli'), (u'\u0160to ej', u'\u0160to je'), (u'
'pattern': u'(?um)(?:(?<=\\s)|(?<=^)|(?<=\\b))(?:Ako\\ ej|ako\\ ej|bez\\ svesti|Bi\\\u0107u\\ uz|bi\\ ja|bi\\ la|biti\\ uredu|bi\\ da\\ bude|Bi\\ ste|Bilo\\ ko|bilo\\ ko|\\\u0107e\\ da\\ do\\\u0111e|Da\\ li\\ \\\u0107e|Da\\ li\\ \\\u0107emo|Da\\ li\\ \\\u0107u|da\\ li\\ \\\u0107u|dali\\ \\\u0107u|Da\\ li\\ je|da\\ li\\ je|dali\\ je|Da\\ li\\ ste|Da\\ li\\ si|dali\\ si|da\\ li\\ \\\u0107e|dali\\ \\\u0107e|do\\ srede|Dobro\\ ve\\\u010de|Dobro\\ ve\\\u010der|Dobar\\ ve\\\u010der|gdje\\ ide\\\u0161|Gdje\\ ide\\\u0161|Gdje\\ sada|gle\\ ko|ho\\\u0107u\\ da\\ budem|Ho\\\u0107u\\ da\\ budem|ho\\\u0107u\\ da\\ ka\\\u017eem|ho\\\u0107e\\\u0161\\ da\\ ka\\\u017ee\\\u0161|ho\\\u0107e\\ da\\ ka\\\u017ee|ho\\\u0107u\\ da\\ \\\u017eivim|Izvini\\ se|izvini\\ se|Izvinite\\ me|Izvinite\\ nas|izvinite\\ nas|Izvinjavamo\\ se|ja\\ bi|Ja\\ bi|Jel\\ sam\\ ti|Jeli\\ se|Jeli\\ sve|Jeli\\ ti|ko\\ je|ko\\ si|ko\\ ti\\ je|ko\\ te\\ je|ko\\ zna|mo\\\u0107i\\ da\\ idemo|moglo\\ da\\ bude|moje\\ sau\\\u010de\\\u0161\\\u0107e|mora\\ da\\ bude|moram\\ da\\ budem|Moram\\ da\\ idem|moram\\ da\\ idem|Mora\\\u0161\\ da\\ ide\\\u0161|Moramo\\ da\\ idemo|moram\\ da\\ vidim|moram\\ da\\ zaboravim|mora\\\u0161\\ da\\ zaboravi\\\u0161|mora\\ da\\ zna|moram\\ da\\ znam|Moram\\ da\\ znam|mora\\\u0161\\ da\\ zna\\\u0161|mora\\\u0161\\ da\\ ide\\\u0161|mo\\\u017ee\\ da\\ bude|mo\\\u017ee\\\u0161\\ da\\ bude\\\u0161|mo\\\u017ee\\ da\\ di\\\u0161e|mo\\\u017ee\\\u0161\\ da\\ dobije\\\u0161|mo\\\u017eemo\\ da\\ imamo|na\\ ve\\\u010der|Na\\ ve\\\u010der|ne\\\u0107e\\ da\\ bude|ne\\\u0107e\\\u0161\\ da\\ bude\\\u0161|ne\\\u0107e\\\u0161\\ da\\ po\\\u017eali\\\u0161|Neko\\ ko|neko\\ ko|neko\\ ne\\\u0161to|nedjelju\\ dana|Ne\\ mogu\\ da\\ verujem|new\\ yor\\\u0161ki|nju\\ jor\\\u0161ki|od\\ kako|Pla\\\u0161im\\ se|pla\\\u0161im\\ se|pravo\\ u\\ o\\\u010di|sa\\ njim|sa\\ njima|sa\\ njom|sa\\ tim|sa\\ tom|sa\\ tobom|sa\\ vama|sam\\ da\\ budem|si\\\u0107i\\ dolje|Si\\ dobro|Svako\\ ko|Svo\\ vreme|Svo\\ vrijeme|smeo\\ da|smeli\\ da|\\\u0160to\\ ej|\\\u0161to\\ ej|to\\ j|to\\ ej|To\\ ej|tamo\\ natrag|tamo\\ je\\ natrag|Tamo\\ je\\ natrag|treba\\ da\\ bude|u\\ jutro|u\\\u0107i\\ unutra|vas\\ je\\ lagao|za\\ uvijek|zato\\ sto|zna\\ da\\ bude|zna\\ ko|znati\\ ko|\\\u017eele\\ da\\ budu|\\\u017eeli\\ da\\ bude|\\\u017eelio\\ da\\ budem|\\\u017eelim\\ da\\ budem|\\\u017delim\\ da\\ budem|\\\u017eeli\\\u0161\\ da\\ bude\\\u0161|\\\u017eelim\\ da\\ idem|\\\u017eelim\\ da\\ odem|\\\u017eeli\\\u0161\\ da\\ ode\\\u0161|\\\u017eeli\\\u0161\\ da\\ u\\\u0111e\\\u0161|\\\u017eelim\\ da\\ umrem|\\\u017delim\\ da\\ znam|\\\u017eelim\\ da\\ znam|\\\u017eeli\\\u0161\\ da\\ zna\\\u0161)(?:(?=\\s)|(?=$)|(?=\\b))'},
'PartialWordsAlways': {'data': OrderedDict(),
6 years ago
'pattern': None},
'WholeLines': {'data': OrderedDict(),
'pattern': None},
'WholeWords': {'data': OrderedDict([(u'advokati', u'odvjetnici'), (u'Advokati', u'Odvjetnici'), (u'advokatima', u'odvjetnicima'), (u'Advokatima', u'Odvjetnicima'), (u'afirmi\u0161e', u'afirmira'), (u'akcenat', u'naglasak'), (u'akcionara', u'dioni\u010dara'), (u'akvarijum', u'akvarij'), (u'akvarijumu', u'akvariju'), (u'amin', u'amen'), (u'Amin', u'Amen'), (u'ans', u'nas'), (u'apsorbovanje', u'apsorbiranje'), (u'apsorbuje', u'apsorbira'), (u'azot', u'du\u0161ik'), (u'ba\u0161ta', u'vrt'), (u'Ba\u0161ta', u'Vrt'), (u'ba\u0161te', u'vrtovi'), (u'Ba\u0161te', u'Vrtovi'), (u'ba\u0161ti', u'vrtu'), (u'ba\u0161tu', u'vrt'), (u'Ba\u0161tu', u'Vrt'), (u'ba\u0161tom', u'vrtom'), (u'bedan', u'bijedan'), (u'bede', u'bijede'), (u'bedi', u'bijedi'), (u'bejah', u'bijah'), (u'bejahu', u'bijahu'), (u'bele\u0161ci', u'bilje\u0161ci'), (u'be\u0161ike', u'mjehure'), (u'bebisiterka', u'dadilja'), (u'beg', u'bijeg'), (u'begu', u'bijegu'), (u'begstva', u'bijega'), (u'beja\u0161e', u'bija\u0161e'), (u'bekstvo', u'bijeg'), (u'bekstvu', u'bijegu'), (u'begstvu', u'bijegu'), (u'bes', u'bijes'), (u'besa', u'bijesa'), (u'besan', u'bijesan'), (u'besom', u'bijesom'), (u'besu', u'bijesu'), (u'be\u0161e', u'bje\u0161e'), (u'bimso', u'bismo'), (u'blije\u0111i', u'blje\u0111i'), (u'bioje', u'bio je'), (u'bi smo', u'bismo'), (u'bi ste', u'biste'), (u'bioskop', u'kino'), (u'bioskopi', u'kina'), (u'bitci', u'bitki'), (u'bled', u'blijed'), (u'blede', u'blijede'), (u'boksuje\u0161', u'boksa\u0161'), (u'bolesan', u'bolestan'), (u'bolila', u'boljela'), (u'bori\u0107e\u0161', u'borit \u0107e\u0161'), (u'Bori\u0107e\u0161', u'Borit \u0107e\u0161'), (u'braon', u'sme\u0111a'), (u'bregu', u'brijegu'), (u'bti', u'biti'), (u'cedilu', u'cjedilu'), (u'ceo', u'cijeli'), (u'Ceo', u'Cijeli'), (u'cepa', u'cijepa'), (u'cev', u'cijev'), (u'cevi', u'cijevi'), (u'cjevi', u'cijevi'), (u'cevima', u'cijevima'), (u'Cevi', u'Cijevi'), (u'Cjevi', u'Cijevi'), (u'Cevima', u'Cijevima'), (u'Cjevima', u'Cijevima'), (u'cev\u010dica', u'cjev\u010dica'), (u'cev\u010dicu', u'cjev\u010dicu'), (u'cutanje', u'\u0161utnja'), (u'\u010dutanje', u'\u0161utnja'), (u'\u0107utanje', u'\u0161utnja'), (u'Cutanje', u'\u0160utnja'), (u'\u010cutanje', u'\u0160utnja'), (u'\u0106utanje', u'\u0160utnja'), (u'cutanjem', u'\u0161utnjom'), (u'\u010dutanjem', u'\u0161utnjom'), (u'\u0107utanjem', u'\u0161utnjom'), (u'Cutanjem', u'\u0160utnjom'), (u'\u010cutanjem', u'\u0160utnjom'), (u'\u0106utanjem', u'\u0160utnjom'), (u'cvetaju', u'cvjetaju'), (u'cvetove', u'cvjetove'), (u'cvetu', u'cvijetu'), (u'cvjetu', u'cvijetu'), (u'cvetalo', u'cvjetalo'), (u'cvjetom', u'cvijetom'), (u'\u010cakom', u'Chuckom'), (u'\u010dar\u0161av', u'plahta'), (u'\u010dar\u0161ave', u'plahte'), (u'\u010dar\u0161avi', u'plahte'), (u'\u010dar\u0161avima', u'plahtama'), (u'\u010das', u'sat'), (u'\u010detvoro', u'\u010detvero'), (u'\u010cita\u0107u', u'\u010citat \u0107u'), (u'\u010derku', u'k\u0107er'), (u'\u010cerku', u'K\u0107er'), (u'\u0107erku', u'k\u0107er'), (u'\u0106erku', u'K\u0107er'), (u'\u0107erkama', u'k\u0107erima'), (u'\u010derkama', u'k\u0107erima'), (u'\u0107erkom', u'k\u0107eri'), (u'\u010derkom', u'k\u0107eri'), (u'k\u0107erkom', u'k\u0107eri'), (u'k\u010derkom', u'k\u0107eri'), (u'\u010cu', u'\u0106u'), (u'\u010ce\u0161', u'\u0106e\u0161'), (u'\u010ce', u'\u0106e'), (u'\u010cemo', u'\u0106emo'), (u'\u010cete', u'\u0106ete'), (u'\u010du', u'\u0107u'), (u'\u010de\u0161', u'\u0107e\u0161'), (u'\u010de', u'\u0107e'), (u'\u010demo', u'\u0107emo'), (u'\u010dete', u'\u0107ete'), (u'\u0107ebe', u'deku'), (u'\u0107ebetu', u'deki'), (u'\u010dk', u'\u010dak'), (u'\u0107\u0161', u'\u0107e\u0161'), (u'\u0107ale', u'tata'), (u'\u0107aletom', u'ocem'), (u'\u0107aleta', u'oca'), (u'\u0107aletu', u'ocu'), (u'\u0107orsokak', u'slijepa ulica'), (u'\u0107orsokaku', u'slijepoj ulici'), (u'\u0107o\u0161ak', u'ugao'), (u'\u0107o\u0161ku', u'uglu'), (u'\u0107erka', u'k\u0107i'), (u'\u0106erka', u'K\u0107i'), (u'\u0107mo', u'\u0107emo'), (u'\u0107te', u'\u0107ete'), (u'\u010du\u0107e', u'\u010dut \u0107e'), (u'\u010du\u0107emo', u'\u010dut \u0
'pattern': u"(?um)(\\b|^)(?:advokati|Advokati|advokatima|Advokatima|afirmi\\\u0161e|akcenat|akcionara|akvarijum|akvarijumu|amin|Amin|ans|apsorbovanje|apsorbuje|azot|ba\\\u0161ta|Ba\\\u0161ta|ba\\\u0161te|Ba\\\u0161te|ba\\\u0161ti|ba\\\u0161tu|Ba\\\u0161tu|ba\\\u0161tom|bedan|bede|bedi|bejah|bejahu|bele\\\u0161ci|be\\\u0161ike|bebisiterka|beg|begu|begstva|beja\\\u0161e|bekstvo|bekstvu|begstvu|bes|besa|besan|besom|besu|be\\\u0161e|bimso|blije\\\u0111i|bioje|bi\\ smo|bi\\ ste|bioskop|bioskopi|bitci|bled|blede|boksuje\\\u0161|bolesan|bolila|bori\\\u0107e\\\u0161|Bori\\\u0107e\\\u0161|braon|bregu|bti|cedilu|ceo|Ceo|cepa|cev|cevi|cjevi|cevima|Cevi|Cjevi|Cevima|Cjevima|cev\\\u010dica|cev\\\u010dicu|cutanje|\\\u010dutanje|\\\u0107utanje|Cutanje|\\\u010cutanje|\\\u0106utanje|cutanjem|\\\u010dutanjem|\\\u0107utanjem|Cutanjem|\\\u010cutanjem|\\\u0106utanjem|cvetaju|cvetove|cvetu|cvjetu|cvetalo|cvjetom|\\\u010cakom|\\\u010dar\\\u0161av|\\\u010dar\\\u0161ave|\\\u010dar\\\u0161avi|\\\u010dar\\\u0161avima|\\\u010das|\\\u010detvoro|\\\u010cita\\\u0107u|\\\u010derku|\\\u010cerku|\\\u0107erku|\\\u0106erku|\\\u0107erkama|\\\u010derkama|\\\u0107erkom|\\\u010derkom|k\\\u0107erkom|k\\\u010derkom|\\\u010cu|\\\u010ce\\\u0161|\\\u010ce|\\\u010cemo|\\\u010cete|\\\u010du|\\\u010de\\\u0161|\\\u010de|\\\u010demo|\\\u010dete|\\\u0107ebe|\\\u0107ebetu|\\\u010dk|\\\u0107\\\u0161|\\\u0107ale|\\\u0107aletom|\\\u0107aleta|\\\u0107aletu|\\\u0107orsokak|\\\u0107orsokaku|\\\u0107o\\\u0161ak|\\\u0107o\\\u0161ku|\\\u0107erka|\\\u0106erka|\\\u0107mo|\\\u0107te|\\\u010du\\\u0107e|\\\u010du\\\u0107emo|\\\u010cu\\\u0107emo|\\\u010cu\\\u0107ete|\\\u010cu\\\u0107e|\\\u0107uo|\\\u0107utao|\\\u0106utao|\\\u0107ute|\\\u0106ute|cvetova|daga|damas|date|deda|Deda|dede|dedi|dedom|defini\\\u0161e|dejstvo|Dejstvo|dejstvom|Dejstvom|dele\\\u0107i|deo|Deo|de\\\u0161ava|dete|Dete|diluje|diluju|diskutuje|Diskutuje|diskutujemo|Diskutujemo|djete|Djete|detektuje|dodju|dole|Dole|donijeo|Donijeo|Donije\\\u0107u|dosledan|dospeo|dospeju|do\\\u0111avola|Do\\\u0111avola|drug|drugari|drugare|drug\\\u010diji|drugde|duuga|duvana|dve|Dve|dvema|\\\u0111avo|\\\u0111avola|\\\u0111emper|d\\\u017eanki|d\\\u017eelat|\\\u0111ubre|efekat|eksperata|eksperti|Eksperti|ekspertima|en|emitovao|emitovati|emituje|emitujem|Emitujem|emituju|evra|familija|Familija|familiju|Familiju|familijama|familiji|flertuje|foka|foku|foke|fokama|fotografi\\\u0161u|gasova|gde|Gde|gluhonem|gre\\\u0161e|grje\\\u0161e|gre\\\u0161i|grje\\\u0161i|gre\\\u0161ki|grijehova|grijehove|hipnotisao|hipnotisana|hipnoti\\\u0161e|Historija|Historiju|Historije|Historiji|Istorija|Istoriju|Istorije|Istoriji|historije|historiji|istorije|istoriji|istorijom|hakuje|Hakuje|hakujemo|Hakujemo|Hakuju|hakuju|ho\\\u010du|Ho\\\u010du|hte\\\u0107e|htedoh|Htjeo|Hteo|htjeo|hteo|i\\\u010di|I\\\u010di|iko|ignori\\\u0161i|Ignori\\\u0161i|ignori\\\u0161ite|Ignori\\\u0161ite|ignori\\\u0161u|ilustruju|inspirisao|interesantan|Interesantan|interesuje|Interesuje|interesujemo|Interesujemo|interesujete|Interesujete|Interesuju|interesuju|isekao|isterao|istera\\\u0161|Istera\\\u0161|istrebi|istrebiti|isuvi\\\u0161e|ivica|ivice|ivici|ivicu|izduvaj|izduvamo|izoluje|izolujemo|izoluje\\\u0161|Izolujete|Izolujte|izolujte|izgladneo|izmeriti|izmerio|izme\\\u0161ane|izneo|izneti|izvestan|izvinem|izvine\\\u0161|Izvinem|Izvine\\\u0161|izvinim|izvini\\\u0161|izviniti|izvinjenje|izvinjenja|izvinjenju|jedamput|jelda|Je\\\u0161\\\u0107emo|Je\\\u0161\\\u0107e\\\u0161|je\\\u0161\\\u0107e|je\\\u0161\\\u0107u|Je\\\u0161\\\u0107u|je\\\u0161\\\u0107e\\\u0161|je\\\u0161\\\u0107emo|ju\\\u010de|Ju\\\u010de|kakava|kampovao|kampuje|kampujemo|kampuju|kancelarija|kancelarijama|kancelariju|Kancelarija|Kancelariju|kancelariji|kancelarije|kancelarijom|kancera|kandidovati|kandidujem|kapar|kapra|karmin|karminom|k\\\u0107erci|k\\\u0107erka|k\\\u010derka|K\\\u0107erka|K\\\u010derka|k\\\u0107erkama|ker|Ker|kerova|kidnapovan|Kidnapovan|kiji|kijim|klasifikuju|kle\\\u0161ta|klje\\\u0161ta|Ko|koa|koaj|kola|kolima|komandni|kombinuju|kompanija|komponovao|kom\\\u0161ija|kom\\\u0161iji|ko
'hun': {'BeginLines': {'data': OrderedDict(),
'pattern': None},
'EndLines': {'data': OrderedDict(),
'pattern': None},
'PartialLines': {'data': OrderedDict(),
'pattern': None},
'PartialWordsAlways': {'data': OrderedDict(),
6 years ago
'pattern': None},
'WholeLines': {'data': OrderedDict(),
'pattern': None},
'WholeWords': {'data': OrderedDict(),
'pattern': None}},
'nld': {'BeginLines': {'data': OrderedDict(),
'pattern': None},
'EndLines': {'data': OrderedDict(),
'pattern': None},
'PartialLines': {'data': OrderedDict(),
'pattern': None},
'PartialWordsAlways': {'data': OrderedDict([(u'\u010d', u'\xe8'), (u'I\u05bb', u'I'), (u'\u05d0', u'\xe0'), (u'\u05d9', u'\xe9'), (u'\u05d8', u'\xe8'), (u'\u05db', u'\xeb'), (u'\u05dd', u'i'), (u'\u05df', u'\xef'), (u'\u05e3', u'\xf3'), (u'\u05e4', u'o'), (u'\u05e6', u'\xeb')]),
6 years ago
'pattern': None},
'WholeLines': {'data': OrderedDict(),
'pattern': None},
'WholeWords': {'data': OrderedDict([(u'ls', u'Is'), (u'ln', u'In'), (u'lk', u'Ik'), (u'ledereen', u'Iedereen'), (u'ledere', u'Iedere'), (u'lemand', u'Iemand')]),
'pattern': u'(?um)(\\b|^)(?:ls|ln|lk|ledereen|ledere|lemand)(\\b|$)'}},
'nob': {'BeginLines': {'data': OrderedDict(),
'pattern': None},
'EndLines': {'data': OrderedDict(),
'pattern': None},
'PartialLines': {'data': OrderedDict(),
'pattern': None},
'PartialWordsAlways': {'data': OrderedDict(),
6 years ago
'pattern': None},
'WholeLines': {'data': OrderedDict(),
'pattern': None},
'WholeWords': {'data': OrderedDict([(u'varjeg', u'var jeg'), (u'omjeg', u'om jeg'), (u'menjeg', u'men jeg'), (u'noejeg', u'noe jeg'), (u'f\xf8rjeg', u'f\xf8r jeg'), (u'harjobbet', u'har jobbet'), (u'Kunnejeg', u'Kunne jeg'), (u'haddejeg', u'hadde jeg'), (u'p\xe5jorden', u'p\xe5 jorden'), (u'n\xe5rjeg', u'n\xe5r jeg'), (u'tenkerjeg', u'tenker jeg'), (u'helejorden', u'hele jorden'), (u'menjorden', u'men jorden'), (u'rundtjorden', u'rundt jorden'), (u'forjorden', u'for jorden'), (u'avjordens', u'av jordens')]),
'pattern': u'(?um)(\\b|^)(?:varjeg|omjeg|menjeg|noejeg|f\\\xf8rjeg|harjobbet|Kunnejeg|haddejeg|p\\\xe5jorden|n\\\xe5rjeg|tenkerjeg|helejorden|menjorden|rundtjorden|forjorden|avjordens)(\\b|$)'}},
'nor': {'BeginLines': {'data': OrderedDict(),
'pattern': None},
'EndLines': {'data': OrderedDict(),
'pattern': None},
'PartialLines': {'data': OrderedDict(),
'pattern': None},
'PartialWordsAlways': {'data': OrderedDict(),
6 years ago
'pattern': None},
'WholeLines': {'data': OrderedDict(),
'pattern': None},
'WholeWords': {'data': OrderedDict(),
'pattern': None}},
'por': {'BeginLines': {'data': OrderedDict(),
'pattern': None},
'EndLines': {'data': OrderedDict(),
'pattern': None},
'PartialLines': {'data': OrderedDict([(u'IN 6-E', u'N 6 E'), (u'in tegrar-se', u'integrar-se'), (u'in teresse', u'interesse'), (u'in testinos', u'intestinos'), (u'indica \xe7\xe3o', u'indica\xe7\xe3o'), (u'inte tino', u'intestino'), (u'intes tinos', u'intestinos'), (u'L da', u'Lda'), (u'mal estar', u'mal-estar'), (u'mastiga \xe7\xe1o', u'mastiga\xe7\xe3o'), (u'm\xe9di cas', u'm\xe9dicas'), (u'mineo rais', u'minerais'), (u'mola res', u'molares'), (u'movi mentos', u'movimentos'), (u'movimen to', u'movimento'), (u'N 5-Estendido', u'N\xba 5 Estendido'), (u'oxig\xe9 nio', u'oxig\xe9nio'), (u'pod mos', u'podemos'), (u'poder-se ia', u'poder-se-ia'), (u'pos sibilidade', u'possibilidade'), (u'possibi lidades', u'possibilidades'), (u'pro duto', u'produto'), (u'procu rar', u'procurar'), (u'Q u e', u'Que'), (u'qualifi cam', u'qualificam'), (u'R egi\xe3o', u'Regi\xe3o'), (u'unsuficien temente', u'insuficientemente')]),
'pattern': u'(?um)(?:(?<=\\s)|(?<=^)|(?<=\\b))(?:IN\\ 6\\-E|in\\ tegrar\\-se|in\\ teresse|in\\ testinos|indica\\ \\\xe7\\\xe3o|inte\\ tino|intes\\ tinos|L\\ da|mal\\ estar|mastiga\\ \\\xe7\\\xe1o|m\\\xe9di\\ cas|mineo\\ rais|mola\\ res|movi\\ mentos|movimen\\ to|N\\ 5\\-Estendido|oxig\\\xe9\\ nio|pod\\ mos|poder\\-se\\ ia|pos\\ sibilidade|possibi\\ lidades|pro\\ duto|procu\\ rar|Q\\ u\\ e|qualifi\\ cam|R\\ egi\\\xe3o|unsuficien\\ temente)(?:(?=\\s)|(?=$)|(?=\\b))'},
'PartialWordsAlways': {'data': OrderedDict(),
6 years ago
'pattern': None},
'WholeLines': {'data': OrderedDict(),
'pattern': None},
'WholeWords': {'data': OrderedDict([(u'abitual', u'habitual'), (u'\xe0cerca', u'acerca'), (u'acessor', u'assessor'), (u'ac\xf3lico', u'ac\xf3lito'), (u'a\xe7oreano', u'a\xe7oriano'), (u'actuacao', u'actua\xe7\xe3o'), (u'acucar', u'a\xe7\xfacar'), (u'a\xe7ucar', u'a\xe7\xfacar'), (u'advinhar', u'adivinhar'), (u'africa', u'\xc1frica'), (u'ajuisar', u'ajuizar'), (u'album', u'\xe1lbum'), (u'alcool\xe9mia', u'alcoolemia'), (u'aldi\xe3o', u'alde\xe3o'), (u'algerino', u'argelino'), (u'ameixeal', u'ameixial'), (u'amia\xe7a', u'amea\xe7a'), (u'analizar', u'analisar'), (u'and\xe1ste', u'andaste'), (u'anemona', u'an\xe9mona'), (u'antartico', u'ant\xe1rctico'), (u'ant\xe1rtico', u'ant\xe1rctico'), (u'antep\xf4r', u'antepor'), (u'ap\xe1rte', u'aparte'), (u'apiadeiro', u'apeadeiro'), (u'apiar', u'apear'), (u'apreciacao', u'aprecia\xe7\xe3o'), (u'arctico', u'\xe1rctico'), (u'arrazar', u'arrasar'), (u'\xe1rtico', u'\xe1rctico'), (u'artifice', u'art\xedfice'), (u'artif\xedcial', u'artificial'), (u'ascen\xe7\xe3o', u'ascens\xe3o'), (u'ass\xfacar', u'a\xe7\xfacar'), (u'aste', u'haste'), (u'aster\xedstico', u'asterisco'), (u'aver\xe7\xe3o', u'avers\xe3o'), (u'avizar', u'avisar'), (u'avulsso', u'avulso'), (u'ba\xednha', u'bainha'), (u'banca-rota', u'bancarrota'), (u'bandeija', u'bandeja'), (u'b\xe9b\xe9', u'beb\xe9'), (u'beige', u'bege'), (u'ben\xe7\xe3o', u'b\xean\xe7\xe3o'), (u'benefici\xeancia', u'benefic\xeancia'), (u'beneficiente', u'beneficente'), (u'benvinda', u'bem-vinda'), (u'benvindo', u'bem-vindo'), (u'boasvindas', u'boas-vindas'), (u'borborinho', u'burburinho'), (u'Brazil', u'Brasil'), (u'bussula', u'b\xfassola'), (u'cabo-verdeano', u'cabo-verdiano'), (u'caimbras', u'c\xe3ibras'), (u'calc\xe1reo', u'calc\xe1rio'), (u'calsado', u'cal\xe7ado'), (u'calv\xedce', u'calv\xedcie'), (u'camoneano', u'camoniano'), (u'campi\xe3o', u'campe\xe3o'), (u'can\xe7acos', u'cansa\xe7os'), (u'caracter', u'car\xe1cter'), (u'caract\xe9res', u'caracteres'), (u'catequeze', u'catequese'), (u'catequisador', u'catequizador'), (u'catequisar', u'catequizar'), (u'ch\xedcara', u'x\xedcara'), (u'ciclano', u'sicrano'), (u'cicrano', u'sicrano'), (u'cidad\xe3es', u'cidad\xe3os'), (u'cidad\xf5es', u'cidad\xe3os'), (u'cincoenta', u'cinquenta'), (u'cinseiro', u'cinzeiro'), (u'cinsero', u'sincero'), (u'citacoes', u'cita\xe7\xf5es'), (u'coaliz\xe3o', u'colis\xe3o'), (u'c\xf4dia', u'c\xf4dea'), (u'comb\xf3io', u'comboio'), (u'comp\xf4r', u'compor'), (u'concerteza', u'com certeza'), (u'constituia', u'constitu\xeda'), (u'constitu\xedu', u'constituiu'), (u'contato', u'contacto'), (u'contens\xe3o', u'conten\xe7\xe3o'), (u'contribuicoes', u'contribui\xe7\xf5es'), (u'c\xf4r', u'cor'), (u'corass\xe3o', u'cora\xe7\xe3o'), (u'cor\xe7ario', u'cors\xe1rio'), (u'cor\xe7\xe1rio', u'cors\xe1rio'), (u'cornprimidosinbo', u'comprimidozinho'), (u'cr\xe2neo', u'cr\xe2nio'), (u'dE', u'de'), (u'defeni\xe7\xe3o', u'defini\xe7\xe3o'), (u'defenido', u'definido'), (u'defenir', u'definir'), (u'deficite', u'd\xe9fice'), (u'degladiar', u'digladiar'), (u'deiche', u'deixe'), (u'desinteria', u'disenteria'), (u'despendio', u'disp\xeandio'), (u'desp\xeandio', u'disp\xeandio'), (u'desplic\xeancia', u'displic\xeancia'), (u'dificulidade', u'dificuldade'), (u'dispender', u'despender'), (u'dispendio', u'disp\xeandio'), (u'distribuido', u'distribu\xeddo'), (u'dru\xedda', u'druida'), (u'\xe9cr\xe3', u'ecr\xe3'), (u'ecran', u'ecr\xe3'), (u'\xe9cran', u'ecr\xe3'), (u'\xeale', u'ele'), (u'elice', u'h\xe9lice'), (u'\xe9lice', u'h\xe9lice'), (u'emiratos', u'emirados'), (u'engolis-te', u'engoliste'), (u'engulir', u'engolir'), (u'enguliste', u'engoliste'), (u'entertido', u'entretido'), (u'entitular', u'intitular'), (u'entreterimento', u'entretenimento'), (u'entreti-me', u'entretive-me'), (u'env\xf3lucro', u'inv\xf3lucro'), (u'er\xf3i', u'her\xf3i'), (u'escluir', u'excluir'), (u'esclus\xe3o', u'exclus\xe3o'), (u'escriv\xf5es', u'escriv\xe3es'), (u'esqueiro', u'isqueiro'), (u'esquesito', u'esquisito'), (u'estacoes', u'esta\xe7\xf5es'), (u'esteje', u'esteja'), (u'excava\xe7\xe3o', u'escava\xe7\xe3o'), (u'excav
'pattern': u'(?um)(\\b|^)(?:abitual|\\\xe0cerca|acessor|ac\\\xf3lico|a\\\xe7oreano|actuacao|acucar|a\\\xe7ucar|advinhar|africa|ajuisar|album|alcool\\\xe9mia|aldi\\\xe3o|algerino|ameixeal|amia\\\xe7a|analizar|and\\\xe1ste|anemona|antartico|ant\\\xe1rtico|antep\\\xf4r|ap\\\xe1rte|apiadeiro|apiar|apreciacao|arctico|arrazar|\\\xe1rtico|artifice|artif\\\xedcial|ascen\\\xe7\\\xe3o|ass\\\xfacar|aste|aster\\\xedstico|aver\\\xe7\\\xe3o|avizar|avulsso|ba\\\xednha|banca\\-rota|bandeija|b\\\xe9b\\\xe9|beige|ben\\\xe7\\\xe3o|benefici\\\xeancia|beneficiente|benvinda|benvindo|boasvindas|borborinho|Brazil|bussula|cabo\\-verdeano|caimbras|calc\\\xe1reo|calsado|calv\\\xedce|camoneano|campi\\\xe3o|can\\\xe7acos|caracter|caract\\\xe9res|catequeze|catequisador|catequisar|ch\\\xedcara|ciclano|cicrano|cidad\\\xe3es|cidad\\\xf5es|cincoenta|cinseiro|cinsero|citacoes|coaliz\\\xe3o|c\\\xf4dia|comb\\\xf3io|comp\\\xf4r|concerteza|constituia|constitu\\\xedu|contato|contens\\\xe3o|contribuicoes|c\\\xf4r|corass\\\xe3o|cor\\\xe7ario|cor\\\xe7\\\xe1rio|cornprimidosinbo|cr\\\xe2neo|dE|defeni\\\xe7\\\xe3o|defenido|defenir|deficite|degladiar|deiche|desinteria|despendio|desp\\\xeandio|desplic\\\xeancia|dificulidade|dispender|dispendio|distribuido|dru\\\xedda|\\\xe9cr\\\xe3|ecran|\\\xe9cran|\\\xeale|elice|\\\xe9lice|emiratos|engolis\\-te|engulir|enguliste|entertido|entitular|entreterimento|entreti\\-me|env\\\xf3lucro|er\\\xf3i|escluir|esclus\\\xe3o|escriv\\\xf5es|esqueiro|esquesito|estacoes|esteje|excava\\\xe7\\\xe3o|excavar|exdr\\\xfaxula|exdr\\\xfaxulas|exitar|explicacoes|exquisito|extende|extender|f\\\xe0cilmenfe|f\\\xe0cilmente|fariam\\-lhe|FARM\\\xc1ClAS|farmec\\\xeautico|fassa|f\\\xe9bre|fecula|f\\\xe9mea|femenino|femininismo|f\\\xedsiologista|fiz\\\xe9mos|fizes\\-te|fl\\\xf4r|for\\\xe3o|formalisar|f\\\xf4ro|fos\\-te|frag\\\xe2ncia|fran\\\xe7\\\xeas|frasqutnho|frustado|fur\\\xe1|gaz|g\\\xe1z|geito|geneceu|geropiga|glic\\\xe9mia|gorgeta|grangear|guizar|hectar|herm\\\xe9ticamente|hernia|higi\\\xe9ne|hilariedade|hiperac\\\xeddez|hontem|igiene|igienico|igi\\\xe9nico|igreija|iguasu|ilac\\\xe7\\\xe3o|imbigo|impecilho|\\\xedncas|inc\\\xeasto|inclusiv\\\xe9|inc\\\xf4modos|incontest\\\xe1velmente|incontest\\\xe0velmente|indespens\\\xe1veis|indespens\\\xe1vel|India|indiguina\\\xe7\\\xe3o|indiguinado|indiguinar|inflac\\\xe7\\\xe3o|ingreja|INSCRICOES|intens\\\xe3o|intertido|intoxica|intrega|inveros\\\xedmel|iorgute|ipop\\\xf3tamo|ipsilon|ipslon|isquesito|ju\\\xedz|juiza|j\\\xfaniores|justanzente|juz|kilo|laborat\\\xf3rio\\-porque|ladravaz|lament\\\xe0velmente|lampe\\\xe3o|largartixa|largarto|l\\\xeam|leuc\\\xe9mia|licensa|lingu\\\xedsta|lisongear|logista|ma\\\xe7ajar|Macfadden\\-o|mae|magestade|m\\\xe3gua|mangerico|mangerona|manteem\\-se|mantega|mantem\\-se|massi\\\xe7o|massisso|m\\\xe9dica\\-Rio|menistro|merciaria|metrelhadora|miscegena\\\xe7\\\xe3o|misogenia|misogeno|mis\\\xf3geno|m\\\xba|m\\\xf4lho|monument\\\xe2nea|mortandela|morteIa|muinto|nasaias|n\\\xeale|nest|Nivea|nonagessimo|nonag\\\xe9ssimo|nornal|not\\\xe0velmente|obcess\\\xe3o|obesidae|\\\xf3bviamente|\\\xf2bviamente|ofecina|oje|omem|opcoes|op\\\xf3brio|opr\\\xf3bio|orf\\\xe3o|organigrama|organisar|org\\\xe3o|orta|\\\xf3tima|\\\xf3timos|paraliza\\\xe7\\\xe3o|paralizado|paralizar|par\\\xe1ste|P\\\xe1tria|pa\\\xfal|pecal\\\xe7o|p\\\xeaga|periodo|pertubar|per\\\xfa|piqueno|pirin\\\xe9us|poblema|pobrema|poden|poder\\-mos|ponteagudo|pontuacoes|prazeiroso|precaridade|precizar|preserveran\\\xe7a|previl\\\xe9gio|prim\\\xe1ria\\-que|pri\\\xfado|probalidade|progreso|proib\\\xeddo|pro\\\xedbido|pr\\\xf3pia|propiedade|propio|pr\\\xf3pio|provocacoes|prsen\\\xe7a|prustituta|pud\\\xe9rmos|p\\\xfalico|p\\\xfas|pus\\\xe9mos|quadricomia|quadriplicado|quaisqueres|quer\\-a|quere\\-se|quer\\-o|qu\\\xedmco|quises\\-te|quizer|quizeram|quizesse|quizessem|ra\\\xednha|ra\\\xedz|raizes|ratato|ra\\\xfal|razar|rectaguarda|r\\\xe9dia|reestabelecer|refeicoes|ref\\\xearencia|regeitar|regurjitar|reinvidica\\\xe7\\\xe3o|reinvidicar|requer\\-a|requere\\-se|requer\\-o|requesito|requisicoes|RESIDENCIA|respira\\\xe
'rus': {'BeginLines': {'data': OrderedDict(),
'pattern': None},
'EndLines': {'data': OrderedDict(),
'pattern': None},
'PartialLines': {'data': OrderedDict(),
'pattern': None},
'PartialWordsAlways': {'data': OrderedDict(),
6 years ago
'pattern': None},
'WholeLines': {'data': OrderedDict(),
'pattern': None},
'WholeWords': {'data': OrderedDict([(u'\u041d\u0404\u0419', u'\u041d\u0415\u0419'), (u'\u041e\u0420\u0413\u0417\u041d\u0418\u0417\u041c\u041e\u0411', u'\u041e\u0420\u0413\u0410\u041d\u0418\u0417\u041c\u0410'), (u'\u0427\u04570', u'\u0427\u0422\u041e'), (u'\u041d\u042d', u'\u041d\u0410'), (u'\u0421\u041e\u0421\u0404\u0414\u041d\u042e\u042e', u'\u0421\u041e\u0421\u0415\u0414\u041d\u042e\u042e'), (u'\u041f\u041b\u0417\u041d\u0404\u0422\u0423', u'\u041f\u041b\u0410\u041d\u0415\u0422\u0423'), (u'\u0417\u0417\u0413\u042d\u0414\u041e\u041a', u'\u0417\u0410\u0413\u0410\u0414\u041e\u041a'), (u'\u0421\u041e\u0422\u0412\u041e\u0420\u0404\u041d\u0418\u042f', u'\u0421\u041e\u0422\u0412\u041e\u0420\u0415\u041d\u0418\u042f'), (u'\u041c\u0418\u0420\u042d', u'\u041c\u0418\u0420\u0410'), (u'\u041f\u041e\u042f\u0411\u041b\u0404\u041d\u0418\u042f', u'\u041f\u041e\u042f\u0412\u041b\u0415\u041d\u0418\u042f'), (u'\u0417\u0404\u041c\u041b\u0404', u'\u0417\u0415\u041c\u041b\u0415'), (u'\u0404\u0429\u0404', u'\u0415\u0429\u0401'), (u'\u0422\u0404\u041c\u041d\u042c\u0406\u0425', u'\u0422\u0415\u041c\u041d\u042b\u0425'), (u'\u0421\u0404\u0420\u042c\u0404\u0417\u041d\u042c\u0406\u041c', u'\u0421\u0415\u0420\u042c\u0415\u0417\u041d\u042b\u041c'), (u'\u041f\u041e\u0428\u0406\u04060', u'\u041f\u041e\u0428\u041b\u041e'), (u'\u041f\u04400\u0418\u04170\u0428\u0404\u041b', u'\u041f\u0420\u041e\u0418\u0417\u041e\u0428\u0415\u041b'), (u'\u0421\u0404\u041a\u0420\u0404\u0422\u042d\u041c\u0418', u'\u0421\u0415\u041a\u0420\u0415\u0422\u0410\u041c\u0418'), (u'\u041c\u042d\u0422\u0404\u0420\u0418\u0417\u041b\u042c\u0406', u'\u041c\u0410\u0422\u0415\u0420\u0418\u0410\u041b\u042b'), (u'\u041f\u042f\u0422\u0404\u041d', u'\u041f\u042f\u0422\u0415\u041d'), (u'\u041f\u041b\u0430\u041d\u0404\u0457\u0404', u'\u041f\u041b\u0410\u041d\u0415\u0422\u0415'), (u'\u041a\u0417\u0422\u042d\u041a\u041b\u0418\u0417\u041c', u'\u041a\u0410\u0422\u0410\u041a\u041b\u0418\u0417\u041c'), (u'\u041e\u041a\u0417\u0417\u0417\u041b\u0421\u042f', u'\u041e\u041a\u0410\u0417\u0410\u041b\u0421\u042f'), (u'\u0414\u042d\u041b\u042c\u0428\u0415', u'\u0414\u0410\u041b\u042c\u0428\u0415'), (u'\u0422\u0412\u041a', u'\u0422\u0410\u041a'), (u'\u041f\u041b\u0417\u041d\u0404\u0422\u0417', u'\u041f\u041b\u0410\u041d\u0415\u0422\u0410'), (u'\u0427\u0404\u0413\u041e', u'\u0427\u0415\u0413\u041e'), (u'\u0423\u0417\u041d\u042d\u0422\u042c', u'\u0423\u0417\u041d\u0410\u0422\u042c'), (u'\u041f\u041b\u042d\u041d\u0404\u0422\u0404', u'\u041f\u041b\u0410\u041d\u0415\u0422\u0415'), (u'\u041d\u0404\u041c', u'\u041d\u0415\u041c'), (u'\u0411\u041e\u0417\u041c\u041e\u0416\u041d\u0417', u'\u0412\u041e\u0417\u041c\u041e\u0416\u041d\u0410'), (u'\u0421\u041e\u0411\u0404\u0420\u0428\u0404\u041d\u041d\u041e', u'\u0421\u041e\u0412\u0415\u0420\u0428\u0415\u041d\u041d\u041e'), (u'\u0418\u041d\u042d\u0427\u0404', u'\u0418\u041d\u0410\u0427\u0415'), (u'\u0411\u0421\u0404', u'\u0412\u0421\u0415'), (u'\u041d\u0415\u0414\u041e\u0421\u0422\u0417\u0422\u041a\u0418', u'\u041d\u0415\u0414\u041e\u0421\u0422\u0410\u0422\u041a\u0418'), (u'\u041d\u041e\u0412\u042c\u0406\u0404', u'\u041d\u041e\u0412\u042b\u0415'), (u'\u0412\u0404\u041b\u0418\u041a\u041e\u041b\u0404\u041f\u041d\u042d\u042f', u'\u0412\u0415\u041b\u0418\u041a\u041e\u041b\u0415\u041f\u041d\u0410\u042f'), (u'\u041e\u0421\u0422\u042d\u0406\u0406\u041e\u0421\u042c', u'\u041e\u0421\u0422\u0410\u041b\u041e\u0421\u042c'), (u'\u041d\u0417\u041b\u0418\u0427\u0418\u0404', u'\u041d\u0410\u041b\u0418\u0427\u0418\u0415'), (u'\u0431\u042b', u'\u0431\u044b'), (u'\u041f\u0420\u041e\u0426\u0412\u0415\u0422\u0412\u0422\u042c', u'\u041f\u0420\u041e\u0426\u0412\u0415\u0422\u0410\u0422\u042c'), (u'\u041a\u0417\u041a', u'\u041a\u0410\u041a'), (u'\u0412\u041e\u0414\u0417', u'\u0412\u041e\u0414\u0410'), (u'\u041d\u0417\u0428\u0415\u041b', u'\u041d\u0410\u0428\u0415\u041b'), (u'\u041d\u0404', u'\u041d\u0415'), (u'\u0422\u041e\u0416\u0404', u'\u0422\u041e\u0416\u0415'), (u'\u0412\u0423\u041b\u041a\u042d\u041d\u0418\u0427\u0404\u0421\u041a\u041e\u0419', u'\u0412\u0423\u041b\u041a\u0410\u041d\u0418
'pattern': u'(?um)(\\b|^)(?:\\\u041d\\\u0404\\\u0419|\\\u041e\\\u0420\\\u0413\\\u0417\\\u041d\\\u0418\\\u0417\\\u041c\\\u041e\\\u0411|\\\u0427\\\u04570|\\\u041d\\\u042d|\\\u0421\\\u041e\\\u0421\\\u0404\\\u0414\\\u041d\\\u042e\\\u042e|\\\u041f\\\u041b\\\u0417\\\u041d\\\u0404\\\u0422\\\u0423|\\\u0417\\\u0417\\\u0413\\\u042d\\\u0414\\\u041e\\\u041a|\\\u0421\\\u041e\\\u0422\\\u0412\\\u041e\\\u0420\\\u0404\\\u041d\\\u0418\\\u042f|\\\u041c\\\u0418\\\u0420\\\u042d|\\\u041f\\\u041e\\\u042f\\\u0411\\\u041b\\\u0404\\\u041d\\\u0418\\\u042f|\\\u0417\\\u0404\\\u041c\\\u041b\\\u0404|\\\u0404\\\u0429\\\u0404|\\\u0422\\\u0404\\\u041c\\\u041d\\\u042c\\\u0406\\\u0425|\\\u0421\\\u0404\\\u0420\\\u042c\\\u0404\\\u0417\\\u041d\\\u042c\\\u0406\\\u041c|\\\u041f\\\u041e\\\u0428\\\u0406\\\u04060|\\\u041f\\\u04400\\\u0418\\\u04170\\\u0428\\\u0404\\\u041b|\\\u0421\\\u0404\\\u041a\\\u0420\\\u0404\\\u0422\\\u042d\\\u041c\\\u0418|\\\u041c\\\u042d\\\u0422\\\u0404\\\u0420\\\u0418\\\u0417\\\u041b\\\u042c\\\u0406|\\\u041f\\\u042f\\\u0422\\\u0404\\\u041d|\\\u041f\\\u041b\\\u0430\\\u041d\\\u0404\\\u0457\\\u0404|\\\u041a\\\u0417\\\u0422\\\u042d\\\u041a\\\u041b\\\u0418\\\u0417\\\u041c|\\\u041e\\\u041a\\\u0417\\\u0417\\\u0417\\\u041b\\\u0421\\\u042f|\\\u0414\\\u042d\\\u041b\\\u042c\\\u0428\\\u0415|\\\u0422\\\u0412\\\u041a|\\\u041f\\\u041b\\\u0417\\\u041d\\\u0404\\\u0422\\\u0417|\\\u0427\\\u0404\\\u0413\\\u041e|\\\u0423\\\u0417\\\u041d\\\u042d\\\u0422\\\u042c|\\\u041f\\\u041b\\\u042d\\\u041d\\\u0404\\\u0422\\\u0404|\\\u041d\\\u0404\\\u041c|\\\u0411\\\u041e\\\u0417\\\u041c\\\u041e\\\u0416\\\u041d\\\u0417|\\\u0421\\\u041e\\\u0411\\\u0404\\\u0420\\\u0428\\\u0404\\\u041d\\\u041d\\\u041e|\\\u0418\\\u041d\\\u042d\\\u0427\\\u0404|\\\u0411\\\u0421\\\u0404|\\\u041d\\\u0415\\\u0414\\\u041e\\\u0421\\\u0422\\\u0417\\\u0422\\\u041a\\\u0418|\\\u041d\\\u041e\\\u0412\\\u042c\\\u0406\\\u0404|\\\u0412\\\u0404\\\u041b\\\u0418\\\u041a\\\u041e\\\u041b\\\u0404\\\u041f\\\u041d\\\u042d\\\u042f|\\\u041e\\\u0421\\\u0422\\\u042d\\\u0406\\\u0406\\\u041e\\\u0421\\\u042c|\\\u041d\\\u0417\\\u041b\\\u0418\\\u0427\\\u0418\\\u0404|\\\u0431\\\u042b|\\\u041f\\\u0420\\\u041e\\\u0426\\\u0412\\\u0415\\\u0422\\\u0412\\\u0422\\\u042c|\\\u041a\\\u0417\\\u041a|\\\u0412\\\u041e\\\u0414\\\u0417|\\\u041d\\\u0417\\\u0428\\\u0415\\\u041b|\\\u041d\\\u0404|\\\u0422\\\u041e\\\u0416\\\u0404|\\\u0412\\\u0423\\\u041b\\\u041a\\\u042d\\\u041d\\\u0418\\\u0427\\\u0404\\\u0421\\\u041a\\\u041e\\\u0419|\\\u042d\\\u041a\\\u0422\\\u0418\\\u0411\\\u041d\\\u041e\\\u0421\\\u0422\\\u0418|\\\u041f\\\u041e\\\u042f\\\u0412\\\u0418\\\u041b\\\u0417\\\u0421\\\u042c|\\\u041d\\\u041e\\\u0412\\\u0417\\\u042f|\\\u0421\\\u0422\\\u0420\\\u042d\\\u0422\\\u0404\\\u0413\\\u0418\\\u042f|\\\u0423\\\u0421\\\u041f\\\u0404\\\u0428\\\u041d0|\\\u041f\\\u041e\\\u0421\\\u0417\\\u0414\\\u041a\\\u0423|\\\u0413\\\u041e\\\u0422\\\u041e\\\u0411\\\u042b|\\\u041d\\\u0417\\\u0427\\\u0417\\\u0422\\\u042c|\\\u041e\\\u0425\\\u041e\\\u0422\\\u042d|\\\u041f\\\u0420\\\u0418\\\u0417\\\u041d\\\u0417\\\u041a\\\u0417\\\u041c\\\u0418|\\\u041f\\\u04400\\\u0428\\\u041b\\\u041e\\\u041c|\\\u041d\\\u042d\\\u0421\\\u0422\\\u041e\\\u042f\\\u0429\\\u0404\\\u041c|\\\u041f\\\u0423\\\u0421\\\u0422\\\u041e\\\u0422\\\u0417\\\u0425|\\\u0411\\\u041b\\\u0417\\\u0416\\\u041d\\\u041e\\\u0419|\\\u041f\\\u041e\\\u0427\\\u0411\\\u0404|\\\u041c\\\u042c\\\u0406|\\\u0421\\\u0404\\\u0419\\\u0427\\\u0417\\\u0421|\\\u0404\\\u0421\\\u041b\\\u0418|\\\u0417\\\u0417\\\u0422\\\u0420\\\u041e\\\u041d\\\u0415\\\u041c|\\\u041e\\\u041f\\\u0417\\\u0421\\\u0417\\\u0404\\\u041c\\\u0421\\\u042f|\\\u0421\\\u0418\\\u041b\\\u042c\\\u041d0|\\\u041e\\\u0422\\\u041b\\\u0418\\\u0427\\\u0417\\\u0404\\\u0422\\\u0421\\\u042f|\\\u0420\\\u042d\\\u041d\\\u042c\\\u0428\\\u0404|\\\u041d\\\u0417\\\u0417\\\u042c\\\u0406\\\u0412\\\u0417\\\u042e\\\u0422|\\\u0422\\\u0404\\\u041a\\\u041b3|\\\u041e\\\u0421\\\u0417\\\u0414\\\u041e\\\u0427\\\u041d\\\u042b\\\u041c\\\u0418|\\\u041f\\\u041e\\\u0421\\\u0422\\\u0404\\\u041f\\\u0404\\\u041d\\\u041d0|\\\u0418\\\u0421\\\u041f\\\u042d\\\u0420\\\u042f\\\u041b\\\u0417\
'spa': {'BeginLines': {'data': OrderedDict(),
'pattern': None},
'EndLines': {'data': OrderedDict([(u'.\xbb.', u'\xbb.')]),
'pattern': u'(?um)(?:\\.\\\xbb\\.)$'},
'PartialLines': {'data': OrderedDict([(u'de gratis', u'gratis'), (u'si quiera', u'siquiera'), (u'Cada una de los', u'Cada uno de los'), (u'Cada uno de las', u'Cada una de las'), (u'haber que', u'a ver qu\xe9'), (u'haber qu\xe9', u'a ver qu\xe9'), (u'Haber si', u'A ver si'), (u' que hora', u' qu\xe9 hora'), (u'yo que se', u'yo qu\xe9 s\xe9'), (u'Yo que se', u'Yo qu\xe9 s\xe9'), (u' tu!', u' t\xfa!'), (u' si!', u' s\xed!'), (u' mi!', u' m\xed!'), (u' el!', u' \xe9l!'), (u' tu?', u' t\xfa?'), (u' si?', u' s\xed?'), (u' mi?', u' m\xed?'), (u' el?', u' \xe9l?'), (u' aun?', u' a\xfan?'), (u' mas?', u' m\xe1s?'), (u' que?', u' qu\xe9?'), (u' paso?', u' pas\xf3?'), (u' cuando?', u' cu\xe1ndo?'), (u' cuanto?', u' cu\xe1nto?'), (u' cuanta?', u' cu\xe1nta?'), (u' cuantas?', u' cu\xe1ntas?'), (u' cuantos?', u' cu\xe1ntos?'), (u' donde?', u' d\xf3nde?'), (u' quien?', u' qui\xe9n?'), (u' como?', u' c\xf3mo?'), (u' adonde?', u' ad\xf3nde?'), (u' cual?', u' cu\xe1l?'), (u'\xbfSi?', u'\xbfS\xed?'), (u'\xbfesta bien?', u'\xbfest\xe1 bien?'), (u'\xbfPero qu\xe9 haces?', u'\xa1\xbfPero qu\xe9 haces?!'), (u'\xbfpero qu\xe9 haces?', u'\xa1\xbfpero qu\xe9 haces?!'), (u'\xbfEs que no me has escuchado?', u'\xa1\xbfEs que no me has escuchado?!'), (u'\xa1\xbfes que no me has escuchado?!', u'\xa1\xbfes que no me has escuchado?!'), (u'\xbfaun', u'\xbfa\xfan'), (u'\xbftu ', u'\xbft\xfa '), (u'\xbfque ', u'\xbfqu\xe9 '), (u'\xbfsabes que', u'\xbfsabes qu\xe9'), (u'\xbfsabes adonde', u'\xbfsabes ad\xf3nde'), (u'\xbfsabes cual', u'\xbfsabes cu\xe1l'), (u'\xbfsabes quien', u'\xbfsabes qui\xe9n'), (u'\xbfsabes como', u'\xbfsabes c\xf3mo'), (u'\xbfsabes cuan', u'\xbfsabes cu\xe1n'), (u'\xbfsabes cuanto', u'\xbfsabes cu\xe1nto'), (u'\xbfsabes cuanta', u'\xbfsabes cu\xe1nta'), (u'\xbfsabes cuantos', u'\xbfsabes cu\xe1ntos'), (u'\xbfsabes cuantas', u'\xbfsabes cu\xe1ntas'), (u'\xbfsabes cuando', u'\xbfsabes cu\xe1ndo'), (u'\xbfsabes donde', u'\xbfsabes d\xf3nde'), (u'\xbfsabe que', u'\xbfsabe qu\xe9'), (u'\xbfsabe adonde', u'\xbfsabe ad\xf3nde'), (u'\xbfsabe cual', u'\xbfsabe cu\xe1l'), (u'\xbfsabe quien', u'\xbfsabe qui\xe9n'), (u'\xbfsabe como', u'\xbfsabe c\xf3mo'), (u'\xbfsabe cuan', u'\xbfsabe cu\xe1n'), (u'\xbfsabe cuanto', u'\xbfsabe cu\xe1nto'), (u'\xbfsabe cuanta', u'\xbfsabe cu\xe1nta'), (u'\xbfsabe cuantos', u'\xbfsabe cu\xe1ntos'), (u'\xbfsabe cuantas', u'\xbfsabe cu\xe1ntas'), (u'\xbfsabe cuando', u'\xbfsabe cu\xe1ndo'), (u'\xbfsabe donde', u'\xbfsabe d\xf3nde'), (u'\xbfsaben que', u'\xbfsaben qu\xe9'), (u'\xbfsaben adonde', u'\xbfsaben ad\xf3nde'), (u'\xbfsaben cual', u'\xbfsaben cu\xe1l'), (u'\xbfsaben quien', u'\xbfsaben qui\xe9n'), (u'\xbfsaben como', u'\xbfsaben c\xf3mo'), (u'\xbfsaben cuan', u'\xbfsaben cu\xe1n'), (u'\xbfsaben cuanto', u'\xbfsaben cu\xe1nto'), (u'\xbfsaben cuanta', u'\xbfsaben cu\xe1nta'), (u'\xbfsaben cuantos', u'\xbfsaben cu\xe1ntos'), (u'\xbfsaben cuantas', u'\xbfsaben cu\xe1ntas'), (u'\xbfsaben cuando', u'\xbfsaben cu\xe1ndo'), (u'\xbfsaben donde', u'\xbfsaben d\xf3nde'), (u'\xbfde que', u'\xbfde qu\xe9'), (u'\xbfde donde', u'\xbfde d\xf3nde'), (u'\xbfde cual', u'\xbfde cu\xe1l'), (u'\xbfde quien', u'\xbfde qui\xe9n'), (u'\xbfde cuanto', u'\xbfde cu\xe1nto'), (u'\xbfde cuanta', u'\xbfde cu\xe1nta'), (u'\xbfde cuantos', u'\xbfde cu\xe1ntos'), (u'\xbfde cuantas', u'\xbfde cu\xe1ntas'), (u'\xbfde cuando', u'\xbfde cu\xe1ndo'), (u'\xbfsobre que', u'\xbfsobre qu\xe9'), (u'\xbfcomo ', u'\xbfc\xf3mo '), (u'\xbfcual ', u'\xbfcu\xe1l '), (u'\xbfen cual', u'\xbfen cu\xe1l'), (u'\xbfcuando', u'\xbfcu\xe1ndo'), (u'\xbfhasta cual', u'\xbfhasta cu\xe1l'), (u'\xbfhasta quien', u'\xbfhasta qui\xe9n'), (u'\xbfhasta cuanto', u'\xbfhasta cu\xe1nto'), (u'\xbfhasta cuantas', u'\xbfhasta cu\xe1ntas'), (u'\xbfhasta cuantos', u'\xbfhasta cu\xe1ntos'), (u'\xbfhasta cuando', u'\xbfhasta cu\xe1ndo'), (u'\xbfhasta donde', u'\xbfhasta d\xf3nde'), (u'\xbfhasta que', u'\xbfhasta qu\xe9'), (u'\xbfhasta adonde', u'\xbfhasta ad\xf3nde'), (u'\xbfdesde que', u'\xbfdesde qu\xe9'), (u'\xbfdesde cuando', u'\xbfdesde cu\xe1ndo'), (u'\xbfdesde quien'
'pattern': u'(?um)(?:(?<=\\s)|(?<=^)|(?<=\\b))(?:de\\ gratis|si\\ quiera|Cada\\ una\\ de\\ los|Cada\\ uno\\ de\\ las|haber\\ que|haber\\ qu\\\xe9|Haber\\ si|\\ que\\ hora|yo\\ que\\ se|Yo\\ que\\ se|\\ tu\\!|\\ si\\!|\\ mi\\!|\\ el\\!|\\ tu\\?|\\ si\\?|\\ mi\\?|\\ el\\?|\\ aun\\?|\\ mas\\?|\\ que\\?|\\ paso\\?|\\ cuando\\?|\\ cuanto\\?|\\ cuanta\\?|\\ cuantas\\?|\\ cuantos\\?|\\ donde\\?|\\ quien\\?|\\ como\\?|\\ adonde\\?|\\ cual\\?|\\\xbfSi\\?|\\\xbfesta\\ bien\\?|\\\xbfPero\\ qu\\\xe9\\ haces\\?|\\\xbfpero\\ qu\\\xe9\\ haces\\?|\\\xbfEs\\ que\\ no\\ me\\ has\\ escuchado\\?|\\\xa1\\\xbfes\\ que\\ no\\ me\\ has\\ escuchado\\?\\!|\\\xbfaun|\\\xbftu\\ |\\\xbfque\\ |\\\xbfsabes\\ que|\\\xbfsabes\\ adonde|\\\xbfsabes\\ cual|\\\xbfsabes\\ quien|\\\xbfsabes\\ como|\\\xbfsabes\\ cuan|\\\xbfsabes\\ cuanto|\\\xbfsabes\\ cuanta|\\\xbfsabes\\ cuantos|\\\xbfsabes\\ cuantas|\\\xbfsabes\\ cuando|\\\xbfsabes\\ donde|\\\xbfsabe\\ que|\\\xbfsabe\\ adonde|\\\xbfsabe\\ cual|\\\xbfsabe\\ quien|\\\xbfsabe\\ como|\\\xbfsabe\\ cuan|\\\xbfsabe\\ cuanto|\\\xbfsabe\\ cuanta|\\\xbfsabe\\ cuantos|\\\xbfsabe\\ cuantas|\\\xbfsabe\\ cuando|\\\xbfsabe\\ donde|\\\xbfsaben\\ que|\\\xbfsaben\\ adonde|\\\xbfsaben\\ cual|\\\xbfsaben\\ quien|\\\xbfsaben\\ como|\\\xbfsaben\\ cuan|\\\xbfsaben\\ cuanto|\\\xbfsaben\\ cuanta|\\\xbfsaben\\ cuantos|\\\xbfsaben\\ cuantas|\\\xbfsaben\\ cuando|\\\xbfsaben\\ donde|\\\xbfde\\ que|\\\xbfde\\ donde|\\\xbfde\\ cual|\\\xbfde\\ quien|\\\xbfde\\ cuanto|\\\xbfde\\ cuanta|\\\xbfde\\ cuantos|\\\xbfde\\ cuantas|\\\xbfde\\ cuando|\\\xbfsobre\\ que|\\\xbfcomo\\ |\\\xbfcual\\ |\\\xbfen\\ cual|\\\xbfcuando|\\\xbfhasta\\ cual|\\\xbfhasta\\ quien|\\\xbfhasta\\ cuanto|\\\xbfhasta\\ cuantas|\\\xbfhasta\\ cuantos|\\\xbfhasta\\ cuando|\\\xbfhasta\\ donde|\\\xbfhasta\\ que|\\\xbfhasta\\ adonde|\\\xbfdesde\\ que|\\\xbfdesde\\ cuando|\\\xbfdesde\\ quien|\\\xbfdesde\\ donde|\\\xbfcuanto|\\\xbfcuantos|\\\xbfdonde|\\\xbfadonde|\\\xbfcon\\ que|\\\xbfcon\\ cual|\\\xbfcon\\ quien|\\\xbfcon\\ cuantos|\\\xbfcon\\ cuantas|\\\xbfcon\\ cuanta|\\\xbfcon\\ cuanto|\\\xbfpara\\ donde|\\\xbfpara\\ adonde|\\\xbfpara\\ cuando|\\\xbfpara\\ que|\\\xbfpara\\ quien|\\\xbfpara\\ cuanto|\\\xbfpara\\ cuanta|\\\xbfpara\\ cuantos|\\\xbfpara\\ cuantas|\\\xbfa\\ donde|\\\xbfa\\ que|\\\xbfa\\ cual|\\\xbfa\\ quien|\\\xbfa\\ como|\\\xbfa\\ cuanto|\\\xbfa\\ cuanta|\\\xbfa\\ cuantos|\\\xbfa\\ cuantas|\\\xbfpor\\ que|\\\xbfpor\\ cual|\\\xbfpor\\ quien|\\\xbfpor\\ cuanto|\\\xbfpor\\ cuanta|\\\xbfpor\\ cuantos|\\\xbfpor\\ cuantas|\\\xbfpor\\ donde|\\\xbfporque|\\\xbfporqu\\\xe9|\\\xbfy\\ que|\\\xbfy\\ como|\\\xbfy\\ cuando|\\\xbfy\\ cual|\\\xbfy\\ quien|\\\xbfy\\ cuanto|\\\xbfy\\ cuanta|\\\xbfy\\ cuantos|\\\xbfy\\ cuantas|\\\xbfy\\ donde|\\\xbfy\\ adonde|\\\xbfquien\\ |\\\xbfesta\\ |\\\xbfestas\\ |\\\xbfAun|\\\xbfQue\\ |\\\xbfSabes\\ que|\\\xbfSabes\\ adonde|\\\xbfSabes\\ cual|\\\xbfSabes\\ quien|\\\xbfSabes\\ como|\\\xbfSabes\\ cuan|\\\xbfSabes\\ cuanto|\\\xbfSabes\\ cuanta|\\\xbfSabes\\ cuantos|\\\xbfSabes\\ cuantas|\\\xbfSabes\\ cuando|\\\xbfSabes\\ donde|\\\xbfSabe\\ que|\\\xbfSabe\\ adonde|\\\xbfSabe\\ cual|\\\xbfSabe\\ quien|\\\xbfSabe\\ como|\\\xbfSabe\\ cuan|\\\xbfSabe\\ cuanto|\\\xbfSabe\\ cuanta|\\\xbfSabe\\ cuantos|\\\xbfSabe\\ cuantas|\\\xbfSabe\\ cuando|\\\xbfSabe\\ donde|\\\xbfSaben\\ que|\\\xbfSaben\\ adonde|\\\xbfSaben\\ cual|\\\xbfSaben\\ quien|\\\xbfSaben\\ como|\\\xbfSaben\\ cuan|\\\xbfSaben\\ cuanto|\\\xbfSaben\\ cuanta|\\\xbfSaben\\ cuantos|\\\xbfSaben\\ cuantas|\\\xbfSaben\\ cuando|\\\xbfSaben\\ donde|\\\xbfDe\\ que|\\\xbfDe\\ donde|\\\xbfDe\\ cual|\\\xbfDe\\ quien|\\\xbfDe\\ cuanto|\\\xbfDe\\ cuanta|\\\xbfDe\\ cuantos|\\\xbfDe\\ cuantas|\\\xbfDe\\ cuando|\\\xbfDesde\\ que|\\\xbfDesde\\ cuando|\\\xbfDesde\\ quien|\\\xbfDesde\\ donde|\\\xbfSobre\\ que|\\\xbfComo\\ |\\\xbfCual\\ |\\\xbfEn\\ cual|\\\xbfCuando|\\\xbfHasta\\ cual|\\\xbfHasta\\ quien|\\\xbfHasta\\ cuanto|\\\xbfHasta\\ cuantas|\\\xbfHasta\\ cuantos|\\\xbfHasta\\ cuando|\\\xbfHasta\\ donde|\\\xbfHasta\\ que|\\\xbfHasta\\ adonde|\\\xbfCuanto|\\\xbfCuantos|\\\xbfDonde|\\\x
'PartialWordsAlways': {'data': OrderedDict(),
6 years ago
'pattern': None},
'WholeLines': {'data': OrderedDict([(u'No', u'No.')]),
'pattern': None},
'WholeWords': {'data': OrderedDict([(u'KBs', u'kB'), (u'Vd', u'Ud'), (u'N\xb0', u'N.\xb0'), (u'n\xb0', u'n.\xb0'), (u'nro.', u'n.\xb0'), (u'Nro.', u'N.\xb0'), (u'aca', u'ac\xe1'), (u'actuas', u'act\xfaas'), (u'actues', u'act\xfaes'), (u'adios', u'adi\xf3s'), (u'agarrenla', u'ag\xe1rrenla'), (u'agarrenlo', u'ag\xe1rrenlo'), (u'agarrandose', u'agarr\xe1ndose'), (u'algun', u'alg\xfan'), (u'alli', u'all\xed'), (u'alla', u'all\xe1'), (u'alejate', u'al\xe9jate'), (u'ahi', u'ah\xed'), (u'angel', u'\xe1ngel'), (u'angeles', u'\xe1ngeles'), (u'ansian', u'ans\xedan'), (u'apagala', u'ap\xe1gala'), (u'aqui', u'aqu\xed'), (u'asi', u'as\xed'), (u'bahia', u'bah\xeda'), (u'busqueda', u'b\xfasqueda'), (u'busquedas', u'b\xfasquedas'), (u'callate', u'c\xe1llate'), (u'carcel', u'c\xe1rcel'), (u'camara', u'c\xe1mara'), (u'caido', u'ca\xeddo'), (u'cabron', u'cabr\xf3n'), (u'camion', u'cami\xf3n'), (u'codigo', u'c\xf3digo'), (u'codigos', u'c\xf3digos'), (u'comence', u'comenc\xe9'), (u'comprate', u'c\xf3mprate'), (u'consegui', u'consegu\xed'), (u'confias', u'conf\xedas'), (u'convertira', u'convertir\xe1'), (u'corazon', u'coraz\xf3n'), (u'crei', u'cre\xed'), (u'creia', u'cre\xeda'), (u'creido', u'cre\xeddo'), (u'creiste', u'cre\xedste'), (u'cubrenos', u'c\xfabrenos'), (u'comio', u'comi\xf3'), (u'dara', u'dar\xe1'), (u'dia', u'd\xeda'), (u'dias', u'd\xedas'), (u'debio', u'debi\xf3'), (u'demelo', u'd\xe9melo'), (u'dimelo', u'd\xedmelo'), (u'denoslo', u'd\xe9noslo'), (u'deselo', u'd\xe9selo'), (u'decia', u'dec\xeda'), (u'decian', u'dec\xedan'), (u'detras', u'detr\xe1s'), (u'deberia', u'deber\xeda'), (u'deberas', u'deber\xe1s'), (u'deberias', u'deber\xedas'), (u'deberian', u'deber\xedan'), (u'deberiamos', u'deber\xedamos'), (u'dejame', u'd\xe9jame'), (u'dejate', u'd\xe9jate'), (u'dejalo', u'd\xe9jalo'), (u'dejarian', u'dejar\xedan'), (u'damela', u'd\xe1mela'), (u'despues', u'despu\xe9s'), (u'diciendome', u'dici\xe9ndome'), (u'dificil', u'dif\xedcil'), (u'dificiles', u'dif\xedciles'), (u'disculpate', u'disc\xfalpate'), (u'dolares', u'd\xf3lares'), (u'hechar', u'echar'), (u'examenes', u'ex\xe1menes'), (u'empezo', u'empez\xf3'), (u'empujon', u'empuj\xf3n'), (u'empujalo', u'emp\xfajalo'), (u'energia', u'energ\xeda'), (u'enfrian', u'enfr\xedan'), (u'escondanme', u'esc\xf3ndanme'), (u'esperame', u'esp\xe9rame'), (u'estara', u'estar\xe1'), (u'estare', u'estar\xe9'), (u'estaria', u'estar\xeda'), (u'estan', u'est\xe1n'), (u'estaran', u'estar\xe1n'), (u'estabamos', u'est\xe1bamos'), (u'estuvieramos', u'estuvi\xe9ramos'), (u'exito', u'\xe9xito'), (u'facil', u'f\xe1cil'), (u'fiscalia', u'fiscal\xeda'), (u'fragil', u'fr\xe1gil'), (u'fragiles', u'fr\xe1giles'), (u'frances', u'franc\xe9s'), (u'gustaria', u'gustar\xeda'), (u'habia', u'hab\xeda'), (u'habias', u'hab\xedas'), (u'habian', u'hab\xedan'), (u'habrian', u'habr\xedan'), (u'habrias', u'habr\xedas'), (u'hagalo', u'h\xe1galo'), (u'haria', u'har\xeda'), (u'increible', u'incre\xedble'), (u'incredulo', u'incr\xe9dulo'), (u'intentalo', u'int\xe9ntalo'), (u'ire', u'ir\xe9'), (u'jovenes', u'j\xf3venes'), (u'ladron', u'ladr\xf3n'), (u'linea', u'l\xednea'), (u'llamame', u'll\xe1mame'), (u'llevalo', u'll\xe9valo'), (u'mama', u'mam\xe1'), (u'maricon', u'maric\xf3n'), (u'mayoria', u'mayor\xeda'), (u'metodo', u'm\xe9todo'), (u'metodos', u'm\xe9todos'), (u'mio', u'm\xedo'), (u'mostro', u'mostr\xf3'), (u'morira', u'morir\xe1'), (u'muevete', u'mu\xe9vete'), (u'murio', u'muri\xf3'), (u'numero', u'n\xfamero'), (u'numeros', u'n\xfameros'), (u'ningun', u'ning\xfan'), (u'oido', u'o\xeddo'), (u'oidos', u'o\xeddos'), (u'oimos', u'o\xedmos'), (u'oiste', u'o\xedste'), (u'pasale', u'p\xe1sale'), (u'pasame', u'p\xe1same'), (u'paraiso', u'para\xedso'), (u'parate', u'p\xe1rate'), (u'pense', u'pens\xe9'), (u'peluqueria', u'peluquer\xeda'), (u'platano', u'pl\xe1tano'), (u'plastico', u'pl\xe1stico'), (u'plasticos', u'pl\xe1sticos'), (u'policia', u'polic\xeda'), (u'policias', u'polic\xedas'), (u'poster', u'p\xf3ster'), (u'podia', u'pod\xeda'), (u'podias', u'pod\xedas'), (u'podria', u'podr\xeda'), (u'podrian', u'podr\xedan'), (u'podr
'pattern': u'(?um)(\\b|^)(?:KBs|Vd|N\\\xb0|n\\\xb0|nro\\.|Nro\\.|aca|actuas|actues|adios|agarrenla|agarrenlo|agarrandose|algun|alli|alla|alejate|ahi|angel|angeles|ansian|apagala|aqui|asi|bahia|busqueda|busquedas|callate|carcel|camara|caido|cabron|camion|codigo|codigos|comence|comprate|consegui|confias|convertira|corazon|crei|creia|creido|creiste|cubrenos|comio|dara|dia|dias|debio|demelo|dimelo|denoslo|deselo|decia|decian|detras|deberia|deberas|deberias|deberian|deberiamos|dejame|dejate|dejalo|dejarian|damela|despues|diciendome|dificil|dificiles|disculpate|dolares|hechar|examenes|empezo|empujon|empujalo|energia|enfrian|escondanme|esperame|estara|estare|estaria|estan|estaran|estabamos|estuvieramos|exito|facil|fiscalia|fragil|fragiles|frances|gustaria|habia|habias|habian|habrian|habrias|hagalo|haria|increible|incredulo|intentalo|ire|jovenes|ladron|linea|llamame|llevalo|mama|maricon|mayoria|metodo|metodos|mio|mostro|morira|muevete|murio|numero|numeros|ningun|oido|oidos|oimos|oiste|pasale|pasame|paraiso|parate|pense|peluqueria|platano|plastico|plasticos|policia|policias|poster|podia|podias|podria|podrian|podrias|podriamos|prometio|proposito|pideselo|ponganse|prometeme|publico|publicos|publicamente|quedate|queria|querrias|querian|rapido|rapidamente|razon|rehusen|rie|rias|rindete|sacame|sentian|sientate|sera|soplon|sueltalo|tambien|teoria|tendra|telefono|tipica|todavia|tomalo|tonterias|torci|traelos|traiganlo|traiganlos|trio|tuvieramos|union|ultimo|ultima|ultimos|ultimas|unica|unico|vamonos|vayanse|victima|vivira|volvio|volvia|volvian|reir|freir|sonreir|hazmerreir|oir|oirlo|oirte|oirse|oirme|oirle|oirla|oirles|oirnos|oirlas|bi\\\xe9n|cr\\\xedmen|fu\\\xe9|fu\\\xed|qui\\\xe9res|t\\\xed|d\\\xed|v\\\xe1|v\\\xe9|v\\\xed|vi\\\xf3|\\\xf3|cl\\\xf3n|di\\\xf3|gui\\\xf3n|d\\\xf3n|f\\\xe9|\\\xe1quel|\\\xe9ste|\\\xe9sta|\\\xe9stos|\\\xe9stas|\\\xe9se|\\\xe9sa|\\\xe9sos|\\\xe9sas|s\\\xf3lo|coktel|cocktel|conciente|comenz\\\xe9|desilucionarte|dijieron|empez\\\xe9|hize|ilucionarte|inconciente|quize|quizo|verguenza|Nu\\\xf1ez|Ivan|Japon|Monica|Maria|Jose|Ramon|Garcia|Gonzalez|Jesus|Alvarez|Damian|Rene|Nicolas|Jonas|Lopez|Hernandez|Bermudez|Fernandez|Suarez|Sofia|Seneca|Tokyo|Canada|Paris|Turquia|Mexico|Mejico|Matias|Valentin|mejicano|mejicanos|mejicana|mejicanas|io|ia|ie|Io|Ia|AI|Ie|EI|suba\\\ufb02uente|a\\\ufb02\\\xf3jalo|A\\\ufb02\\\xf3jalo|perdi|Podria|confia|pasaria|Podias|responsabke|Todavia|envien|Queria|tio|traido|Asi|elegi|habria|encantaria|leido|conocias|harias|Aqui|decidi|mia|Crei|podiamos|avisame|debia|pensarias|reuniamos|PO\\\xcf|vendria|caida|venian|compa\\\xf1ias|leiste|Leiste|fiaria|Hungria|fotografia|cafeteria|Digame|debias|tendria|C\\\xcfGO|anteg|S\\\xf3Io|Ilam\\\xe1ndola|C\\\xe1\\\ufb02at\\\xe9|Ilamaste|daria|Iargaba|Yati|querias|Iimpiarlo|Iargado|galeria|Bartomeu|Iocalizarlo|Il\\\xe1mame)(\\b|$)'}},
'srp': {'BeginLines': {'data': OrderedDict(),
'pattern': None},
'EndLines': {'data': OrderedDict(),
'pattern': None},
'PartialLines': {'data': OrderedDict([(u'bi smo', u'bismo'), (u'dali je', u'da li je'), (u'dali si', u'da li si'), (u'Dali si', u'Da li si'), (u'Jel sam ti', u'Jesam li ti'), (u'Jel si', u'Jesi li'), (u"Jel' si", u'Jesi li'), (u"Je I'", u'Jesi li'), (u'Jel si to', u'Jesi li to'), (u"Jel' si to", u'Da li si to'), (u'jel si to', u'da li si to'), (u"jel' si to", u'jesi li to'), (u'Jel si ti', u'Da li si ti'), (u"Jel' si ti", u'Da li si ti'), (u'jel si ti', u'da li si ti'), (u"jel' si ti", u'da li si ti'), (u'jel ste ', u'jeste li '), (u'Jel ste', u'Jeste li'), (u"jel' ste ", u'jeste li '), (u"Jel' ste ", u'Jeste li '), (u'Jel su ', u'Jesu li '), (u'Jel da ', u'Zar ne'), (u'jel da ', u'zar ne'), (u"jel'da ", u'zar ne'), (u'Jeli sve ', u'Je li sve'), (u'Jeli on ', u'Je li on'), (u'Jeli ti ', u'Je li ti'), (u'jeli ti ', u'je li ti'), (u'Jeli to ', u'Je li to'), (u'Nebrini', u'Ne brini'), (u'ne \u0107u', u'ne\u0107u'), (u'od kako', u'otkako'), (u'Si dobro', u'Jesi li dobro'), (u'Svo vreme', u'Sve vrijeme'), (u'Svo vrijeme', u'Sve vrijeme'), (u'Cijelo vrijeme', u'Sve vrijeme')]),
'pattern': u"(?um)(?:(?<=\\s)|(?<=^)|(?<=\\b))(?:bi\\ smo|dali\\ je|dali\\ si|Dali\\ si|Jel\\ sam\\ ti|Jel\\ si|Jel\\'\\ si|Je\\ I\\'|Jel\\ si\\ to|Jel\\'\\ si\\ to|jel\\ si\\ to|jel\\'\\ si\\ to|Jel\\ si\\ ti|Jel\\'\\ si\\ ti|jel\\ si\\ ti|jel\\'\\ si\\ ti|jel\\ ste\\ |Jel\\ ste|jel\\'\\ ste\\ |Jel\\'\\ ste\\ |Jel\\ su\\ |Jel\\ da\\ |jel\\ da\\ |jel\\'da\\ |Jeli\\ sve\\ |Jeli\\ on\\ |Jeli\\ ti\\ |jeli\\ ti\\ |Jeli\\ to\\ |Nebrini|ne\\ \\\u0107u|od\\ kako|Si\\ dobro|Svo\\ vreme|Svo\\ vrijeme|Cijelo\\ vrijeme)(?:(?=\\s)|(?=$)|(?=\\b))"},
'PartialWordsAlways': {'data': OrderedDict(),
6 years ago
'pattern': None},
'WholeLines': {'data': OrderedDict(),
'pattern': None},
'WholeWords': {'data': OrderedDict([(u'\u010du', u'\u0107u'), (u'\u010de\u0161', u'\u0107e\u0161'), (u'\u010de', u'\u0107e'), (u'\u0107\u0161', u'\u0107e\u0161'), (u'\u0107mo', u'\u0107emo'), (u'\u0107te', u'\u0107ete'), (u'\u010demo', u'\u0107emo'), (u'\u010dete', u'\u0107ete'), (u'djete', u'dijete'), (u'Hey', u'Hej'), (u'hey', u'hej'), (u'htjeo', u'htio'), (u'i\u010di', u'i\u0107i'), (u'jel', u"je l'"), (u'Jel', u"Je l'"), (u'Nebi', u'Ne bi'), (u'Nebih', u'Ne bih'), (u'nebi', u'ne bi'), (u'nebih', u'ne bih'), (u'nedaj', u'ne daj'), (u'Nedaj', u'Ne daj'), (u'nedam', u'ne dam'), (u'Nedam', u'Ne dam'), (u'neda\u0161', u'ne da\u0161'), (u'Neda\u0161', u'Ne da\u0161'), (u'nemogu', u'ne mogu'), (u'Nemogu', u'Ne mogu'), (u'nemora', u'ne mora'), (u'Nemora', u'Ne mora'), (u'nemora\u0161', u'ne mora\u0161'), (u'Nemora\u0161', u'Ne mora\u0161'), (u'predamnom', u'preda mnom'), (u'Predamnom', u'Preda mnom'), (u'Rje\u0161it', u'Rije\u0161it'), (u'samnom', u'sa mnom'), (u'Samnom', u'Sa mnom'), (u'smjeo', u'smio'), (u'uop\u010de', u'uop\u0107e'), (u'Uop\u010de', u'Uop\u0107e'), (u'umijesto', u'umjesto'), (u'Umijesto', u'Umjesto'), (u'uspije\u0161an', u'uspje\u0161an'), (u'uvjek', u'uvijek'), (u'Uvjek', u'Uvijek'), (u'valda', u'valjda'), (u'zamnom', u'za mnom'), (u'Zamnom', u'Za mnom'), (u'\u017eelila', u'\u017eeljela')]),
'pattern': u'(?um)(\\b|^)(?:\\\u010du|\\\u010de\\\u0161|\\\u010de|\\\u0107\\\u0161|\\\u0107mo|\\\u0107te|\\\u010demo|\\\u010dete|djete|Hey|hey|htjeo|i\\\u010di|jel|Jel|Nebi|Nebih|nebi|nebih|nedaj|Nedaj|nedam|Nedam|neda\\\u0161|Neda\\\u0161|nemogu|Nemogu|nemora|Nemora|nemora\\\u0161|Nemora\\\u0161|predamnom|Predamnom|Rje\\\u0161it|samnom|Samnom|smjeo|uop\\\u010de|Uop\\\u010de|umijesto|Umijesto|uspije\\\u0161an|uvjek|Uvjek|valda|zamnom|Zamnom|\\\u017eelila)(\\b|$)'}},
'swe': {'BeginLines': {'data': OrderedDict([(u'Ln ', u'In '), (u'U ppfattat', u'Uppfattat')]),
'pattern': u'(?um)^(?:Ln\\ |U\\ ppfattat)'},
'EndLines': {'data': OrderedDict(),
'pattern': None},
'PartialLines': {'data': OrderedDict(),
'pattern': None},
'PartialWordsAlways': {'data': OrderedDict([(u'\u0139', u'\xc5'), (u'\u013a', u'\xe5')]),
6 years ago
'pattern': None},
'WholeLines': {'data': OrderedDict(),
'pattern': None},
'WholeWords': {'data': OrderedDict([(u'l\xe2rt', u'l\xe4rt'), (u'hederv\xe5rda', u'hederv\xe4rda'), (u'storm\xe2stare', u'storm\xe4stare'), (u'Avf\xe2rd', u'Avf\xe4rd'), (u't\xe2lten', u't\xe4lten'), (u'\xe2rjag', u'\xe4r jag'), (u'\xe4rjag', u'\xe4r jag'), (u'j\xe2mlikar', u'j\xe4mlikar'), (u'Riskako\ufb02', u'Riskakor'), (u'Karamellen/', u'Karamellen'), (u'Lngen\xfcng', u'Ingenting'), (u'\xe4rju', u'\xe4r ju'), (u'S\xe1', u'S\xe5'), (u'n\xe4rjag', u'n\xe4r jag'), (u'alltjag', u'allt jag'), (u'g\xf6rjag', u'g\xf6r jag'), (u'trorjag', u'tror jag'), (u'varju', u'var ju'), (u'g\xf6rju', u'g\xf6r ju'), (u'kanju', u'kan ju'), (u'blirjag', u'blir jag'), (u's\xe4gerjag', u's\xe4ger jag'), (u'beh\xe5llerjag', u'beh\xe5ller jag'), (u'pr\xf8blem', u'problem'), (u'r\xe4ddadeju', u'r\xe4ddade ju'), (u'hon\xf8m', u'honom'), (u'Ln', u'In'), (u'sv\xe5r\ufb02\xf6rtad', u'sv\xe5rfl\xf6rtad'), (u'\xf8ch', u'och'), (u'\ufb02\xf6rtar', u'fl\xf6rtar'), (u'k\xe4nnerjag', u'k\xe4nner jag'), (u'\ufb02ickan', u'flickan'), (u'sn\xf8', u'sn\xf6'), (u'gerju', u'ger ju'), (u'k\xf8ntakter', u'kontakter'), (u'\xf8lycka', u'olycka'), (u'n\xf8lla', u'nolla'), (u'sinnenajublar', u'sinnena jublar'), (u'ijobbet', u'i jobbet'), (u'F\xe5rjag', u'F\xe5r jag'), (u'Ar', u'\xc4r'), (u'liggerju', u'ligger ju'), (u'um', u'om'), (u'lbland', u'Ibland'), (u'skjuterjag', u'skjuter jag'), (u'Vadd\xe5', u'Vad d\xe5'), (u'pratarj\xe4mt', u'pratar j\xe4mt'), (u'harju', u'har ju'), (u'sitterjag', u'sitter jag'), (u'h\xe4\ufb02a', u'h\xe4rja'), (u's\ufb01\xe4l', u'stj\xe4l'), (u'F\xd6U', u'F\xf6lj'), (u'varf\xf6rjag', u'varf\xf6r jag'), (u's\ufb01\xe4rna', u'stj\xe4rna'), (u'b\xf6\ufb02ar', u'b\xf6rjar'), (u'b\xf6\ufb02an', u'b\xf6rjan'), (u'st\xe4ri', u'st\xe5r'), (u'p\xe4', u'p\xe5'), (u'harjag', u'har jag'), (u'attjag', u'att jag'), (u'Verkarjag', u'Verkar jag'), (u'K\xe4nnerjag', u'K\xe4nner jag'), (u'd\xe4rjag', u'd\xe4r jag'), (u'tu\ufb01', u'tuff'), (u'lurarjag', u'lurar jag'), (u'varj\xe4ttebra', u'var j\xe4ttebra'), (u'allvan', u'allvar'), (u'deth\xe4r', u'det h\xe4r'), (u'va\ufb02e', u'varje'), (u'F\xf6Uer', u'F\xf6ljer'), (u'personalm\xf6tetl', u'personalm\xf6tet!'), (u'harjust', u'har just'), (u'\xe4rj\xe4tteduktig', u'\xe4r j\xe4tteduktig'), (u'd\xe4rja', u'd\xe4r ja'), (u'lngen\xfcng', u'lngenting'), (u'iluften', u'i luften'), (u'\xf6sen', u'\xf6ser'), (u'tv\xe2', u'tv\xe5'), (u'Uejerna', u'Tjejerna'), (u'h\xe5n*', u'h\xe5rt'), (u'\xc4rjag', u'\xc4r jag'), (u'keL', u'Okej'), (u'F\xf6rjag', u'F\xf6r jag'), (u'varj\xe4ttekul', u'var j\xe4ttekul'), (u'k\xe4mpan', u'k\xe4mpar'), (u'mycketjobb', u'mycket jobb'), (u'Uus', u'ljus'), (u'serjag', u'ser jag'), (u'vetjag', u'vet jag'), (u'f\xe5rjag', u'f\xe5r jag'), (u'hurjag', u'hur jag'), (u'f\xf6rs\xf6kerjag', u'f\xf6rs\xf6ker jag'), (u't\xe1nagel', u't\xe5nagel'), (u'va\xfce', u'varje'), (u'Uudet', u'ljudet'), (u'amhopa', u'allihopa'), (u'V\xe4\xfc', u'V\xe4lj'), (u'g\xe4ri', u'g\xe5r'), (u'r\xf6d\xfcus', u'r\xf6dljus'), (u'Uuset', u'ljuset'), (u'Rid\xe0n', u'Rid\xe5n'), (u'vi\xfca', u'vilja'), (u'g\xe5ri', u'g\xe5r i'), (u'Hurd\xe5', u'Hur d\xe5'), (u'inter\\/juar', u'intervjuar'), (u'menarjag', u'menar jag'), (u'spyrjag', u'spyr jag'), (u'bri\xfcera', u'briljera'), (u'N\xe4rjag', u'N\xe4r jag'), (u'ner\\/\xf6s', u'nerv\xf6s'), (u'ilivets', u'i livets'), (u'n\xe4got', u'n\xe5got'), (u'p\xe0', u'p\xe5'), (u'Lnnan', u'Innan'), (u'Uf', u'Ut'), (u'lnnan', u'Innan'), (u'D\xe0ren', u'D\xe5ren'), (u'F\xe0rjag', u'F\xe5r jag'), (u'Vad\xe4rdetd\xe4L', u'Vad \xe4r det d\xe4r'), (u'sm\xe0tjuv', u'sm\xe5tjuv'), (u't\xe0gr\xe5nare', u't\xe5gr\xe5nare'), (u'dit\xe0t', u'dit\xe5t'), (u's\xe4', u's\xe5'), (u'v\xe0rdsl\xf6sa', u'v\xe5rdsl\xf6sa'), (u'n\xe0n', u'n\xe5n'), (u'kommerjag', u'kommer jag'), (u'\xe4rj\xe4ttebra', u'\xe4r j\xe4ttebra'), (u'\xe4rj\xe4vligt', u'\xe4r j\xe4vligt'), (u'\xe0kerjag', u'\xe5ker jag'), (u'ellerjapaner', u'eller japaner'), (u'attjaga', u'att jaga'), (u'eften', u'efter'), (u'h\xe4stan', u'h\xe4star'), (u'Lntensivare', u'Intensivare'), (u'fr\xe0garjag', u'fr\xe5gar jag'), (u'pen/ers', u'per
'pattern': u"(?um)(\\b|^)(?:l\\\xe2rt|hederv\\\xe5rda|storm\\\xe2stare|Avf\\\xe2rd|t\\\xe2lten|\\\xe2rjag|\\\xe4rjag|j\\\xe2mlikar|Riskako\\\ufb02|Karamellen\\/|Lngen\\\xfcng|\\\xe4rju|S\\\xe1|n\\\xe4rjag|alltjag|g\\\xf6rjag|trorjag|varju|g\\\xf6rju|kanju|blirjag|s\\\xe4gerjag|beh\\\xe5llerjag|pr\\\xf8blem|r\\\xe4ddadeju|hon\\\xf8m|Ln|sv\\\xe5r\\\ufb02\\\xf6rtad|\\\xf8ch|\\\ufb02\\\xf6rtar|k\\\xe4nnerjag|\\\ufb02ickan|sn\\\xf8|gerju|k\\\xf8ntakter|\\\xf8lycka|n\\\xf8lla|sinnenajublar|ijobbet|F\\\xe5rjag|Ar|liggerju|um|lbland|skjuterjag|Vadd\\\xe5|pratarj\\\xe4mt|harju|sitterjag|h\\\xe4\\\ufb02a|s\\\ufb01\\\xe4l|F\\\xd6U|varf\\\xf6rjag|s\\\ufb01\\\xe4rna|b\\\xf6\\\ufb02ar|b\\\xf6\\\ufb02an|st\\\xe4ri|p\\\xe4|harjag|attjag|Verkarjag|K\\\xe4nnerjag|d\\\xe4rjag|tu\\\ufb01|lurarjag|varj\\\xe4ttebra|allvan|deth\\\xe4r|va\\\ufb02e|F\\\xf6Uer|personalm\\\xf6tetl|harjust|\\\xe4rj\\\xe4tteduktig|d\\\xe4rja|lngen\\\xfcng|iluften|\\\xf6sen|tv\\\xe2|Uejerna|h\\\xe5n\\*|\\\xc4rjag|keL|F\\\xf6rjag|varj\\\xe4ttekul|k\\\xe4mpan|mycketjobb|Uus|serjag|vetjag|f\\\xe5rjag|hurjag|f\\\xf6rs\\\xf6kerjag|t\\\xe1nagel|va\\\xfce|Uudet|amhopa|V\\\xe4\\\xfc|g\\\xe4ri|r\\\xf6d\\\xfcus|Uuset|Rid\\\xe0n|vi\\\xfca|g\\\xe5ri|Hurd\\\xe5|inter\\\\\\/juar|menarjag|spyrjag|bri\\\xfcera|N\\\xe4rjag|ner\\\\\\/\\\xf6s|ilivets|n\\\xe4got|p\\\xe0|Lnnan|Uf|lnnan|D\\\xe0ren|F\\\xe0rjag|Vad\\\xe4rdetd\\\xe4L|sm\\\xe0tjuv|t\\\xe0gr\\\xe5nare|dit\\\xe0t|s\\\xe4|v\\\xe0rdsl\\\xf6sa|n\\\xe0n|kommerjag|\\\xe4rj\\\xe4ttebra|\\\xe4rj\\\xe4vligt|\\\xe0kerjag|ellerjapaner|attjaga|eften|h\\\xe4stan|Lntensivare|fr\\\xe0garjag|pen\\/ers|r\\\xe0barkade|styrkon|Dif\\\xe5f|h\\\xe4nden|f\\\xf6\\\ufb01a|Idioten\\/|Varf\\\xf6rjagade|d\\\xe4rf\\\xf6rjag|forjag|Iivsgladje|narjag|sajag|genastja|rockument\\\xe0ren|turne|fickjag|sager|Ijush\\\xe5rig|tradg\\\xe5rdsolycka|kvavdes|d\\\xe0rja|hedersgaster|Nar|smaki\\\xf6sa|lan|Lan|eri|universitetsamne|garna|ar|baltdjur|varjag|\\\xe0r|f\\\xf6rf\\\xf6rst\\\xe0rkare|arjattespeciell|h\\\xe0rg\\\xe5r|Ia|Iimousinen|krickettra|h\\\xe5rdrockv\\\xe0rlden|tr\\\xe0bit|Mellanvastern|arju|turnen|kanns|battre|v\\\xe0rldsturne|dar|sj\\\xe0lvant\\\xe0nder|jattelange|berattade|S\\\xe4|vandpunkten|N\\\xe0rjag|lasa|skitl\\\xe0skigt|sambandsv\\\xe0g|valdigt|Stamga\\\ufb01el|\\\xe0rjag|tajming|utg\\\xe4ng|H\\\xe0r\\\xe5t|h\\\xe0r\\\xe5t|anvander|harjobbat|imageide|kla\\\ufb01en|sjalv|dvarg|detjag|dvargarna|fantasiv\\\xe0rld|\\\ufb01olliga|mandoiinstr\\\xe0ngar|mittjobb|Skajag|landari|gang|Detjag|Narmre|I\\\xe5tjavelni|H\\\xe5llerjag|visionarer|T\\\xfclvad|milit\\\xe0rbas|jattegiada|Fastjag|s\\\xe5jag|rockvarlden|saknarjag|allafall|\\\ufb01anta|Kr\\\xe0ma|stammer|budb\\\xe0rare|Iivsfiiosofi|f\\\xf6rj\\\xe4mnan|gillarjag|Iarvat|klararjag|hatta\\\ufb01\\'\\\xe0r|D\\\xe0|upp\\\ufb01nna|R\\\xe0ttf\\\xe5glar|Sv\\\xe4\\\xfcboda|P\\\xe5b\\\xf6\\\ufb02ar|slutarju|ni\\\ufb01skebu\\\xfcken|h\\\xe4rj\\\xe4keln|H\\\xdfppa|f\\\xf6rst\\\xf6rds|varj\\\xe4ttegoda|Kor\\\\\\/|br\\\xfcl\\\xe9el|Hei|\\\xe4lskarjordgubbsglass|Sn\\\xf6bom|Sn\\\xf6boH|Sn\\\xf6bol|sn\\\xf6boH|L\\\xe4ggerp\\\xe5|lnge\\\ufb02|S\\\xe4gerj\\\xe4ttesmarta|dopplen\\/\\\xe4derradar|s\\\xe4kertj\\\xe4ttefin|\\\xe4rj\\\xe4ttefin|verkarju|blirju|kor\\\\\\/|naturkatastro\\\ufb01|stickerjag|j\\\xe4ttebu\\\ufb01\\\xe9|be\\\ufb01nner|Sp\\\ufb02ng|trec\\\ufb01e|ryckerjag|skullejag|vetju|a\\\ufb02jag|\\\ufb02nns|\\\xe4rl\\\xe5ng|k\\\xe5ra|\\\xe4r\\\ufb01na|\\\xe4ri|h\\\xf6rden|\\\xe4ttj\\\xe4g|g\\\xe4r|f\\\xf6ri|Hurvisste|\\\ufb01ck|\\\ufb01nns|\\\ufb01n|Fa|bori|fiendeplanl|if\\\xf6rnamn|detju|N\\\xfcd|hatarjag|Klararjag|deta\\\ufb01er|v\\\xe4\\/|smakarju|Teache\\\ufb02|imorse|drickerjag|st\\\xe5ri|Harjag|Talarjag|undrarjag|\\\xe5lderjag|va\\\ufb01e|f\\\xf6rfalskningl|Vi\\\ufb01iiiam|V\\\\\\\ufb01lliams|attjobba|intei|n\\\xe4rV\\\\\\\ufb01lliam|V\\\\\\\ufb01lliam|E\\\ufb01ersom|Vl\\\ufb01lliam|I\\\xe4ngejag|\\'\\\ufb01digare|b\\\xf6rjadei|merjust|e\\\ufb01er\\\xe5t|gjordejag|hadeju|g\\\xe5rvi|k\\\xf6perjag|M\\\xe5stejag|k\\\xe4nnerju|\\\ufb02n|treviig|Grattisl|kande|\\'llden|sakjag|klartjag|h\\\
5 years ago
for lang, grps in six.iteritems(data):
for grp in six.iterkeys(grps):
6 years ago
if data[lang][grp]["pattern"]:
data[lang][grp]["pattern"] = re.compile(data[lang][grp]["pattern"])