Commentaires
This commit is contained in:
parent
45f97936f0
commit
036a432b48
5 changed files with 63 additions and 75 deletions
19
tokenizer.py
19
tokenizer.py
|
@ -5,18 +5,29 @@ import re
|
|||
class Tokenizer:
|
||||
def __init__(self, conf, api):
|
||||
self.conf = conf
|
||||
self.api = api
|
||||
self.reload_tokens()
|
||||
self.reload_tokens(api)
|
||||
|
||||
def reload_tokens(self):
|
||||
self.tk = self.api.get_tokens()
|
||||
def reload_tokens(self, api):
|
||||
"""
|
||||
Charge les tokens depuis l'API,
|
||||
et initialise la liste des étapes
|
||||
"""
|
||||
self.tk = api.get_tokens()
|
||||
self.steps = list(set(t['step'] for t in self.tk))
|
||||
self.steps.sort()
|
||||
|
||||
def get_tokens_step(self, step):
|
||||
"""
|
||||
Retourne tout les tokens de l'étape <step>
|
||||
"""
|
||||
return [t for t in self.tk if t['step'] == step]
|
||||
|
||||
def tokenize(self, filename):
|
||||
"""
|
||||
Analyse <filename> pour trouver tous ses marqueurs.
|
||||
Les marqueurs sont enlevés, et rangés dans des listes.
|
||||
retourne le nom privé des marqueurs, ainsi que le dictionnaire des marqueurs
|
||||
"""
|
||||
found = {'lang':[], 'quality':[], 'subtitle':[]}
|
||||
for step in self.steps:
|
||||
for tok in self.get_tokens_step(step):
|
||||
|
|
Loading…
Add table
Add a link
Reference in a new issue