piexel-indexer/tokenizer.py

#coding:utf-8
import piexel
import re

class Tokenizer:
	def __init__(self, conf, api):
		self.conf = conf
		self.reload_tokens(api)

	def reload_tokens(self, api):
		"""
		Charge les tokens depuis l'API,
		et initialise la liste des étapes
		"""
		self.tk = api.get_tokens()
		self.steps = list(set(t['step'] for t in self.tk))
		self.steps.sort()

	def get_tokens_step(self, step):
		"""
		Retourne tout les tokens de l'étape <step>
		"""
		return [t for t in self.tk if t['step'] == step]

	def tokenize(self, filename):
		"""
		Analyse <filename> pour trouver tous ses marqueurs.
		Les marqueurs sont enlevés, et rangés dans des listes.
		retourne le nom privé des marqueurs, ainsi que le dictionnaire des marqueurs
		"""
		found = {'lang':[], 'quality':[], 'subtitle':[]}
		for step in self.steps:
			for tok in self.get_tokens_step(step):
				if(not bool(int(tok['case_sensitive']))):
					reg = re.compile(r' '+tok['token']+r' ', re.IGNORECASE)
				else:
					reg = re.compile(r' '+tok['token']+r' ')
				if reg.search(filename):
					for tok_lang in tok['languages']:
						found['lang'].append(tok_lang['value'])
					for tok_qual in tok['qualities']:
						found['quality'].append(tok_qual['value'])
					for tok_sub in tok['subtitle_languages']:
						found['subtitle'].append(tok_sub['value'])
					filename = reg.sub(' ', filename)
		for typ in found:
			found[typ] = [e for e in found[typ] if e != 'N/A']
		return filename, found