Cachina’s Programming Blog


Unescape de caracteres ISO-8859-1

Posted in PYTHON por Mayron Cachina em novembro 16, 2007
Tags:

O primeiro de muitos!!!
Meu primeiro script em python que faça alguma coisa que preste….
Meu professor me pediu pra implementar um programa para mudar os caracteres especiais(> < á…..) de uma página html, eu poderia fazer em qualquer linguagem…
Está faltando alguns tratamentos e melhorar MUITO o código, mais pra uma semana que eu comecei a estudar a linguagem, está de bom tamanho…

IsotoUtf.py
#! /usr/bin/env python
# -*- coding: iso-8859-15 -*-
”’
Script para unescape de caracteres especiais ISO-8859-1
Autor: Mayron Cachina
Contato: mayroncachina@gmail.com
Site: https://cachina.wordpress.com
”’
import htmlentitydefs
import re
import cgi

#Informações
origem = raw_input(“Local do arquivo do arquivo original: “)
fim = raw_input(“Local do arquivo final: “)
pattern = re.compile(“&(\w+?);”)
def descape_entity(m, defs=htmlentitydefs.entitydefs):
# callback: translate one entity to its ISO Latin value
try:
return defs[m.group(1)]
except KeyError:
return m.group(0) # use as is

def descape(string):
return pattern.sub(descape_entity, string)

#Abre os arquivos para manipulação de dados
f = open(origem)
w = open(fim,’w’)

#Operações
try:
novo = descape(f.read())
w.write(novo)
finally:
f.close()
w.close()
print “Finalizado!!!”

Agradecimentos ao pessoal da Python-Brasil e do Forum Script, perturbei muito heim???

O código identado pode ser encontrado na minha página do google.

Deixe uma resposta

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s


%d blogueiros gostam disto: