Wednesday, 25 February 2009

Codificando ficheros en UTF-8

UTF-8 (8-bit Unicode Transformation Format), es un formato de codificación que emplea un grupo de bits para codificar cualquier carácter. Podemos encontrar toda la información referente a la codificación en la wikipedia.
Para que cambie la codificación de un fichero y podamos diferenciar si está en codificación ANSI o UTF-8, solo tenemos que mirar la cabecera de este en Hexadecimal. Si queremos modificarlo, y pasar el fichero a UTF-8, tenemos que cambiar la cabecera con el valor 0xFFFE, por lo tanto, si tenemos el fichero:



Su codificación en UTF-8, tendrá la cabecera 0xFFFE, y entre cada carácter aparecerá un byte más codificado en 0x00, en el ejemplo siguiente lo podemos ver:



Por lo tanto si queremos modificar la codificación, ahora sabemos como modificarlo binariamente, pero muchos de los lenguajes de programación ya permiten hacer el cambio directo a cada tipo de fichero.

  • Más información en:
http://www.fileformat.info/info/unicode/char/fffe/index.htm
http://www.utf-8.com/

0 comments:

Post a Comment