Codificando ficheros en UTF-8
UTF-8 (8-bit Unicode Transformation Format), es un formato de codificación que emplea un grupo de bits para codificar cualquier carácter. Podemos encontrar toda la información referente a la codificación en la wikipedia.
Para que cambie la codificación de un fichero y podamos diferenciar si está en codificación ANSI o UTF-8, solo tenemos que mirar la cabecera de este en Hexadecimal. Si queremos modificarlo, y pasar el fichero a UTF-8, tenemos que cambiar la cabecera con el valor 0xFFFE, por lo tanto, si tenemos el fichero:
Su codificación en UTF-8, tendrá la cabecera 0xFFFE, y entre cada carácter aparecerá un byte más codificado en 0x00, en el ejemplo siguiente lo podemos ver:
Por lo tanto si queremos modificar la codificación, ahora sabemos como modificarlo binariamente, pero muchos de los lenguajes de programación ya permiten hacer el cambio directo a cada tipo de fichero.
http://www.utf-8.com/
Para que cambie la codificación de un fichero y podamos diferenciar si está en codificación ANSI o UTF-8, solo tenemos que mirar la cabecera de este en Hexadecimal. Si queremos modificarlo, y pasar el fichero a UTF-8, tenemos que cambiar la cabecera con el valor 0xFFFE, por lo tanto, si tenemos el fichero:
Su codificación en UTF-8, tendrá la cabecera 0xFFFE, y entre cada carácter aparecerá un byte más codificado en 0x00, en el ejemplo siguiente lo podemos ver:
Por lo tanto si queremos modificar la codificación, ahora sabemos como modificarlo binariamente, pero muchos de los lenguajes de programación ya permiten hacer el cambio directo a cada tipo de fichero.
- Más información en:
http://www.utf-8.com/
Comments
Post a Comment