Mojibake

Texto em UTF-8 apresentado com ISO-8859-1
Texto em ISO-8859-1 apresentado com UTF-8

Mojibake (文字化け, moji caractere + bake mudança, literalmente caracteres fantasmas ou caracteres mudados) é o termo da língua japonesa que se costuma utilizar para descrever o problema de caracteres incorretamente interpretados em sistemas de informática (Conhecido como "trubisco" ou "garatuja" em português).[1][2] Geralmente os caracteres são substituídos pelo símbolo �.

O Mojibake acontece quando algum programa de computador recebe informação de texto cujos caracteres estão codificados por uma convenção com a qual não sabe lidar. Frequentemente isso acontece porque o programa foi feito antes que se chegasse a um padrão bem aceito para a representação de sinais diacríticos de uma língua estrangeira.

Uma defesa básica contra o problema de Mojibake é escrever ou converter os textos para transcrições romanizadas sem diacríticos (escrevendo, por exemplo, "Voce esta bem" ou "Voce estah bem?" em vez de "Você está bem?"). A desvantagem, é claro, consiste em perda de elegância e possivelmente de clareza no texto.

Entre as línguas mais associadas ao Mojibake incluem-se o japonês, o chinês e o russo (que usa o alfabeto cirílico). Algumas vezes ocorre Mojibake entre duas codificações distintas da mesma língua, como por exemplo EUC-JP e Shift-JIS, ambos feitos para codificar a língua japonesa.

O Mojibake chama-se luan ma (亂碼 ou 乱码 luan4 ma3), ou "código caótico" na língua chinesa.

Exemplo: "文字化け" pode ser mostrado como "•¶Žš‰»‚¯" (é possível que este exemplo não seja mostrado corretamente, dependendo do software exato usado para ver este artigo).


Ver também

Referências

  1. «"Unicode mailinglist on the Eudora email client"» 
  2. «"Will Unicode soon be the universal code?»