Resposta: Quando você escreve um texto no seu computador, o programa vai usar 1 byte de memória para cada caractere (número, sinal, ou letra – espaço também conta). Assim, se você escreve "lua", ele usa três bytes para guardar a palavra. Ou 24 bits.
Em outubro de 1960, o Instituto Americano de Padrões Nacionais (ANSI – American National Standards Institute), que na época se chamava American Standards Association (ASA), começou a trabalhar em um padrão para representação de caracteres, batizado de ASCII.
Essa extensão da tabela ASCII varia de acordo com a codificação utilizada. Isso acontece porque ela foi criada para permitir texto em outros idiomas, mas somente 128 caracteres a mais não são suficientes para representar os caracteres de todos os idiomas existentes.
Por que existem tabelas de representação de caracteres como o ASCII e o UTF-8? Porque somente a placa de vídeo identifica e trata caracteres, as tabelas são utilizadas diretamente pelo teclado, monitor e impressora. Explicação: É preciso entender o conceito de representação de caracteres em um computador.
UTF-8 (8-bit Unicode Transformation Format) é um tipo de codificação binária (Unicode) de comprimento variável criado por Ken Thompson e Rob Pike. Pode representar qualquer caractere universal padrão do Unicode, sendo também compatível com o ASCII.
UTF-8 em conjunto com BOM (Byte order mark) é codificado com os bytes EF BB BF no início do arquivo. ... O seu uso no início de um fluxo de dados UTF-8 não é necessário nem recomendado pelo Unicode Standard, mas a sua presença não afeta a conformidade com o esquema de codificação UTF-8.
Porque o ANSI usa apenas um byte (ou 8 bits), ele só consegue representar um máximo de 256 caracteres, o que não chega nem perto dos 1.
Como configurar sua base para o formato UTF-8
Existem três formas de declararmos o encode do arquivo: