Go Em Exemplos: Strings and Runes

Uma string em Go é um slice de bytes, ou []byte, apenas para leitura. A linguagem a biblioteca padrão tratam strings especialmente - como containers de text codificado em UTF-8. Em outras linguagens, strings são feitas de “caracteres”. Em Go, o conceito de caractere é chamado de rune, ou runa - é um inteiro que representa um ponto de código Unicode. Este post é uma boa introdução.

package main
import (
    "fmt"
    "unicode/utf8"
)
func main() {

s é uma string a que foi atribuida um valor literal representando a palavra “olá” em língua tailandesa. As strings literais em Go são textos codificados em UTF-8.

    const s = "สวัสดี"

Como strings são equivalentes a []byte, o próximo exemplo vai produzir o tamanho em raw bytes, ou bytes crus, constantes na string.

    fmt.Println("Len:", len(s))

Indexar a string produz os valores em raw byte em cada índice. Este loop gera o valor hexadecimal de cada um dos bytes que constituem os pontos de código em s.

    for i := 0; i < len(s); i++ {
        fmt.Printf("%x ", s[i])
    }
    fmt.Println()

Para contar quantas runes tem numa string, é possível usar o pacote utf8. Note que o tempo de execução da função RuneCountInString depende do tamanho da string, porque é preciso decodificar cada runa UTF-8 sequencialmente. Alguns caracteres do alfabeto Tailandês são representados por múltiplos pontos de código UTF-8 então o resultado desta contagem pode ser um pouco surpreendente.

    fmt.Println("Conta runas:", utf8.RuneCountInString(s))

Um loop range decodifica cada rune junto com sua posição na string.

    for idx, runeValue := range s {
        fmt.Printf("%#U começa em %d\n", runeValue, idx)
    }

É possível atingir o mesmo resultado da iteração anterior usando a função utf8.DecodeRuneInString.

    fmt.Println("Usando DecodeRuneInString")
    for i, w := 0, 0; i < len(s); i += w {
        runeValue, width := utf8.DecodeRuneInString(s[i:])
        fmt.Printf("%#U começa em %d\n", runeValue, i)
        w = width

Isto demonstra uma runa sendo passada para uma função.

        examineRune(runeValue)
    }
}
func examineRune(r rune) {

Valores encapsulados em aspas simples são rune literals. É possível comparar o valor da rune com uma rune literal diretamente.

    if r == 't' {
        fmt.Println("Encontrou um 't'")
    } else if r == 'ส' {
        fmt.Println("Encontrou uma 'saw suea'")
    }
}

ส é chamada de saw suea no alfabeto tailandês.

$ go run strings-and-runes.go
Len: 18
e0 b8 aa e0 b8 a7 e0 b8 b1 e0 b8 aa e0 b8 94 e0 b8 b5 
Contagem de runas: 6
U+0E2A 'ส' começa no índice 0
U+0E27 'ว' começa no índice 3
U+0E31 'ั' começa no índice 6
U+0E2A 'ส' começa no índice 9
U+0E14 'ด' começa no índice 12
U+0E35 'ี' começa no índice 15
Usando DecodeRuneInString
U+0E2A 'ส' começa no índice 0
Encontrou uma 'saw suea'
U+0E27 'ว' começa no índice 3
U+0E31 'ั' começa no índice 6
U+0E2A 'ส' começa no índice 9
Encontrou uma 'saw suea'
U+0E14 'ด' começa no índice 12
U+0E35 'ี' começa no índice 15

Próximo exemplo: Structs.