4.17.字符串 · rust-book

# 字符串 > [strings.md](https://github.com/rust-lang/rust/blob/master/src/doc/book/strings.md) commit 6ba952020fbc91bad64be1ea0650bfba52e6aab4 對于每一個程序，字符串都是需要掌握的重要內容。由于Rust主要著眼于系統編程，所以它的字符串處理系統與其它語言有些許區別。每當你碰到一個可變大小的數據結構時，情況都會變得很微妙，而字符串正是可變大小的數據結構。這也就是說，Rust的字符串與一些像C這樣的系統編程語言也不相同。讓我們進一步了解一下。一個*字符串*是一串UTF-8字節編碼的Unicode量級值的序列。所有的字符串都確保是有效編碼的UTF-8序列。另外，字符串并不以null結尾并且可以包含null字節。 Rust有兩種主要的字符串類型：`&str`和`String`。讓我們先看看`&str`。這叫做*字符串片段*（*string slices*）。字符串常量是`&'static str`類型的： ~~~ let greeting = "Hello there."; // greeting: &'static str ~~~ `"Hello there."`是一個字符串常量而它的類型是`&'static str`。字符串常量是靜態分配的字符串切片，也就是說它儲存在我們編譯好的程序中，并且整個程序的運行過程中一直存在。這個`greeting`綁定了一個靜態分配的字符串的引用。任何接受一個字符串切片的函數也接受一個字符串常量。字符串常量可以跨多行。有兩種形式。第一種會包含新行符和之前的空格： ~~~ let s = "foo bar"; assert_eq!("foo\n bar", s); ~~~ 第二種，帶有`\`，會去掉空格和新行符： ~~~ let s = "foo\ bar"; assert_eq!("foobar", s); ~~~ Rust 當然不僅僅只有`&str`。一個`String`，是一個在堆上分配的字符串。這個字符串可以增長，并且也保證是UTF-8編碼的。`String`通常通過一個字符串片段調用`to_string`方法轉換而來。 ~~~ let mut s = "Hello".to_string(); // mut s: String println!("{}", s); s.push_str(", world."); println!("{}", s); ~~~ `String`可以通過一個`&`強制轉換為`&str`： ~~~ fn takes_slice(slice: &str) { println!("Got: {}", slice); } fn main() { let s = "Hello".to_string(); takes_slice(&s); } ~~~ 這種強制轉換并不發生在接受`&str`的trait而不是`&str`本身作為參數的函數上。例如，[TcpStream::connect](http://doc.rust-lang.org/stable/std/net/struct.TcpStream.html#method.connect)，有一個`ToSocketAddrs`類型的參數。`&str`可以不用轉換不過`String`必須使用`&*`顯式轉換。 ~~~ use std::net::TcpStream; TcpStream::connect("192.168.0.1:3000"); // &str parameter let addr_string = "192.168.0.1:3000".to_string(); TcpStream::connect(&*addr_string); // convert addr_string to &str ~~~ 把`String`轉換為`&str`的代價很小，不過從`&str`轉換到`String`涉及到分配內存。除非必要，沒有理由這樣做！ ### 索引（Indexing）因為字符串是有效UTF-8編碼的，它不支持索引： ~~~ let s = "hello"; println!("The first letter of s is {}", s[0]); // ERROR!!! ~~~ 通常，用`[]`訪問一個數組是非常快的。不過，字符串中每個UTF-8編碼的字符可以是多個字節，你必須遍歷字符串來找到字符串的第N個字符。這個操作的代價相當高，而且我們不想誤導讀者。更進一步來講，Unicode實際上并沒有定義什么“字符”。我們可以選擇把字符串看作一個串獨立的字節，或者代碼點（codepoints）： ~~~ let hachiko = "忠犬ハチ公"; for b in hachiko.as_bytes() { print!("{}, ", b); } println!(""); for c in hachiko.chars() { print!("{}, ", c); } println!(""); ~~~ 這會打印出： ~~~ 229, 191, 160, 231, 138, 172, 227, 131, 143, 227, 131, 129, 229, 133, 172, 忠, 犬, ハ, チ, 公, ~~~ 如你所見，這有比`char`更多的字節。你可以這樣來獲取跟索引相似的東西： ~~~ # let hachiko = "忠犬ハチ公"; let dog = hachiko.chars().nth(1); // kinda like hachiko[1] ~~~ 這強調了我們不得不遍歷整個`char`的列表。 ### 切片（Slicing）你可以使用切片語法來獲取一個字符串的切片： ~~~ let dog = "hachiko"; let hachi = &dog[0..5]; ~~~ 注意這里是*字節*偏移，而不是*字符*偏移。所以如下代碼在運行時會失敗： ~~~ let dog = "忠犬ハチ公"; let hachi = &dog[0..2]; ~~~ 給出如下錯誤： ~~~ thread '' panicked at 'index 0 and/or 2 in `忠犬ハチ公` do not lie on character boundary' ~~~ ### 連接（Concatenation）如果你有一個`String`，你可以在它后面接上一個`&str`： ~~~ let hello = "Hello ".to_string(); let world = "world!"; let hello_world = hello + world; ~~~ 不過如果你有兩個`String`，你需要一個`&`： ~~~ let hello = "Hello ".to_string(); let world = "world!".to_string(); let hello_world = hello + &world; ~~~ 這是因為`&String`可以自動轉換為一個`&str`。這個功能叫做[`Deref`轉換](#)。