# 字符串
> [strings.md](https://github.com/rust-lang/rust/blob/master/src/doc/book/strings.md)
commit 6ba952020fbc91bad64be1ea0650bfba52e6aab4
對于每一個程序,字符串都是需要掌握的重要內容。由于Rust主要著眼于系統編程,所以它的字符串處理系統與其它語言有些許區別。每當你碰到一個可變大小的數據結構時,情況都會變得很微妙,而字符串正是可變大小的數據結構。這也就是說,Rust的字符串與一些像C這樣的系統編程語言也不相同。
讓我們進一步了解一下。一個*字符串*是一串UTF-8字節編碼的Unicode量級值的序列。所有的字符串都確保是有效編碼的UTF-8序列。另外,字符串并不以null結尾并且可以包含null字節。
Rust有兩種主要的字符串類型:`&str`和`String`。讓我們先看看`&str`。這叫做*字符串片段*(*string slices*)。字符串常量是`&'static str`類型的:
~~~
let greeting = "Hello there."; // greeting: &'static str
~~~
`"Hello there."`是一個字符串常量而它的類型是`&'static str`。字符串常量是靜態分配的字符串切片,也就是說它儲存在我們編譯好的程序中,并且整個程序的運行過程中一直存在。這個`greeting`綁定了一個靜態分配的字符串的引用。任何接受一個字符串切片的函數也接受一個字符串常量。
字符串常量可以跨多行。有兩種形式。第一種會包含新行符和之前的空格:
~~~
let s = "foo
bar";
assert_eq!("foo\n bar", s);
~~~
第二種,帶有`\`,會去掉空格和新行符:
~~~
let s = "foo\
bar";
assert_eq!("foobar", s);
~~~
Rust 當然不僅僅只有`&str`。一個`String`,是一個在堆上分配的字符串。這個字符串可以增長,并且也保證是UTF-8編碼的。`String`通常通過一個字符串片段調用`to_string`方法轉換而來。
~~~
let mut s = "Hello".to_string(); // mut s: String
println!("{}", s);
s.push_str(", world.");
println!("{}", s);
~~~
`String`可以通過一個`&`強制轉換為`&str`:
~~~
fn takes_slice(slice: &str) {
println!("Got: {}", slice);
}
fn main() {
let s = "Hello".to_string();
takes_slice(&s);
}
~~~
這種強制轉換并不發生在接受`&str`的trait而不是`&str`本身作為參數的函數上。例如,[TcpStream::connect](http://doc.rust-lang.org/stable/std/net/struct.TcpStream.html#method.connect),有一個`ToSocketAddrs`類型的參數。`&str`可以不用轉換不過`String`必須使用`&*`顯式轉換。
~~~
use std::net::TcpStream;
TcpStream::connect("192.168.0.1:3000"); // &str parameter
let addr_string = "192.168.0.1:3000".to_string();
TcpStream::connect(&*addr_string); // convert addr_string to &str
~~~
把`String`轉換為`&str`的代價很小,不過從`&str`轉換到`String`涉及到分配內存。除非必要,沒有理由這樣做!
### 索引(Indexing)
因為字符串是有效UTF-8編碼的,它不支持索引:
~~~
let s = "hello";
println!("The first letter of s is {}", s[0]); // ERROR!!!
~~~
通常,用`[]`訪問一個數組是非常快的。不過,字符串中每個UTF-8編碼的字符可以是多個字節,你必須遍歷字符串來找到字符串的第N個字符。這個操作的代價相當高,而且我們不想誤導讀者。更進一步來講,Unicode實際上并沒有定義什么“字符”。我們可以選擇把字符串看作一個串獨立的字節,或者代碼點(codepoints):
~~~
let hachiko = "忠犬ハチ公";
for b in hachiko.as_bytes() {
print!("{}, ", b);
}
println!("");
for c in hachiko.chars() {
print!("{}, ", c);
}
println!("");
~~~
這會打印出:
~~~
229, 191, 160, 231, 138, 172, 227, 131, 143, 227, 131, 129, 229, 133, 172,
忠, 犬, ハ, チ, 公,
~~~
如你所見,這有比`char`更多的字節。
你可以這樣來獲取跟索引相似的東西:
~~~
# let hachiko = "忠犬ハチ公";
let dog = hachiko.chars().nth(1); // kinda like hachiko[1]
~~~
這強調了我們不得不遍歷整個`char`的列表。
### 切片(Slicing)
你可以使用切片語法來獲取一個字符串的切片:
~~~
let dog = "hachiko";
let hachi = &dog[0..5];
~~~
注意這里是*字節*偏移,而不是*字符*偏移。所以如下代碼在運行時會失敗:
~~~
let dog = "忠犬ハチ公";
let hachi = &dog[0..2];
~~~
給出如下錯誤:
~~~
thread '' panicked at 'index 0 and/or 2 in `忠犬ハチ公` do not lie on
character boundary'
~~~
### 連接(Concatenation)
如果你有一個`String`,你可以在它后面接上一個`&str`:
~~~
let hello = "Hello ".to_string();
let world = "world!";
let hello_world = hello + world;
~~~
不過如果你有兩個`String`,你需要一個`&`:
~~~
let hello = "Hello ".to_string();
let world = "world!".to_string();
let hello_world = hello + &world;
~~~
這是因為`&String`可以自動轉換為一個`&str`。這個功能叫做[`Deref`轉換](#)。
- 前言
- 貢獻者
- 1.介紹
- 2.準備
- 3.學習 Rust
- 3.1.猜猜看
- 3.2.哲學家就餐問題
- 3.3.其它語言中的 Rust
- 4.語法和語義
- 4.1.變量綁定
- 4.2.函數
- 4.3.原生類型
- 4.4.注釋
- 4.5.If語句
- 4.6.循環
- 4.7.所有權
- 4.8.引用和借用
- 4.9.生命周期
- 4.10.可變性
- 4.11.結構體
- 4.12.枚舉
- 4.13.匹配
- 4.14.模式
- 4.15.方法語法
- 4.16.Vectors
- 4.17.字符串
- 4.18.泛型
- 4.19.Traits
- 4.20.Drop
- 4.21.if let
- 4.22.trait 對象
- 4.23.閉包
- 4.24.通用函數調用語法
- 4.25.crate 和模塊
- 4.26.const和static
- 4.27.屬性
- 4.28.type別名
- 4.29.類型轉換
- 4.30.關聯類型
- 4.31.不定長類型
- 4.32.運算符和重載
- 4.33.Deref強制多態
- 4.34.宏
- 4.35.裸指針
- 4.36.不安全代碼
- 5.高效 Rust
- 5.1.棧和堆
- 5.2.測試
- 5.3.條件編譯
- 5.4.文檔
- 5.5.迭代器
- 5.6.并發
- 5.7.錯誤處理
- 5.8.選擇你的保證
- 5.9.外部函數接口
- 5.10.Borrow 和 AsRef
- 5.11.發布途徑
- 5.12.不使用標準庫
- 6.Rust 開發版
- 6.1.編譯器插件
- 6.2.內聯匯編
- 6.4.固有功能
- 6.5.語言項
- 6.6.鏈接進階
- 6.7.基準測試
- 6.8.裝箱語法和模式
- 6.9.切片模式
- 6.10.關聯常量
- 6.11.自定義內存分配器
- 7.詞匯表
- 8.語法索引
- 9.參考文獻
- 附錄:名詞中英文對照