08.5.2 逐词读取文本文件
本节中展示的技术将通过byWord.go文件演示,它由四部分组成。正如你在Go代码中看到的,分隔一行中的单词可能比较棘手。程序的第一部分如下:
1
package main
2
3
import (
4
"bufio"
5
"flag"
6
"fmt"
7
"io"
8
"os"
9
"regexp"
10
)
Copied!
byWord.go的第二部分代码如下:
1
func wordByWord(file string) error {
2
var err error
3
f, err := os.Open(file)
4
if err != nil {
5
return err
6
}
7
defer f.Close()
8
9
r := bufio.NewReader(f)
10
for {
11
line, err := r.ReadString('\n')
12
if err == io.EOF {
13
break
14
} else if err != nil {
15
fmt.Printf("error reading file %s", err)
16
return err
17
}
Copied!
wordByWord()函数的这部分代码和byLine.go程序的lineByLine()函数一样。
byWord.go第三部分代码如下:
1
r := regexp.MustCompile("[^\\s]+")
2
words := r.FindAllString(line, -1)
3
for i := 0; i < len(words); i++ {
4
fmt.Printf(words[i])
5
}
6
}
7
return nil
8
}
Copied!
wordByWord()函数的剩余代码是全新的,并使用正则表达式对输入的每行进行单词分割。正则表达式regexp.MustCompile("[^\\s]+")使用空格分割单词。
byWord.go的最后一部分代码如下:
1
func main() {
2
flag.Parse()
3
if len(flag.Args()) == 0 {
4
fmt.Printf("usage: byWord <file1> [<file2> ...]\n")
5
return
6
}
7
8
for _, file := range flag.Args() {
9
err := wordByWord(file)
10
if err != nil {
11
fmt.Println(err)
12
}
13
}
14
}
Copied!
执行byWord.go会产生如下的输出:
1
$ go run byWord.go /tmp/adobegc.log
2
01/08/18
3
20:25:09:669
4
|
5
[INFO]
Copied!
可以使用wc(1)验证byWord.go的正确性:
1
$ go run byWord.go /tmp/adobegc.log | wc
2
91591 91591 559005
3
$ wc /tmp/adobegc.log
4
4831 91591 583454 /tmp/adobegc.log
Copied!
如你所见,wc(1)计算所得的单词数和byWord.go一致。
Last modified 2yr ago
Copy link