C++17 STL Cook Book
  • Introduction
  • 前言
  • 关于本书
  • 各章梗概
  • 第1章 C++17的新特性
    • 使用结构化绑定来解包绑定的返回值
    • 将变量作用域限制在if和switch区域内
    • 新的括号初始化规则
    • 构造函数自动推导模板的类型
    • 使用constexpr-if简化编译
    • 只有头文件的库中启用内联变量
    • 使用折叠表达式实现辅助函数
  • 第2章 STL容器
    • 擦除/移除std::vector元素
    • 以O(1)的时间复杂度删除未排序std::vector中的元素
    • 快速或安全的访问std::vector实例的方法
    • 保持对std::vector实例的排序
    • 向std::map实例中高效并有条件的插入元素
    • 了解std::map::insert新的插入提示语义
    • 高效的修改std::map元素的键值
    • std::unordered_map中使用自定义类型
    • 过滤用户的重复输入,并以字母序将重复信息打印出——std::set
    • 实现简单的逆波兰表示法计算器——std::stack
    • 实现词频计数器——std::map
    • 实现写作风格助手用来查找文本中很长的句子——std::multimap
    • 实现个人待办事项列表——std::priority_queue
  • 第3章 迭代器
    • 建立可迭代区域
    • 让自己的迭代器与STL的迭代器兼容
    • 使用迭代适配器填充通用数据结构
    • 使用迭代器实现算法
    • 使用反向迭代适配器进行迭代
    • 使用哨兵终止迭代
    • 使用检查过的迭代器自动化检查迭代器代码
    • 构建zip迭代适配器
  • 第4章 Lambda表达式
    • 使用Lambda表达式定义函数
    • 使用Lambda为std::function添加多态性
    • 并置函数
    • 通过逻辑连接创建复杂谓词
    • 使用同一输入调用多个函数
    • 使用std::accumulate和Lambda函数实现transform_if
    • 编译时生成笛卡尔乘积
  • 第5章 STL基础算法
    • 容器间相互复制元素
    • 容器元素排序
    • 从容器中删除指定元素
    • 改变容器内容
    • 在有序和无序的vector中查找元素
    • 将vector中的值控制在特定数值范围内——std::clamp
    • 在字符串中定位模式并选择最佳实现——std::search
    • 对大vector进行采样
    • 生成输入序列的序列
    • 实现字典合并工具
  • 第6章 STL算法的高级使用方式
    • 使用STL算法实现单词查找树类
    • 使用树实现搜索输入建议生成器
    • 使用STL数值算法实现傅里叶变换
    • 计算两个vector的误差和
    • 使用ASCII字符曼德尔布罗特集合
    • 实现分割算法
    • 将标准算法进行组合
    • 删除词组间连续的空格
    • 压缩和解压缩字符串
  • 第7章 字符串, 流和正则表达
    • 创建、连接和转换字符串
    • 消除字符串开始和结束处的空格
    • 无需构造获取std::string
    • 从用户的输入读取数值
    • 计算文件中的单词数量
    • 格式化输出
    • 使用输入文件初始化复杂对象
    • 迭代器填充容器——std::istream
    • 迭代器进行打印——std::ostream
    • 使用特定代码段将输出重定向到文件
    • 通过集成std::char_traits创建自定义字符串类
    • 使用正则表达式库标记输入
    • 简单打印不同格式的数字
    • 从std::iostream错误中获取可读异常
  • 第8章 工具类
    • 转换不同的时间单位——std::ratio
    • 转换绝对时间和相对时间——std::chrono
    • 安全的标识失败——std::optional
    • 对元组使用函数
    • 使用元组快速构成数据结构
    • 将void*替换为更为安全的std::any
    • 存储不同的类型——std::variant
    • 自动化管理资源——std::unique_ptr
    • 处理共享堆内存——std::shared_ptr
    • 对共享对象使用弱指针
    • 使用智能指针简化处理遗留API
    • 共享同一对象的不同成员
    • 选择合适的引擎生成随机数
    • 让STL以指定分布方式产生随机数
  • 第9章 并行和并发
    • 标准算法的自动并行
    • 让程序在特定时间休眠
    • 启动和停止线程
    • 打造异常安全的共享锁——std::unique_lock和std::shared_lock
    • 避免死锁——std::scoped_lock
    • 同步并行中使用std::cout
    • 进行延迟初始化——std::call_once
    • 将执行的程序推到后台——std::async
    • 实现生产者/消费者模型——std::condition_variable
    • 实现多生产者/多消费者模型——std::condition_variable
    • 并行ASCII曼德尔布罗特渲染器——std::async
    • 实现一个小型自动化并行库——std::future
  • 第10章 文件系统
    • 实现标准化路径
    • 使用相对路径获取规范的文件路径
    • 列出目录下的所有文件
    • 实现一个类似grep的文本搜索工具
    • 实现一个自动文件重命名器
    • 实现一个磁盘使用统计器
    • 计算文件类型的统计信息
    • 实现一个工具:通过符号链接减少重复文件,从而控制文件夹大小
Powered by GitBook
On this page
  • How to do it...
  • How it works...

Was this helpful?

  1. 第6章 STL算法的高级使用方式

使用STL算法实现单词查找树类

Previous第6章 STL算法的高级使用方式Next使用树实现搜索输入建议生成器

Last updated 6 years ago

Was this helpful?

所谓的trie数据类型,能够对感兴趣的数据进行存储,并且易于查找。将文本语句分割成多个单词,放置在列表中,我们能发现其开头一些单词的共性。

让我们看下下图,这里有两个句子“hi how are you”和“hi how do you do”,存储在一个类似于树的结构体中。其都以“hi how”开头,句子后面不同的部分,划分为树结构:

因为trie数据结构结合了相同的前缀,其也称为前缀树,很容易使用STL的数据结构实现。本章我们将关注如何实现我们自己的trie类。

How to do it...

本节,我们将使用STL数据结构和算法实现前缀树结构。

  1. 包含必要的头文件和声明所使用的命名空间

    #include <iostream>
    #include <optional>
    #include <algorithm>
    #include <functional>
    #include <iterator>
    #include <map>
    #include <vector>
    #include <string>
    
    using namespace std;
  2. 我们首先实现一个类。我们的实现中,trie为map的递归映射。每个trie节点够包含一个map,节点的有效值T映射了下一个节点:

    template <typename T>
    class trie
    {
        map<T, trie> tries;
  3. 将新节点插入队列的代码很简单。使用者需要提供一个begin/end迭代器对,并且会通过循环进行递归。当用户输入的序列为{1, 2, 3}时,我们可以将1作为一个子trie,2为下一个子trie,以此类推。如果这些子trie在之前不存在,其将会通过std::map的[]操作符进行添加:

    public:
        template <typename It>
        void insert(It it, It end_it) {
            if (it == end_it) { return; }
            tries[*it].insert(next(it), end_it);
        }
  4. 我们这里也会定义一个辅助函数,用户只需要提供一个容器,之后辅助函数就会通过迭代器自动进行查询:

        template <typename C>
        void insert(const C &container) {
            insert(begin(container), end(container));
        }
  5. 调用我们的类时,可以写成这样my_trie.insert({"a", "b","c"});,必须帮助编译器正确的判断出这段代码中的所有类型,因此我们又添加了一个函数,这个函数用于重载的插入接口:

        void insert(const initializer_list<T> &il) {
            insert(begin(il), end(il));
        }
  6. 我们也想了解,trie中有什么,所以我们需要一个打印函数。为了打印,我们可以对tire进行深度遍历。这样根节点下面的是第一个叶子节点,我们会记录我们所看到的元素的负载。当我们达到叶子节点,那么就可以进行打印了。我们会看到,当到达叶子的时候tries.empty()为true。递归调用print后,我们将再次弹出最后添加的负载元素:

        void print(vector<T> &v) const {
            if (tries.empty()) {
                copy(begin(v), end(v),
                    ostream_iterator<T>{cout, " "});
                cout << '\n';
            }
            for (const auto &p : tries) {
                v.push_back(p.first);
                p.second.print(v);
                v.pop_back();
            }
        }
  7. 打印函数需要传入一个可打印负载元素的列表,不过用户不需要传入任何参数就能调用它。这样,我们就定义了一个无参数的打印函数,其构造了辅助列表对象:

        void print() const {
            vector<T> v;
            print(v);
        }
  8. 现在,我们就可以创建和打印trie了,我们将先搜索子trie。当trie包含的序列为{a, b, c}和{a, b, d, e},并且我们给定的序列为{a, b},对于查询来说,返回的子序列为包含{c}和{d, e}的部分。当我们找到子trie,将返回一个const的引用。在搜索中,也会出现没有要搜索序列的情况。即便如此,我们还是要返回些什么。std::optional是一个非常好的帮手,因为当没有找到匹配的序列,我们可以返回一个空的optional对象:

        template <typename It>
        optional<reference_wrapper<const trie>>
        subtrie(It it, It end_it) const {
            if (it == end_it) { return ref(*this); }
            auto found (tries.find(*it));
            if (found == end(tries)) { return {}; }
    
            return found->second.subtrie(next(it), end_it);
        }
  9. 与insert方法类似,我们将提供一个只需要一个参数的subtrie方法,其能自动的从输入容器中获取迭代器:

        template <typename C>
        auto subtrie(const C &c) {
            return subtrie(begin(c), end(c));
        }
    };
  10. 这样就实现完了。我们在主函数中使用我们trie类,使用std::string类型对类进行特化,并实例化对象:

    int main()
    {
        trie<string> t;
        t.insert({"hi", "how", "are", "you"});
        t.insert({"hi", "i", "am", "great", "thanks"});
        t.insert({"what", "are", "you", "doing"});
        t.insert({"i", "am", "watching", "a", "movie"});
  11. 打印整个trie:

        cout << "recorded sentences:\n";
        t.print();
  12. 而后,我们将获取输入语句的子trie,其以“hi”开头:

        cout << "\npossible suggestions after \"hi\":\n";
    
        if (auto st (t.subtrie(initializer_list<string>{"hi"}));
            st) {
            st->get().print();
        }
    }
  13. 编译并运行程序,其会返回两个句子的以“hi”开头的子trie:

    $ ./trie
    recorded sentences:
    hi how are you
    hi i am great thanks
    i am watching a movie
    what are you doing
    
    possible suggestions after "hi":
    how are you
    i am great thanks

How it works...

有趣的是,单词序列的插入代码要比在子trie查找给定字母序列的代码简单许多。所以,我们首先来看一下插入代码:

template <typename It>
void trie::insert(It it, It end_it) {
    if (it == end_it) { return; }
    tries[*it].insert(next(it), end_it);
}

迭代器对it和end_it,表示要插入的字符序列。tries[*it]代表在子trie中要搜索的第一个字母,然后调用.insert(next(it), end_it);对更低级的子trie序列使用插入函数,使用迭代器一个词一个词的推进。if (it == end_it) { return; }行会终止递归。返回语句不会做任何事情,这到有点奇怪了。所有插入操作都在tries[*it]语句上进行,std::map的中括号操作将返回键所对应的值或是创建该键,相关的值(本节中映射类型是一个trie)由默认构造函数构造。这样,当我们查找不理解的单词时,就能隐式的创建一个新的trie分支。

查找子trie看起来十分复杂,因为我们没有必要隐藏那么多的代码:

template <typename It>
optional<reference_wrapper<const trie>>
subtrie(It it, It end_it) const {
    if (it == end_it) { return ref(*this); }
    auto found (tries.find(*it));
    if (found == end(tries)) { return {}; }

    return found->second.subtrie(next(it), end_it);
}

这段代码的主要部分在于auto found (tries.find(*it));。我们使用find来替代中括号操作符。当我们使用中括号操作符进行查找时,trie将会为我们创建丢失的元素(顺带一提,当我们尝试这样做,类的函数为const,所以这样做事不可能的。这样的修饰能帮助我们减少bug的发生)。

另一个细节是返回值optional<reference_wrapper<const trie>>。我们选择std::optional作为包装器,因为其可能没有我们所要找打tire。当我们仅插入“hello my friend”,那么就不会找到“goodbye my friend”。这样,我们仅返回{}就可以了,其代表返回一个空optional对象给调用者。不过这还是没有解释,我们为什么使用reference_wrapper代替optional<const trie &>。optional的实例,其为trie&类型,是不可赋值的,因此不会被编译。使用reference_warpper实现一个引用,就是用来对对象进行赋值的。