揭秘程序员阅读电视源码的技巧电视源码论坛经验分享-七爪网

看源码就像小时候学写作文，看别人的好文章才能模仿出好句子、好段落。大厂的源码就是那本“优秀作文选”，看不懂、写不好代码的时候，翻一翻源码往往比看理论书更管用。

源码是最好的学习资料

很多人觉得学编程就是看书刷题，其实源码才是第一手的学习资料。我接触过Caffe、PyTorch、TVM这些开源框架，每个框架的代码风格都不一样。Caffe的代码用C++写的很规整，类的继承关系清晰，特别适合初学者理解面向对象的设计。PyTorch的源码就更现代化一些，用了很多C++11之后的新特性，比如智能指针、lambda表达式，看起来更简洁但也更难懂。

namespace foo
{
...
} // namespace foo

不同大厂的开源项目，编码习惯差异很大。Google的项目喜欢用明确的命名规范，类的成员变量后面要加下划线。Facebook的项目则更倾向于使用命名空间来组织代码。这些细节在书里学不到，只有打开源码才能体会到。

经典设计模式随处可见

看多了源码就会发现，那些设计模式不是书本上的死概念，而是每天都在用的工具。Caffe的Layer类就是个典型的工厂模式，根据配置文件的名字，动态创建对应的层对象。Blob类用单例模式管理内存，避免重复申请释放，这些设计大大提高了代码的复用性。

注册机制也是个高频出现的技巧。在TVM的代码里，算子注册的代码特别多，通过宏定义把算子和它的实现绑定在一起，上层调用的时候只需要知道名字就行。这种模式在写业务代码时也特别实用，扩展新功能不用改老代码。

编码规范决定代码质量

贡献开源代码之前，先看人家的规范文档很重要。有的仓库要求在文件末尾加上贡献者注释，有的要求所有公共接口必须写清楚异常情况。C++项目普遍要求用constexpr代替宏定义，因为宏在预处理阶段就展开了，编译器没法做类型检查，容易留下隐患。

细节决定成败这点在源码里特别明显。好的代码会在每个函数参数前考虑加不加const，能加const的地方一定加上，这样既防止误修改，又能让编译器帮忙优化。变量作用域能小则小，循环变量只在循环内有效，这些习惯都是看大厂代码学来的。

带着任务学习效率最高

直接啃源码很容易被绕晕，我建议带着明确的目标去看。比如你想写CUDA自定义算子，就去PyTorch的aten目录看别人怎么写的；想知道自动求导怎么实现，就去torch/csrc/autograd目录。有具体需求驱动，看代码才有方向。

编译源码也是个好办法。把PyTorch从头编译一遍，肯定会遇到各种依赖问题、版本冲突，解决这些问题的过程就是对整个框架最深入的理解。我去年编译TVM的时候，因为LLVM版本不对卡了两天，翻了好多issue才解决，但之后对TVM的整体架构就特别清楚。

// Caffe中layer的注册机制
// ~/include/caffe/layer_factory.hpp
#define REGISTER_LAYER_CREATOR(type, creator)                                  
  static LayerRegisterer g_creator_f_##type(#type, creator);     
  static LayerRegisterer g_creator_d_##type(#type, creator)    
#define REGISTER_LAYER_CLASS(type)                                             
  template                                                     
  shared_ptr<Layer > Creator_##type##Layer(const LayerParameter& param) 
  {                                                                            
    return shared_ptr<Layer >(new type##Layer(param));           
  }                                                                            
  REGISTER_LAYER_CREATOR(type, Creator_##type##Layer)