「学園アイドルマスター」逆向解析

笨呆和 QA 联手打造的次世代~~烧手机~~爱抖露育成右手游戏终于在一片期待中发行了。

QA 不反一常之态推出了超高质量的模型，甚至比在此之前个人认为美少女模型业界 SotA 的爱普拉的模型还要精致，当然随之而来的代价就是烧手机。在我还沉浸在半年前换手机之后终于可以在爱普拉开最高画质不掉帧不发热的丝滑体验中的时候，QA 又给我来了当头一棒。难怪之前看到有人说 “Qualcomm gives, QualiArts takes away”。个人体验是满格电的设备大概只能玩 4 ~ 5 小时左右，导致我在长时间游戏的时候只好两个设备换着充电玩~~（边冲边玩？这发热量怕不是手机会爆炸还是算了）~~，
除开烧性能~~和发牌员偏心~~，目前个人游戏体验是非常不错的。特别是 live 的临场感，配上咱的 call 之后非常出色，同时也算是给出了官方答案，以后去 live 时不需要事前考虑一首歌该在哪些地方 call 了。

作为爱抖露厨，既然是爱抖露游戏，对于其资源还是感兴趣的，所以拆还是一定要拆。由于三年前拆了 IPR ，学玛仕又是 Dev by QA，所以在发行之前就可以预想到两者在系统设计上有很多相似之处。另外不知道是从哪条门路上摸过来的，学玛仕发行前一天和当天我还收到了几封游戏拆解希望的邮件。

从发行后拆解的情况来看，学玛仕和 IPR 在各个方面的确几乎完全相同。
本文将从 metadata、proto schema、主数据库、manifest、资源文件来说明游戏的设计及加密机制。通信方面，虽然已经以研究的心态实现了模拟登录，但考虑到公开通信的加密机制可能会导致滥用，对游戏造成负面影响（没人想看到排行榜首位 999999 pt 吧），所以这部分不会公开。

Metadata

QA 总算学会了混淆 metadata！
当我解压 APK 后发现这个事实的时候在心里给 QA 点了个赞，不错嘛有进步！

~~虽然并没有任何卵用就是了。~~

我采用的方式是 dump 内存，直接可以获取到反混淆后的 metadata。当然也有大佬通过正攻法研究出了反混淆的方法，写了一篇很详细的解说，~~所以这里不作过多叙述。~~

过了一段时间之后觉得每次都 dump 内存也不太方便，终于抽时间把这个坑填上了。

首先在 IDA 里检索字符串 global-metadata.dat，然后交叉链接到读取处，这里就是 il2cpp::vm::MetadataCache::Initialize。但直接在读取处进行反编译的话会报错，原因是 IDA 误识别了 LoadMetadataFile 这个函数的参数，在 BL 处按 y 手动修改参数只留下第一个就可以正常反编译了。（不过因为反混淆算法不在此处，所以也可以无视掉直接进入下一步函数）
进入 il2cpp::vm::MetadataLoader::LoadMetadataFile，和原 il2cpp 代码对比一下，前半部分通过 open fstat mmap 将 metadata 文件映射入内存并赋予 rw 权限，紧接着就是直接对着内存地址进行异或的一个小循环。这明显就是混淆算法之处了。

虽然找到了混淆算法，但混淆时所使用的 128 个 mask bytes 会随每次更新随机变化。要是每次更新都得等几个小时重新把 ELF 解析一遍，那还不如直接 dump 内存。所以得想个办法自动把 mask bytes 从 ELF 中提取出来。

观察 mask bytes 附近的 .rodata，会发现周围储存的是 switch 用的 jump table，并且这些值在各版本编译之间不会发生变化，所以只需要匹配 jump table 的 pattern 就可以找到 mask bytes 的 offset：

        Fold code blockRS
        Copy code
      
pub fn search_bin_index(file: &mut File, pattern: &[u8]) -> Result<usize, io::Error> {
  let mut offset = 0usize;
  let length = pattern.len();

  let mut chunk = vec![0u8; CHUNK_SIZE];
  let mut reader = io::BufReader::new(file);
  loop {
    let n = reader.read(&mut chunk)?;
    if let Some(pos) = memmem::find(&chunk, pattern) {
      return Ok(offset + pos);
    }
    reader.seek_relative(-(length as i64))?;
    offset += n - length;
  }
}

然后就可以自动反混淆了。
工具地址：https://github.com/vilebbit/campus-meta

Proto Schema

由于（个人感觉）本作的卡图不如 IPR 精致，所以 elf 分析完成后我首先决定分析 master database 而不是资源。
根据以前分析 IPR 主数据库的经验，猜测这次 QA 依旧采用 protobuf 作为存储数据的格式。简单扫了一眼 dummy DLL 果然如此，于是开始进行还原 proto schema 的工作。

原本想的是，直接沿用以前分析 IPR 时写的工具对 dump.cs 进行正则分析，然而实际上发现这条路行不通。
为什么？先来简单对比一下还原完成后的 GKMS 和 IPR 的 proto schema。

这是 IPR 的 schema 例

        Fold code blockPROTOBUF
        Copy code
      
...
message DiceSaveDeckResponse {
  api.DiceDeckInfo deckInfo = 1;
  api.CommonResponse commonResponse = 9999;
}
message DivisionListResponse {
  repeated api.DivisionInfo divisions = 1;
  ProtoEnum.DivisionCannotMoveReasonType reasonType = 2;
  api.CommonResponse commonResponse = 9999;
}
message DivisionMoveRequest {
  string divisionId = 1;
}
...

这是 GKMS 的 schema 例

        Fold code blockPROTOBUF
        Copy code
      
...
message StartupConfirmRequest {
  repeated StartupConfirmRequest.Types.Notification notifications = 1;
  message Types {
    message Notification {
      string startupNotificationId = 1;
      bool isSkip = 2;
    }
  }
}
message HomeSetCharactersRequest {
  repeated HomeSetCharactersRequest.Types.HomeCharacter characters = 1;
  message Types {
    message HomeCharacter {
      penum.HomeType homeType = 1;
      string characterId = 2;
    }
  }
}
...

可以发现 IPR 的 proto 都是平坦的，而 GKMS 是 nested 的，嵌套层数可以达到未知深度（目前实际的最深层度是 4 层），而以前的工具只能分析 flat 的 schema。

也就是说，咱得重新造轮子（扔帽子

从结果上来说，从设计到写完这个看上去简单的轮子花了我整整两天时间，因为其中用到了自从大学玩 ACM 以来几乎再也没有接触过的树形结构和递归函数。
~~（不、不是我的锅！除了做算法的大佬平常工作中谁会用到这些玩意儿嘛！）~~

由于这部分纯粹只涉及到算法而不是逆向，所以折叠起来感兴趣的读者可以查看。

[Click Me] 还原 proto schema 算法

我设计的树结构如下：

        Fold code blockGO
        Copy code
      
type ProtoTree struct {
  prefix    string
  name      string
  level     int
  category  Category
  children  map[string]*ProtoTree
  traversed bool
}

其中

prefix 代表当前节点被嵌套的前缀，用于正则匹配
name 代表当前节点的名称
level 表示当前嵌套层数，用于在生成代码时添加适当的 indentation
children 存储当前节点的子节点，用 hash table 而不是 array 来加速查找运算
traversed 用于在遍历时区分当前节点是否已被遍历过
category 表示当前分析 proto 的种类，具体如下

        Fold code blockGO
        Copy code
      
const (
  Enum Category = 1 + iota
  Common
  Master
  Transaction
  ApiCommon
  Api
  Nested
  Root
)
type Category int

关键函数有点长，这里只截取关键部分做个演示

        Fold code blockGO
        Copy code
      
func analyzeTree(
  entireContent *string,
  rootCategory Category,
  parentTree *ProtoTree,
  rootTree *ProtoTree,
) *strings.Builder {
  sb := new(strings.Builder)
  for _, tree := range parentTree.children {
    if tree.traversed {
      continue
    }
    ...
    contents := classSearchPtn.FindAllStringSubmatch(*entireContent, -1)
    // search entire class context
    for _, oneClass := range contents {
      content := oneClass[0]
      // search for every single message
      for _, subMatches := range generalColumnPtn.FindAllStringSubmatch(content, -1) {
        ...
        // if typeName is a list, prune the redundant characters
        if strings.HasPrefix(typeName, "RepeatedField<") {
          ...
        }
        if mappedType, ok := typeMap[typeName]; ok {
          // in case of primitive types
          ...
        } else{
          // in case of user defined types
          // first, check if it contains ".", if yes, it's highly like a nested message
          if strings.Contains(typeName, ".") {
            analyzeTree(
              entireContent,
              Nested,
              tree,
              rootTree
            )
          } else {
            // if not, it can be an imported type
            ...
          }
        }
        ...
      }
    }
    ...
  }
  return sb
}

解说写在注释里了，感兴趣就自己看吧（懒
但使用这种方法有一个缺点：需要检索整个 dump.cs N + 1 次，N 是 class 的数量。而以前还原 flat 型 proto 的算法只需要检索 1 次。
这导致了分析花费时间从以前的一秒钟不到变成了 10+ 秒。
虽说分析 proto schema 的需要不是很频繁，10+ 秒仍然在容忍范围之内，但如果读者能想到更有效率的方法欢迎留言。

获得 proto schema 后，就可以开始解密主数据库了。

Master Database

与产生了变化的 proto schema 不同，GKMS 的主数据库加密方式和 IPR 一模一样，直接用以前的轮子就能解密，所以这里不作过多赘述，关键部分实现代码如下：

        Fold code blockGO
        Copy code
      
dbname := fmt.Sprintf("%s?_pragma_key=x'%s'", dbPath, key)
db, err := sql.Open("sqlite3", dbname)
if err != nil {
  panic(err)
}
defer db.Close()
rows, err := db.Query(fmt.Sprintf("select data from %s;", name))
if err != nil {
  panic(err)
}
defer rows.Close()
for rows.Next() {
  data := []byte{}
  if err = rows.Scan(&data); err != nil {
    panic(err)
  }
  ...
}

pragma_key 是动态的，会随着每次 DB 更新而变动。解密之后把数据装进前一步获得的 proto schema 里就可以获得人类可读的数据。

Manifest, AssetBundles

这部分内容也和 IPR 一模一样，甚至连 octo 的 IV 都没有变化。GH 上也已经有好多反混淆工具了，所以也不作赘述。这部分的代码已经在另一篇文章里已有作说明所以就不列出来了。

API

由于文章开头所述的原因，通信的加密方式暂不打算公开。但在这里给想要研究的读者一个小小的提示。
GKMS 的通信加密方式和 IPR 完全一致，但在 TLS 握手时协定的 ALPN 不是 HTTP2 协议中规定的标准 identifier。这会导致在截取流量时看到的报文是通用的 TCP stream，而不是 HTTP 报文。
最初截取流量时我就上了当，看到视图里出现的是 TCP stream，首先想到的是 QA 这次改用了 Bidirectional streaming RPC，于是开始研究文档。然而越读下去却越觉得不对劲儿，Bidirectional streaming RPC 的方式每一个流只能传固定的一种 protobuf 报文，除非 QA 把所有的消息种类都包含在一个超大的 message 里，否则只能每调用一个 API 重新创建一个流，这显然违背了使用流的意义。可能的调用方式只能是 Unary，但为什么和 IPR 截取到的视图不同呢。对于这个问题我仔细对比了 GKMS 和 IPR 的流量，后来才发现是 ALPN 不同，所以在截取流量时需要手动将 TLS 握手时的 ALPN extension 改为标准的 identifier。

当然如果您是能够解读 raw TCP 报文的大佬请当我没说（

另外如果你的实现语言是 Go，文档中虽然没有标注，在实现 encoding.Codec 接口时可以直接复制 gRPC 的默认 codec 再进行更改，有一个 entry point 之后会轻松很多。下面是我改好的 codec 例。

        Fold code blockGO
        Copy code
      
type QuaCodec struct{}

func (g *QuaCodec) Marshal(v interface{}) ([]byte, error) {
  vv := messageV2Of(v)
  if vv == nil {
    return nil, fmt.Errorf("failed to marshal, message is %T, want proto.Message", v)
  }
  protoBytes, err := proto.Marshal(vv)
  if err != nil {
    return nil, err
  }
  return Serialize(protoBytes), nil
}

func (g *QuaCodec) Unmarshal(data []byte, v interface{}) error {
  vv := messageV2Of(v)
  if vv == nil {
    return fmt.Errorf("failed to unmarshal, message is %T, want proto.Message", v)
  }
  protoBytes := Deserialize(data)
  return proto.Unmarshal(protoBytes, vv)
}

func (g *QuaCodec) Name() string {
  return "qua"
}

如果是 Python，那很不幸可能需要手动修改 protoc 生成的代码，因为 Python gRPC 库似乎没有提供自定义 Codec 的 API。
其他语言没有试过。

目前研究完成的内容暂时到此为止。
除此之外比较感兴趣的是与游戏系统相关的内容，比如 Produce 时 support card 剧情触发的概率，memory 继承词条的选取机制，Contest 自动打牌时的出牌机制等。估计有一部分内容是在服务端执行的没法获取，但能够在客户端找到的部分估计会有大佬研究？非常期待能看到相关的解说。至于我，打算先肝一段时间游戏再说了（

最后，恭喜 QA 在爱抖露游戏制作这条路上又迈进了新的一步，~~那么オルタナティブガールズ３什么时候开服啊？~~

P.S. ~~谁来遵照传统给 GKMS 取个菜名啊？~~

References

gRPC Core concepts
gRPC-Go Documentation
Protobuf Go Generated Code Guide
go-sqlcipher
IDOLY PRIDE 资源解析

Comments

Comment plugin failed to load

4 Comments

Close Comment

DreamGallery 2024-06-23

又看到大佬的文章了，最近在尝试直接从api获取octo更新，解决了抓包后就直接能获取到Client SecretKey(X-OCTO-KEY)，搜了一下果然也是一样在Metadata解出来的文本里有
从api获取到的东西和本地的octocacheeavi果然不是同样的东西，一开始还以为是不是还存了有关masterdata的下载链接的数据，因为明显大了很多（还没去看那个东西是怎么获取的）。
后面研究了一段时间发现似乎需要CampusOctoSetupper中的一个string A来当作解密api数据的key，文件的key和客户端密钥也同样是在这里初始化的，尝试找过内存里可疑的数据不过并没有那么好找，本地没有root的设备，模拟器的话用frida-il2cpp-bridge来直接会找不到libil2cpp.so。打算尝试用Gadget重新封包（还没开始）。
另外主要就是想分享一下在研究过程中发现的一个库nier-rein-apps，逆向出来了包括octo在内的许多模块的实现，也许你会感兴趣（在尼尔里面这个A似乎是dark_{AppId}_{Version}, 尝试猜测将dark换成campus，似乎还是并没有那么简单🤣）。

DreamGallery DreamGallery 2024-06-23

（边冲边玩？这发热量怕不是手机会爆炸还是算了），

ipr的话一到五人场景就稳不了60帧，开启游戏模式没十秒就开始过热降频了，只是live倒也还好。
学就真的是常态的热，也不知道后面会不会出多人live，不敢想象。
另外金属边框的手机真的就属于是在烤肉了。没有空调是真的玩不了一点🔥

Vibbit AdminDreamGallery 2024-06-23

key = 0xfbc096c1315fef9ed1808422798f78ead837e7232c50d5df00a5b5df0e8488ff
iv = response.Body[:16]

然后 AES 解密就可以了

DreamGallery Vibbit 2024-06-23

我已经通过封入gadget把A给hook出来了，然后解密的方式也的确和尼尔那个库的没啥变化，总之谢谢了