在 2023.3.1 号丹佛的 WalletCon 上,官宣由以太坊基金会开发人员设计实现的ERC-4337 的核心合约已经通过了 OpenZeppelin 的审计,通过各项测试,目前审计后的合约已经顺利部署在以太坊主网以及若干测试网,后续可在各 EVM 兼容链上运作包括 Polygon、Optimism、Arbitrum、BNB Smart Chain、Avalanche 和 Gnosis Chain 等。
本文将梳理 4337 标准的实现机制、审计报告结论与最新行业进展
目前在以太坊中有两种账户,分别为外部账户(EOA)和合约账户(Contract Account)。外部账户的所有权和签名权理论上是同一个体单位持有的;简单来讲,持有私钥的人不只拥有这个账户的「所有权」,同时还有权利「签名转移所有资产」。所以当前以太坊上所有权和签名权是一体的,这样的外部账户(EOA)设计可能会衍伸出一些值得讨论的问题:
私钥难保护:用户失去私钥(遗失、黑客攻击、密码学上的被破解)意味着地失去所有资产。
签名算法少:原生协议在验证交易上只能使用 ECDSA 签名和验签算法。
签名权限高:无原生多签(多签只能通过智能合约实现协作),单签即可执行任意操作
多币种受限:交易手续费只能通过 ETH 支付,并不支持批量交易。
交易隐私泄露:一对一交易容易分析账户持有者的隐私信息。
其次单纯的合约钱包(CA)也有一定问题:
对合约钱包的操作必须由 EOA 发起(实质是调用合约),每笔交易将多消耗 21000 Gas。(当前以太坊交易的验证方式是固定的,只有持有了有效的 ECDSA 签名、Nonce 值和足够
的账户余额,一笔交易才算有效)。
需要 EOA 有足够的 ETH 来支付 Gas(管理两个账户),或者依靠 Relayer 支付 Gas(导致中心化)。
上诉的约束让普通用户很难使用以太坊:
首先,使用以太坊上的任何应用,用户都必须持有以太(并承担以太价格波动的风险)
其次,用户需要处理复杂的费用逻辑,Gas price、Gas limit、事务阻塞这些概念对用户来说过于复杂。
最后,虽然许多区块链钱包或应用试图通过产品优化提高用户体验,但它们的实际效果甚微。
破局之道在于实现账户抽象,将所有权(Owner)和签名权(Signer)解耦(Decoupling),从而才能逐个解决上述问题
拓展阅读:
以太坊账户抽象万字研报:拆解 10 个相关 EIP 提案与冲击千万级日活用户瓶颈的七年之路
虽然也有出现若干折中方案,如多签钱包和无需 Gas 的元交易机制,接下来咱们展开探讨。
1.2.1、折中 1-多签合约钱包方案
多签钱包,即用智能合约实现多签功能的钱包合约账户。以 Safe 多签钱包(原名 Gnoiss Safe)为例,可以设定钱包的多签规则,如三人共管、两人签名可执行交易(2-of– 3 ),而 Argent 钱包的做法也类似,创新点是引入所谓的监护人(Guardian)机制,对用户更友好,用户可以设定其他 EOA 账户或邮件/手机作为监护人,监护人可以许可交易、锁定钱包、协助恢复钱包。这样的做法给用户带来了便利,但由于它的钱包软件、钱包合约及后端程序的功能很复杂,它的方案很难成为行业通行的标准做法。
总之,这里很多的优点都源于合约本身的高度定制能力,同样的缺点则是依赖于 EOA 账户做管理员来驱动,这本质是签名算法的局限性。
相比之下对比传统多签合约钱包的方案, 4337 的优势则是可以自定义签名算法。这里的签名只需和合约中签名的算法绑定的(确保合约可以完成解签,但不限于只能基于ECDSA和secp 256 k 1 签名 ), 而签名这件事本身可以有多种算法实现,不同算法性能和交互模式不同,而这将带来的核心变化是,如更好的将签名的功能转入手机设备端实现从而实现便携的硬件钱包。这点主要的挑战是安卓等设备开放性过高,不可能私钥存手机,需要单独的签名芯片等。
1.2.2、折中 2-元交易标准
这点优化折中针对的是用户执行链上行为必须依赖已有 ETH 作为手续费,采用元交易标准后
用户体验上:用户虽然账户中没有 ETH(实为没有 Polygon 链的原生通证 MATIC),但可仍通过网⻚界面铸造 NFT:用户仅需签 即可,我们创建交易、为之代付燃料费、将之提交上链执行。
幕后执行上:
用户对结构化数据进行签名,这个数据与签名是要求 NFT 合约铸造一个 NFT 给他
数据与签名被发送给中继器(Relayer)
链下中继器(某 EOA 账户)向链上发起交易,送到链上可信的传递者合约(Forwarder)
而 NFT 合约是定制的,会将这样方式传递的交易中的原始发起者视为是用户,而非 msg.sender
因此在最终的 NFT 合约中,执行的 NFTMint 得到的对象就不是原始标准中的交易发起者了
例如最近火热的 Lens 免 gas 方案,就是非常标准的元交易执行模式,已经累计有上千万笔代付交易了
这个方案是有效的,但有两个缺点:
它引入了一个我们必须信任的链下⻆色中继器(Relayer)。如果他宕机了,或者有作恶的动机(或者私钥被盗),则可能存在⻛险。
我们最终交互的合约(即 NFT 合约)必须定制。这导致而无法与链上已经存在的、未定制的合约进行交互,这大幅减少能够适用的范围。
为什么用这么多篇幅来讲述合约钱包和元交易呢?因为 4337 的实现里本身几乎就能涵盖上述的优点(也是从中吸取灵感)
拓展阅读:
EIP-4337 标准智能钱包实践研究报告:全景式呈现 4337 标准实例实现过程及机遇探讨
https://research.web3 caff.com/zh/archives/4660
现在在去中心化的领域是不存在免费的信任,身份验证必须基于密码学证明,所以无论哪种提案都是需要管理某种意义的私钥,而要实现体验上的折中,首要打破的就是目前账户权限的过于集中,整体改造方式按针对的对象或者环节可以分成三种大方向:
改造链上交易类型(EIP-101、EIP-86、EIP-859、EIP-2718 )
改造链上主体对象(EIP-2938、EIP-3074、EIP-3607、EIP-5003 )
改造上链交易打包过程(EIP-4337、EIP-5189 )
在下图,EIP-4337 方案纳入了最新路线图,这也宣告着以太坊最终在这两条路径中做出了决定。
EIP-4337 是迄今为止是 AA 的最佳方案。
被选用的核心原因是 EIP-4337 完全避免了共识层协议更改,使用标准中提出了新的事务对象 UserOperation,用户将此对象发送到内存池中由 bundlers 从矿工维度批量打包交付合约执行交易事务。是个任何人可以开发链上合约,任何人可以自运行捆绑器的去中心化模式。
后续深入理解最新进展所面临的难题和挑战还是需要先理解原理,咱们从涉及的角色,分工,对照传统交易的执行流程来梳理。
2.1.1、 4337 标准涉及的角色
ERC-4337 有五个主要组成部分: UserOperation、Bundler、EntryPoint、Wallet Contract 和 Paymaster Contract。
UserOperations 用户操作对象,是用于与合约账户执行交易的伪交易对象。这些是由创建者的应用程序所创建的。
Bundlers 捆绑器,可能是某个矿工,从内存池中打包 UserOperations 并将它们发送到区块链上的 EntryPoint 合约的参与者。
EntryPoint 入口点合约,是处理交易验证和执行逻辑的智能合约。
Wallet Contracts 是用户最终拥有的链上身份,属于智能合约帐户。
Paymaster Contracts 是可选的代付智能合约。
2.1.2、 4337 交易的执行流程
我们来重新按完成一笔以太坊转账的流程来梳理下按照 ERC-4337 实现的交易是怎样的:
打开钱包:用户管理持有的私钥工具,如 Metamask,Bitkeep,Bitizen 等(此步骤不变)。
交易签名:用私钥对新的若干字段做签名操作,称之为 UserOperation 用户操作对象(指令不变,但内容字段变化,可选用非 ECDSA 的签名算法)。
发送交易:称之为 Bundlers 打包者或是捆绑器,本质仍是由某个负责出块的矿工操作(发送不变,发送对象改为指定矿工)。
矿工打包:bundlers 把用户发送的操作签名解析验证后由矿工单独再签名一笔交易来包裹用户的指令,批量地将用户的操作指令转发到某个合约钱包中再由合约来验证用户的签名并执行(彻底改变)。
由于交易是矿工签名并发送的,因此 from 是矿工,原先用户的签名和指令在则在参数之中。
打包发送到作为路由器的智能合约中,执行验证并且进一步转发到各用户独立的合约钱包。
入口点合约验证:EntryPoint 是处理交易验证和执行逻辑的智能合约。会反复和用户的合约账户进行交互以及验证,确保最终链上打包必然成功,否则全部交易都要回退。
出块流程:完全不变。
迁入 4337 后,对任何账户的调度都需要先经过入口点合约,他需要解决的是
如果用户的「钱包合约」尚未部署,则用 UO 中的 initCode 字段去部署合约(用户可自定义最终合约功能)
循环验证组合交易中 UserOperation
既有链下模拟验证(eth 余额,token 余额,代付)
也在合约也提供链上验证(签名与聚合签名的有效性)
管理质押费
计算 gas 成本,既要用于收取用户,也需要面对失败交易补偿捆绑器
ERC-4337 的高开发投入以及快速的迭代进度,说明他能快速成为最终提案、并被各种应用广泛接纳、真正成为事实性行业标准,他带来的核心价值是大幅度降低普通用户使用 Web3 应用的门槛。
届时,一个应用能否兼容 ERC-4337 ,则将影响自己能否利用整个以太坊生态的其他组件、以快速发展。后续的 DApp 应用,也将必然需要能兼容从账户主体已然转移向 ERC-4337 的用户们。
最终验证市场的还是用户本身,实现的方案是复杂的,这也仅仅是对于应用方的复杂
对于用户本身而言,最终他们能够看到的是:
更流畅的交易体验,类似购物车,即使面对 10 个市场也能够一笔交易完成打包。
更安全的接入入口,借助 4337 的自定义签名算法能力,使用手机专属安全芯片而无需携带硬件钱包,
更沉浸的游戏环境,借助 paymaster 的代付能力,乃至可以定义半小时内的不超过 XX 金额的交易免除签名,避免了一场游戏被场外打断。
真正的链上主体,可以被社交恢复,可以更换私钥密码,可以做交易的风险分层分级,兼容安全与使用便捷。
如此种种对终端用户体验的提升,都是最终为什么要如此费力的推进 ERC-4337 的原因。
上篇更多是围绕 ERC-4337 运作机制、背景进行说明。
下篇详细讲述当前被审计方案的优缺与实施细节,但涉及较多以太坊底层所以阅读难度较高,投稿在Web3 Caff 平台的 research 频道(头部付费研报平台,正在进行十四君粉丝联合活动,可使用"shisi"为推荐码延长 15 天会员期)。
阅读原文:https://research.web3 caff.com/zh/archives/6900
参考文献(强烈推荐 builder 阅读)
https://cointelegraph.com/news/ethereum-erc-4337-smart-accounts-launch-at-walletcon-account-abstraction-is-here
https://blog.openzeppelin.com/eip-4337-ethereum-account-abstraction-incremental-audit/#conclusions
https://blog.openzeppelin.com/eth-foundation-account-abstraction-audit/
https://eips.ethereum.org/EIPS/eip-4337
https://hackmd.io/@erc 4337/test-suite
https://www.youtube.com/watch? v=eyT 6 WzJmWyc
https://notes.ethereum.org/@yoav/unified-erc-4337-mempool#What-does-censorship-resistance-require-of-ERC-4337
https://github.com/eth-infinitism/account-abstraction/issues/188
https://notes.ethereum.org/@yoav/unified-erc-4337-mempool
https://github.com/eth-infinitism/account-abstraction/blob/develop/reports/gas-checker.txt#enroll-beta