没有 API key，照样做网页审查：一次本地 Playwright 的真实协作

没有 API key，照样做网页审查：一次本地 Playwright 的真实协作经历

今天有个具体的问题冒出来：不依赖任何第三方 API key，能直接用浏览器跑自动化网页审查吗？

这听起来像是个技术问题，但其实背后有更实在的诉求——很多人不想把自己的数据或网页访问行为交给外部服务，或者不想在项目里多堆一个 API 依赖。

我们来看一次真实的协作过程，看看这个问题是怎么被拆解、验证，最后落地的。

第一层：用户的真实卡点是什么

用户一开始的描述很直接：要做一个 GitHub 仓库的自动化审查工具。核心诉求是抓取网页内容、做判断，核心约束是"不依赖 API key"。

这句话翻译过来其实是：我不想为了抓几个页面多装一个服务、多注册一个账号、多埋一个 key，我的机器上有什么，我就在什么上面跑。

这种约束其实很常见，尤其在需要本地化部署、不想暴露数据的场景里。

第二层：本地 Playwright 能解决什么

Playwright 本身是微软出的浏览器自动化工具，支持 Chrome、Firefox、WebKit，关键是它跑在本地，不需要注册任何账号，也不需要申请任何 key。

对网页审查这个场景来说，Playwright 能做到：

直接打开网页，等内容加载完毕（支持动态渲染的页面），截图，取 DOM 结构里的文字，拦截网络请求，甚至模拟登录态。

这些都是一个 API key 方案能做的事——但你不需要向任何人证明你有使用权。

第三层：方案是怎么一步步定下来的

协作者的判断是：既然要本地跑，那就用本地工具链。Playwright 的优势是开箱即用，而且有完善的调试接口。

具体落地的路径大概是：

先确认机器上有没有安装 Playwright，如果没有，用 pip 或者 npm 装一下。Playwright 自带 Chromium，不需要你再装浏览器。

然后写一个脚本：打开目标页面，等渲染完成，提取内容，做判断逻辑。

整个过程是纯本地的，没有任何请求需要经过第三方。

第四层：真实协作中容易被忽略的问题

在实际操作中，有几个点特别容易踩坑：

一是动态内容加载。很多 GitHub 页面是 JavaScript 渲染的，直接抓 HTML 拿不到完整内容。Playwright 支持等待网络空闲后再读取，能处理这个。

二是登录态的问题。如果审查的对象需要登录，Playwright 可以通过保存登录上下文的方式，避免每次都重新扫码。

三是资源占用。本地跑浏览器会占用内存，如果并发量比较大，需要注意一台机器能扛几个实例。

回到最初的问题

不依赖 API key，能做网页审查吗？

能。用本地 Playwright，跑在你自己控制的机器上，不需要向任何人申请权限。

这不是一个"替代方案"，而是在特定约束下更干净的选择——尤其当你对数据主权有要求，或者只是想在小范围内部署一个轻量工具的时候。工具本身没有高下，关键是它和你的场景是否匹配。