Firecrawl：自己搭一个网页抓取服务

说到做内容聚合、知识库或者 RAG 应用，第一步总是绕不开的问题：怎么把网页变成干净的结构化数据？

复制粘贴太费劲，正则提取又容易崩，现有的 API 要么贵得离谱，要么限制多到让人想哭。

今天试了 Firecrawl，一个开源、还能自托管的网页抓取工具，解决这个问题真的很清爽。

第一个坑：别再手动处理网页了

它的核心就一件事：你给它一个 URL，它返回 Markdown 格式的正文，还带上完整的元数据——标题、描述、语言、状态码这些，全都有。

听着简单？其实挺难的。Firecrawl 用了 Playwright 渲染页面，所以 SPA、动态加载的内容都能搞定。它还会自动删掉广告、导航栏、footer 这些垃圾信息，只留真正有用的内容。

比你自己写 requests + BeautifulSoup 省心太多了。

我拿 example.com 测试了一下，输出的 Markdown 非常干净，标题、段落、链接都保留得好好的，没多余东西。

数据不出本地，不用看别人脸色，也不用担心 API 调用次数上限。Docker Compose 一键启动，Redis、RabbitMQ、PostgreSQL、Playwright 全部自动化配置，省事得不行。

硬件要求也不高，普通笔记本就能跑，完全不卡顿。

今天装的时候遇到个小问题：API 镜像里的 Go 组件要从 proxy.golang.org 下依赖，网络超时了。

解决办法很简单：直接拉官方预构建镜像（ghcr.io/firecrawl/firecrawl:latest），跳过本地编译步骤就行。其他服务（Playwright、Redis、RabbitMQ、PostgreSQL）都顺顺利利跑起来了。

现在本地已经跑着一个完整的 Firecrawl 实例，localhost:3002 随时可用，稳得很。