帮你搭建可定时抓取、分析并存储公开数据的全自动智能采集代理
复制安装指令,让 AI 自动完成配置 · 推荐新手
请帮我安装 askskill 上的 "data-scraper-agent" 技能: 1. 下载 https://raw.githubusercontent.com/affaan-m/ECC/main/skills/data-scraper-agent/SKILL.md 2. 保存为 ~/.claude/skills/data-scraper-agent/SKILL.md 3. 装好后重载技能,告诉我可以用了
帮我创建一个数据采集代理,每天早上 9 点抓取指定招聘网站上的“数据分析师”和“AI 产品经理”岗位,提取职位名称、公司、地点、薪资、发布日期和链接,用 Gemini Flash 判断岗位是否匹配“远程优先、3 年以上经验、英语要求低”,结果保存到 Google Sheets,并把高匹配岗位标记出来。
一个可定时运行的职位监控流程,自动输出结构化岗位表,并标记高匹配机会。
帮我搭建一个自动抓取代理,每 6 小时监控 10 个竞品页面的价格、库存状态、优惠信息和商品标题变化;如果价格下降超过 5%,就记录变化原因摘要并同步到 Notion 数据库,按品牌和品类分类。
一个自动价格监控系统,持续记录竞品变动并输出可筛选的结构化数据。
请建立一个 GitHub 数据采集代理,每天抓取我关注的 20 个开源仓库的 star 增长、issue、PR、release 和 README 更新,用 LLM 生成每日报告摘要,识别哪些项目最活跃,并把结果写入 Supabase 供后续分析。
一个自动化开源项目追踪方案,产出每日摘要、活跃度判断和可分析的数据表。
Build a production-ready, AI-powered data collection agent for any public data source. Runs on a schedule, enriches results with a free LLM, stores to a database, and improves over time.
Stack: Python · Gemini Flash (free) · GitHub Actions (free) · Notion / Sheets / Supabase
Every data scraper agent has three layers:
COLLECT → ENRICH → STORE
│ │ │
Scraper AI (LLM) Database
runs on scores/ Notion /
schedule summarises Sheets /
& classifies Supabase
| Layer | Tool | Why |
|---|---|---|
| Scraping | requests + BeautifulSoup | No cost, covers 80% of public sites |
| JS-rendered sites | playwright (free) | When HTML scraping fails |
| AI enrichment | Gemini Flash via REST API | 500 req/day, 1M tokens/day — free |
| Storage | Notion API | Free tier, great UI for review |
| Schedule | GitHub Actions cron | Free for public repos |
| Learning | JSON feedback file in repo | Zero infra, persists in git |
Build agents to auto-fallback across Gemini models on quota exhaustion:
gemini-2.0-flash-lite (30 RPM) →
gemini-2.0-flash (15 RPM) →
gemini-2.5-flash (10 RPM) →
gemini-flash-lite-latest (fallback)
Never call the LLM once per item. Always batch:
# BAD: 33 API calls for 33 items
for item in items:
result = call_ai(item) # 33 calls → hits rate limit
# GOOD: 7 API calls for 33 items (batch size 5)
for batch in chunks(items, size=5):
results = call_ai(batch) # 7 calls → stays within free tier
Ask the user:
Common examples to prompt:
Generate this directory structure for the user:
my-agent/
├── config.yaml # User customises this (keywords, filters, preferences)
├── profile/
│ └── context.md # User context the AI uses (resume, interests, criteria)
├── scraper/
│ ├── __init__.py
│ ├── main.py # Orchestrator: scrape → enrich → store
│ ├── filters.py # Rule-based pre-filter (fast, before AI)
│ └── sources/
│ ├── __init__.py
│ └── source_name.py # One file per data source
├── ai/
│ ├── __init__.py
│ ├── client.py # Gemini REST client with model fallback
│ ├── pipeline.py # Batch AI analysis
│ ├── jd_fetcher.py # Fetch full content from URLs (optional)
│ └── memory.py # Learn from user feedback
├── storage/
│ ├── __init__.py
│ └── notion_sync.py # Or sheets_sync.py / supabase_sync.py
├── data/
│ └── feedback.json # User decision history (auto-updated)
├── .env.example
├── setup.py # One-time DB/schema creation
├── enrich_existing.py # Backfill AI scores on old rows
├── requirements.txt
…
帮助开发者为代码代理配置性能优化、安全防护与研究优先工作流。
提供数据库迁移、回滚与零停机发布的最佳实践指导,适用于多种 ORM 与 SQL 数据库。
通过双评审智能体对结果进行对抗式校验,提升输出发布前的可靠性
帮助你掌握地道 Rust 模式、所有权与并发实践,编写安全高性能应用。
基于 C++ Core Guidelines 编写、审查并重构更安全现代的 C++ 代码。
为 Claude Code 会话提供系统化校验流程,帮助检查结果正确性与质量。
构建全自动公网数据采集代理,定时抓取、智能丰富并保存到常用数据平台。
按次付费抓取任意网页内容,提取干净文本、链接或原始HTML供AI调用
为 AI 代理提供网页抓取、爬取与站点映射能力,快速收集结构化信息。
提供可直接复用的 AI 代理技能库,低成本完成搜索、抓取、PDF与加密任务
通过 Apify 自动运行网页抓取任务、管理数据集并获取结构化采集结果。
根据网站文档自动生成可复用的 AI 代理技能说明与配置草案