io.github.eralpozcan/vision-squeezer

自动将图片贴齐视觉模型分块边界，降低多模态调用的图像 token 成本。

来源

官方 Registry

更新于

2026-06-20

// 安全评估需留意

正在进行安全审计…

// 安装

复制安装指令，让 AI 自动完成配置 · 推荐新手

请帮我安装 askskill 上的 "io.github.eralpozcan/vision-squeezer" MCP 服务：
执行：claude mcp add 'io-github-eralpozcan-vision-squeezer' -- npx -y vision-squeezer

// 用法示例

压缩多模态截图成本

输入

请将这批用于 Claude 和 GPT-4o 识别的截图自动贴齐到视觉分块边界，在尽量不影响可读性的前提下减少图像 token 消耗，并输出优化后的文件列表与节省估算。

预期产出

返回处理后的图片、对应尺寸调整结果，以及每张图片预计节省的 token 或成本说明。

接入图像预处理流水线

输入

帮我把 vision-squeezer 接入现有图片上传流程：上传后先按 Gemini 和 Qwen 的视觉分块规则优化，再交给后续识别服务，并说明集成步骤。

预期产出

给出适合集成的处理流程、配置建议，以及优化前后在调用成本上的差异说明。

批量优化数据集图片

输入

将这个待送入 Llama 和 Qwen 视觉模型的数据集图片批量处理为更省 token 的尺寸，保留关键信息，并生成处理报告。

预期产出

输出优化后的数据集图片及一份报告，说明尺寸变化、适配模型和预计节省效果。

该资产暂无文档说明

可前往源码仓库查看用法与示例。

压缩大模型输入输出内容，减少冗词与结构开销以节省令牌成本。

用多模型视觉能力分析图片内容、提取文字并回答图像相关问题。