Multi-modal OCR built on GPT-4o vision. Returns structured JSON: line items, prices, taxes, vendor for receipts.
用 1000 次连续调用跑测,统计 p50/p95 延迟、token 成本、错误率,对比 OpenAI 官方 / Anthropic 官方。
Multi-modal OCR built on GPT-4o vision. 底层基于 gpt-4o,OpenAI 兼容协议,一个 base_url 切过来即可,无需重写 SDK。
官方 API 价格高、延迟不稳定、还要为不同模型写多套 SDK。我们用一个 OpenAI 兼容网关把 GPT-4o / DALL-E / Claude / Gemini / gpt-image-2 全聚合,价格只到官方的 16%,错误率 0.4%。
基于 gpt-4o + 异步队列。前 100 次免费,无需绑卡。
去 api.tutujin.com/console 注册,控制台首页就是 sk-xxx。前 100 次免费额度自动到账,无需充值。
用任意 HTTPS 客户端构造请求:Authorization 头放 sk-xxx,body 放图片或 prompt,POST 到 /v1/ocr/structured。OpenAI 兼容协议——改一个 base_url 即可,SDK 不用换。「receipt parser api」相关的所有调用模式都已支持。
调 /v1/ocr/structured,用 multipart 或 JSON 都行,2 秒内回结果。指定模型参数(model=gpt-4o、size、quality)。
curl -X POST https://api.tutujin.com/v1/ocr/structured \ -H "Authorization: Bearer sk-xxx" \ -F "image=@input.jpg" \ -F "model=gpt-4o"
返回的 image_url 直接用,CDN 已缓存。批量任务可用 /v1/batch 异步队列,单批 5000 张。
1000 次实测平均价 / 速度,按 list price 折算(人民币)。
| 方案 | 模型 / 路径 | p50 速度 | 单次成本 | 1000 次省 |
|---|---|---|---|---|
| 推荐 土土金 · gpt-4o | gpt-4o (vision) + claude (structuring) | p50 2.4s | ¥0.018 | — 基准 — |
| 竞品 A Anthropic 官方 | claude-sonnet-4-6 | p50 2.6s | ¥0.090 | 省 ¥72 |
| 竞品 B OpenAI | gpt-4o | p50 2.1s | ¥0.075 | 省 ¥57 |
| 手工 Photoshop / 外包 | human | 4 工作日 | ¥200.00 | 省 ¥199982 |
50+, including CJK, Arabic, Hindi, Cyrillic. Mixed-language receipts (English + Chinese on same line) handled.
97% line-item extraction on 10K real receipt benchmark. Crumpled receipts: 89%.
Receipt: vendor, date, items[], tax, total, payment_method. Label: brand, ingredients[], expiry, batch_code, allergens. JSON Schema published.
Yes. POST a JSON Schema with your call and the model conforms output to your shape.
Tesseract is character-level OCR. We do scene-understanding OCR — we know 'what' the text means, not just 'what' it says.
按你当前需求的客群(开发者)智能挑选 —— 内链让爬虫高效穿透 30 个工具页。
本页结论引自下列第三方资料,仅供进一步学习。