如何使用正则表达式在 PHP 中精准提取营养成分数据(类别、数值、单位)
发布时间 - 2026-01-29 00:00:00 点击率:次本文介绍如何通过 preg_match_all 配合命名捕获组正则,从结构化文本中准确分离「标签名」「数值」和「单位」三部分,避免 preg_split 误切空格与标点导致的数据错乱。
在处理类似营养成分表的半结构化文本时,直接使用 preg_split('/[0-9].\s/', $content) 存在根本性缺陷:它试图“按数字+任意字符+空白”切割,但既无法区分数字是标签的一部分(如 Sodium, Na 中的 Na)还是真实数值起点,又会破坏浮点数(如 229.6104534866)的完整性,更无法保留括号、逗号等标签内合法符号——这正是你观察到 Total lipid (fat) 被错误拆分为多段的原因。
正确思路不是「分割」,而是「匹配提取」:每一行本质上是一个三元组 —— 非数字开头的标签(category) + 紧随其后的空白 + 连续数字与小数点组成的数值(value) + 后续空白 + 剩余单位字符串(unit)。因此应使用 preg_match_all() 配合精准锚定的模式:
$pattern = '~^(?P\D+)\s+(?P [\d.]+)\s+(?P .+)~m';
其中关键细节解析:
- ^ 和 m 修饰符:确保 ^ 匹配每行开头(而非整个字符串开头);
- (?P
\D+):\D 匹配任意非数字字符,+ 表示至少一个,完美涵盖 Weight、Total lipid (fat)、Carbohydrate, by difference 等含空格、逗号、括号的完整标签; - \s+:匹配一个或多个空白(空格/制表符),作为标签与数值间的分隔;
- (?P
[\d.]+):明确限定数值仅由数字和小数点构成,排除单位中可能出现的 .(如 kcal 无点,但安全起见仍建议确保输入规范); - (?P
.+):捕获剩余全部内容作为单位(g、kcal、mg 等),. 在 m 模式下不匹配换行符,保证单行匹配。
完整可运行示例:
立即学习“PHP免费学习笔记(深入)”;
\D+)\s+(?P[\d.]+)\s+(?P .+)~m'; preg_match_all($pattern, $content, $matches, PREG_SET_ORDER); // 结构化输出示例 foreach ($matches as $match) { echo sprintf( "Label: '%s' | Value: '%s' | Unit: '%s'\n", trim($match['category']), $match['value'], trim($match['unit']) ); } ?>
输出效果:
Label: 'Weight' | Value: '229.6104534866' | Unit: 'g' Label: 'Energy' | Value: '374.79170898476' | Unit: 'kcal' Label: 'Total lipid (fat)' | Value: '22.163422468932' | Unit: 'g' ...
✅ 优势总结:
- 完整保留标签原始格式(支持空格、逗号、括号、连字符等);
- 数值提取精确到小数点,无截断风险;
- 单位自动捕获,无需额外处理;
- PREG_SET_ORDER 返回每行一个关联数组,语义清晰,便于后续 JSON 化或数据库写入。
⚠️ 注意事项:
- 若输入存在异常行(如无数字、数值含字母),该模式将跳过该行(preg_match_all 默认只返回完全匹配项),建议增加容错逻辑(如预过滤空行或使用 if (count($matches) === 0) 提示错误);
- 如需兼容科学计数法(如 1.23e+04),可将 [\d.]+ 扩展为 [\d.]+(?:[eE][+-]?\d+)?;
- 实际项目中建议对 trim() 后的 category 和 unit 做进一步标准化(如去除多余空格、统一单位缩写)。
此方案以声明式正则替代过程式分割,兼顾鲁棒性与可维护性,是解析此类规则文本的推荐实践。
# php
# js
# json
# go
# 正则表达式
# if
# 关联数组
# count
# 字符串
# 数据库
# 结构化
# 是一个
# 多个
# 此类
# 又会
# 可将
# 而非
# 如需
# 可能出现
# 本质上
相关栏目:
【
网站优化151355 】
【
网络推广146373 】
【
网络技术251813 】
【
AI营销90571 】
相关推荐:
Laravel如何构建RESTful API_Laravel标准化API接口开发指南
java获取注册ip实例
Laravel Eloquent访问器与修改器是什么_Laravel Accessors & Mutators数据处理技巧
如何在VPS电脑上快速搭建网站?
谷歌浏览器下载文件时中断怎么办 Google Chrome下载管理修复
高端建站三要素:定制模板、企业官网与响应式设计优化
如何快速打造个性化非模板自助建站?
JS中对数组元素进行增删改移的方法总结
昵图网官网入口 昵图网素材平台官方入口
如何为不同团队 ID 动态生成多个非值班状态按钮
三星、SK海力士获美批准:可向中国出口芯片制造设备
Laravel如何生成API文档?(Swagger/OpenAPI教程)
python中快速进行多个字符替换的方法小结
专业型网站制作公司有哪些,我设计专业的,谁给推荐几个设计师兼职类的网站?
,南京靠谱的征婚网站?
Laravel API资源类怎么用_Laravel API Resource数据转换
米侠浏览器网页图片不显示怎么办 米侠图片加载修复
Linux安全能力提升路径_长期防护思维说明【指导】
Android中AutoCompleteTextView自动提示
mc皮肤壁纸制作器,苹果平板怎么设置自己想要的壁纸我的世界?
php增删改查怎么学_零基础入门php数据库操作必知基础【教程】
西安市网站制作公司,哪个相亲网站比较好?西安比较好的相亲网站?
Laravel如何使用Service Container和依赖注入?(代码示例)
JavaScript如何实现错误处理_try...catch如何捕获异常?
Laravel如何处理表单验证?(Requests代码示例)
Internet Explorer官网直接进入 IE浏览器在线体验版网址
Laravel怎么实现验证码功能_Laravel集成验证码库防止机器人注册
Laravel如何使用Service Provider注册服务_Laravel服务提供者配置与加载
Windows10怎样连接蓝牙设备_Windows10蓝牙连接步骤【教程】
phpredis提高消息队列的实时性方法(推荐)
百度输入法ai面板怎么关 百度输入法ai面板隐藏技巧
高防服务器租用如何选择配置与防御等级?
宙斯浏览器文件分类查看教程 快速筛选视频文档与图片方法
Laravel如何实现用户角色和权限系统_Laravel角色权限管理机制
网易LOFTER官网链接 老福特网页版登录地址
悟空浏览器如何设置小说背景色_悟空浏览器背景色设置【方法】
jQuery 常见小例汇总
Laravel如何实现数据导出到PDF_Laravel使用snappy生成网页快照PDF【方案】
如何快速生成凡客建站的专业级图册?
如何在宝塔面板创建新站点?
香港服务器租用每月最低只需15元?
EditPlus 正则表达式 实战(3)
javascript中的数组方法有哪些_如何利用数组方法简化数据处理
如何在阿里云ECS服务器部署织梦CMS网站?
iOS UIView常见属性方法小结
如何快速搭建高效WAP手机网站?
Laravel中DTO是什么概念_在Laravel项目中使用数据传输对象(DTO)
Laravel如何使用Eloquent ORM进行数据库操作?(CRUD示例)
javascript读取文本节点方法小结
浅述节点的创建及常见功能的实现


