Ⅰ.信息的标记
- 标记后的信息可形成信息组织结构,增加了信息维度
- 标记的结构与信息一样具有重要价值
- 标记后的信息可用于通信、存储或展示
- 标记后的信息更有利于程序理解和应用
HTML通过预定义的<>...>标签形式组织不同类型的信息
Ⅱ.信息标记的三种方式
1.XML
<img src="china.jpg" size="10">...</img>
以<img>
开始,以</img>
结束,<img>
为标签tag
img
为名称name,标签中的src
与size
为属性attibute
如果是空元素,有以下缩写形式:<img src="china.jpg" size="10" />
注释书写形式:<!--This is a comment, very useful -->
XML实例:
1 |
|
2.JSON
有类型的键值对 key:value
如 "name" : "山西大学"
"name" : ["山西大学", "山西大学堂"]
多值用[,]来组织
1 |
|
键值嵌套用{,}组织
JSON实例:
1 |
|
3.YAML
无类型键值对 key : value
name : 山西大学
name为key,仅可为字符串,山西大学为value
缩进表达所属关系:
1 |
|
用符号’-‘来表示并列关系:
1 | name : |
‘|’ 表达整块数据,’#’ 表示注释:
1 | text : | #学校介绍 |
YAML实例:
1 |
|
Ⅲ.三种信息标记形式的比较
- XML
- 早的通用信息标记语言,可拓展性好,但繁琐
- Internet上的信息交互与传递
- JSON
- 信息有类型,适合程序处理(js),较XML简洁
- 移动应用云端的节点的信息通信,无注释
- YAML
- 信息无类型,文本信息比例最好,可读性好
- 各类系统的配置文件,有注释易读
Ⅳ.信息提取的一般方法
1.完整解析信息的标记形式(XML JSON YAML),再提取关键信息
此方法需要标记解析器,例如,python中bs4库的标签树遍历
优点:信息解析准确
缺点:提取过程繁琐,速度慢
2.无视标记形式,直接搜索关键信息(搜索)
此方法需要对信息的文本查找函数
优点:提取过程简洁,速度较快
缺点:提取结果准确性与信息内容有关
3.融合方法:结合形式解析与搜索方法,提取关键信息(XML JSON YAML 搜索)
融合方法需要标记解析器及文本查找函数