Ⅰ.信息的标记
- 标记后的信息可形成信息组织结构,增加了信息维度
- 标记的结构与信息一样具有重要价值
- 标记后的信息可用于通信、存储或展示
- 标记后的信息更有利于程序理解和应用
HTML通过预定义的<>...>标签形式组织不同类型的信息
Ⅱ.信息标记的三种方式
1.XML
     <img src="china.jpg" size="10">...</img>
  以<img>开始,以</img>结束,<img>为标签tag
  img为名称name,标签中的src与size为属性attibute
  如果是空元素,有以下缩写形式:<img src="china.jpg" size="10" />
  注释书写形式:<!--This is a comment, very useful -->
XML实例:
| 1 | 
 | 
2.JSON
   有类型的键值对 key:value
如 "name" : "山西大学"
"name" : ["山西大学", "山西大学堂"] 多值用[,]来组织
| 1 | 
 | 
键值嵌套用{,}组织
JSON实例:
| 1 | 
 | 
3.YAML
无类型键值对 key : value
name : 山西大学       name为key,仅可为字符串,山西大学为value
缩进表达所属关系:
| 1 | 
 | 
用符号’-‘来表示并列关系:
| 1 | name : | 
‘|’ 表达整块数据,’#’ 表示注释:
| 1 | text : | #学校介绍 | 
YAML实例:
| 1 | 
 | 
Ⅲ.三种信息标记形式的比较
- XML- 早的通用信息标记语言,可拓展性好,但繁琐
- Internet上的信息交互与传递
 
- JSON- 信息有类型,适合程序处理(js),较XML简洁
- 移动应用云端的节点的信息通信,无注释
 
- YAML- 信息无类型,文本信息比例最好,可读性好
- 各类系统的配置文件,有注释易读
 
Ⅳ.信息提取的一般方法
1.完整解析信息的标记形式(XML JSON YAML),再提取关键信息
此方法需要标记解析器,例如,python中bs4库的标签树遍历
优点:信息解析准确
缺点:提取过程繁琐,速度慢
2.无视标记形式,直接搜索关键信息(搜索)
此方法需要对信息的文本查找函数
优点:提取过程简洁,速度较快
缺点:提取结果准确性与信息内容有关
3.融合方法:结合形式解析与搜索方法,提取关键信息(XML JSON YAML 搜索)
融合方法需要标记解析器及文本查找函数