我正在解析一个大型XML文件,以查找某些内容。
$matches = [regex]::matches($content, '(<ac:structured-macro.+?ac:name="jira".+?</ac:structured-macro>)'即返回以"jira“作为起始部分和结束部分的<ac:structured-macro>。
我发现的是也找到了其他的记录。
<ac:structured-macro blah blah </ac:structured-macro>
<ac:structured-macro blah ac:name="jira" blah </ac:structured-macro>我只想找到那些里面有"jira“的。
.+?(item1).+?(item2)是语法吗?(类似于C#)来源样本:
<ac:structured-macro ac:name="jira">
<ac:parameter ac:name="columns">key,summary,type,created,updated,due,assignee,reporter,priority,status,resolution</ac:parameter>
<ac:parameter ac:name="server">JIRA (site.atlassian.net)</ac:parameter>
<ac:parameter ac:name="serverId">72f475d9-a9b2</ac:parameter>
<ac:parameter ac:name="jqlQuery">project = PLATFORM AND issuetype in (Bug, Question, Story) AND fixVersion = 1.12.1 AND component = "UI Framework" </ac:parameter>
<ac:parameter ac:name="maximumIssues">20</ac:parameter>
</ac:structured-macro>发布于 2015-09-20 12:37:29
正如注释中提到的,不要对XML使用regex!
相反,使用.NET的内置功能来解析并使用它:
$XmlDoc = [xml](Get-Content .\largefile.xml) 现在,$XmlDoc变量保存了一个活动的XmlDocument,我们可以通过编程方式检查和修改它(使用XPath),而不仅仅是纯文本。
从简短片段的内容来看,我猜想这个大型xml文件是包含JIRA宏for Confluence的XSLT模板。
因为Confluence使用了名称空间前缀ac --我们需要创建一个名称空间管理器,以便使用XPath查询文档
$XmlNSMgr = New-Object System.Xml.XmlNamespaceManager $XsltDoc.NameTable
$XmlNSMgr.AddNamespace("xsl","http://www.w3.org/1999/XSL/Transform")
$XmlNSMgr.AddNamespace("ac","http://www.atlassian.com/schema/confluence/4/ac/")现在可以使用SelectNodes()方法和XPath表达式选择所需的节点:
$XPathExpression = '//ac:structured-macro'
$MacroNodes = $XmlDoc.SelectNodes($XPathExpression, $XmlNSMgr)$MacroNodes现在是文档中所有<ac:structured-macro>节点的集合。
若要仅选择存在ac:name="jira"属性的节点,请向XPath表达式添加一个子句:
$XPathExpression = '//ac:structured-macro[@ac:name = "jira"]'
$JiraMacroNodes = $XmlDoc.SelectNodes($XPathExpression, $XmlNSMgr)您甚至可以编辑节点,并且在保存编辑时文档将被修改:
$JiraMacroNodes |ForEach-Object {
$_.SetAttribute("attrName","newValue")
}
$XmlDoc.Save("C:\path\to\new.xslt")https://stackoverflow.com/questions/32675746
复制相似问题