Xml parsing in linux using sed and awk

richiep · 09-29-2010, 09:03 AM

Hello everyone, excuse my question if has already been answered but i require a quick fix...

I have a large XML file which needs some of the information extracted.

<transactionType> 7 </transactionType> # the value 7

i have re arranged the file so that everything is alligned immediately left making it easier to sort. The object types/Complex elements i require are as follows:

objectName,fieldValue,fieldName

I have this so far (below) which sorts the XML file based on objectName, fieldName and fieldValue. I would like to take the values between > and </ i understand i can use a delimeter but i have been using linux for one week an i am struggling!

sed 's/^[ \t]*//' Statement.xml | awk '/objectName|fieldValue|fieldName/' | less

ANy help would me greatly appreciated!

I intend to make this into a KSH script with if statements and variables if i can get it to work how its intended.

Many Thanks!

Rich

GrapefruiTgirl · 09-29-2010, 09:08 AM

Parsing XML is awkward at the best of times, but it can be done using Sed and/or AWK of you're determined. Alternately, look up XMLgawk - it's an awk extension which makes parsing XML easier.

Anyhow.. Before anyone can easily help, it would be great if you would paste for us a real snippet of your input file, so we can see what's exactly got to be done. Also show us an example of what you would like to come out of your script, based on the input file you show us.

For me, I found your explanation of what you need a little bit confusing, so some more info would be helpful

and please, when posting code or input-file snippets, use code tags: http://www.phpbb.com/community/faq.php?mode=bbcode#f2r1

Thanks!

richiep · 09-29-2010, 09:15 AM

<fieldValue>LVG</fieldValue>
</objectField>
</level2Object>
−
<level2Object>
<objectType>claim</objectType>
<objectID>120</objectID>
<objectSeq>3</objectSeq>
−
<objectField>

That is a sample of my xml document.

I want to take sort through all of them and be left with objectName, fieldName and fieldValue and their values so that i can write it to another file.

objectType -> complex element
fieldName -> simple element
fieldValue -> value of simple element

Im not sure if this answers your question.. this is probably the first time i have used a forum but i will definitely take a look at xmlGAWK.

I went on a course last week which was the first time i have ever used linux.. I am now trying to write the values/elements to another file.

Thanks for the promt reply!

GrapefruiTgirl · 09-29-2010, 09:23 AM

It sort of addresses my question. Let me rephrase a bit:

Show us exactly what you want the results to look like. For example, do you want the output, based on that input, to look like:

Code:

objectType -> claim
fieldName -> I don't see this tag up there anywhere!
fieldValue -> LVG

or do you want it like:

Code:

objectType = claim, fieldName = I don't see this tag up there anywhere!, fieldValue = LVG

Or what?

And, what separates the records in the file? Like, is the file a repeated sequence of similar blocks of text, separated by an empty line? Or is it a continuous, random pile of XML tags with no particular repeating sequence or order? Maybe showing us a longer section of the input file will answer this question. And, please use [code] tags.

richiep · 09-29-2010, 09:50 AM

Code:

This is the original xml doc.

</objectField>
−
<objectField>
<fieldID>1112</fieldID>
<fieldName>earlyRetirementDate</fieldName>
<fieldValue>19.11.2010</fieldValue>
</objectField>
−
<objectField>
<fieldID>1118</fieldID>
<fieldName>jointLifePercentage</fieldName>
<fieldValue/>
</objectField>
−
<objectField>
<fieldID>1521</fieldID>
<fieldName>policyId</fieldName>
<fieldValue>P00029867B01</fieldValue>
</objectField>
−
<objectField>
<fieldID>1522</fieldID>
<fieldName>policyNumber</fieldName>
<fieldValue>P00029867B01</fieldValue>
</objectField>
−
<objectField>
<fieldID>1523</fieldID>
<fieldName>retirementDate</fieldName>
<fieldValue>19.11.2010</fieldValue>
</objectField>
−
<objectField>
<fieldID>1524</fieldID>
<fieldName>retirementAge</fieldName>
<fieldValue/>
</objectField>
−
<objectField>
<fieldID>1525</fieldID>
<fieldName>pensionAmount</fieldName>
<fieldValue>19.99</fieldValue>
</objectField>
−
<objectField>
<fieldID>1526</fieldID>
<fieldName>guaranteePeriod</fieldName>
<fieldValue>5</fieldValue>
</objectField>

i wish to turn the above into...

Code:

*<transaction>
<lifelite>
<documentHeader>
	<transactionType> 6 </tranzactionType>
	<lifelifeReference>0001234545</lifeliteReference>
	<requestorUserID> Lv20073</requestorUserID>
	<...>
	</documentHeader>
	</lifelite>
       *</transaction>

so the new output would have changed:

Object type to Complex Element.
Field Name to Simple Element
field Value to value of simple element.

Sorry if im a bit slow, this is my 8th day using linux and regular expression!

Thanks!

grail · 09-29-2010, 10:08 AM

I am with GrapefruiTgirl on this one ... the information you are providing doesn't seem to meet what you are saying. Remember we are currently not worried about your skills or ability to
perform a regular expression, but more what you are starting with and what you want to finish with.

I will use your examples from post #5 to illustrate what I mean.

You have said that you want your output to look like:

Code:

*<transaction>
<lifelite>
<documentHeader>
	<transactionType> 6 </tranzactionType>
	<lifelifeReference>0001234545</lifeliteReference>
	<requestorUserID> Lv20073</requestorUserID>
	<...>
	</documentHeader>
	</lifelite>
       *</transaction>

Now I might have missed it, but from what I can see NONE of the information in your required output is in your input file??

eg. Lv20073 is not in the original file anywhere ... so where does this information come from? If that is the manual input you are doing, how did the original input file influence any of the
data shown in the output file?

You then go on to verbally say:

Quote:

Object type to Complex Element.
Field Name to Simple Element
field Value to value of simple element.

So my issues here are:

1. There is only an objectfield ... no object type
2. Fieldname currently contains something like 'guaranteePeriod'. What does this have to do with Simple Element? Or is this now a reference to an xml term?
3. Fieldvalue currently contains something like '5'. Is this not already simple??

Please help us to understand

richiep · 09-29-2010, 10:16 AM

Code:

<document xsi:noNamespaceSchemaLocation="Thunderhead/Generic Document v1.0">
<docRequestID>2010        08        27        15.56.00.049108</docRequestID>
<docStylesheet>THUNDERHEAD</docStylesheet>
−
<level0Object>
<objectType>transaction</objectType> # this becomes <transaction>
<objectID>900</objectID>
<objectSeq>1</objectSeq>
−
<level1Object>
<objectType>lifelite</objectType>
<objectID>901</objectID>
<objectSeq>1</objectSeq>
−
<level2Object>
<objectType>documentHeader</objectType>
<objectID>100</objectID>
<objectSeq>1</objectSeq>
−
<objectField>
<fieldID>1500</fieldID>
<fieldName>transactionType</fieldName>
<fieldValue>6</fieldValue>
</objectField>
−
<objectField>
<fieldID>1501</fieldID>
<fieldName>lifeliteReference</fieldName>
<fieldValue>000231133</fieldValue>
</objectField>
−
<objectField>
<fieldID>1502</fieldID>
<fieldName>requestorUserid</fieldName>
<fieldValue>LV20073</fieldValue>
</objectField>
−
<objectField>
<fieldID>1503</fieldID>
<fieldName>requestDate</fieldName>
<fieldValue>27.08.2010</fieldValue>
</objectField>
−
<objectField>
<fieldID>1504</fieldID>
<fieldName>requestTime</fieldName>
<fieldValue>6</fieldValue>
</objectField>
−
<objectField>
<fieldID>1505</fieldID>
<fieldName>busProcess</fieldName>
<fieldValue>LLP0101</fieldValue>
</objectField>
−
<objectField>
<fieldID>1506</fieldID>
<fieldName>insert</fieldName>
<fieldValue>N</fieldValue>
</objectField>
−
<objectField>
<fieldID>1507</fieldID>
<fieldName>adviserName</fieldName>
<fieldValue>PHIL BARTLE</fieldValue>
</objectField>
</level2Object>
−
<level2Object>
<objectType>recipient</objectType>
<objectID>110</objectID>
<objectSeq>2</objectSeq>
−
<objectField>
<fieldID>1510</fieldID>
<fieldName>rcpntPartyId</fieldName>
<fieldValue>7510134</fieldValue>
</objectField>
−
<objectField>
<fieldID>1511</fieldID>
<fieldName>companyCode</fieldName>
<fieldValue>LVG</fieldValue>
</objectField>
</level2Object>
−
<level2Object>
<objectType>claim</objectType>
<objectID>120</objectID>
<objectSeq>3</objectSeq>
−
<objectField>
<fieldID>1107</fieldID>
<fieldName>claimRef</fieldName>
<fieldValue>V1058036</fieldValue>
</objectField>
−
<objectField>
<fieldID>1108</fieldID>
<fieldName>totalClaimAmount</fieldName>
<fieldValue>0.00</fieldValue>
</objectField>
−
<objectField>
<fieldID>1109</fieldID>
<fieldName>totalGroupClaimAmount</fieldName>
<fieldValue>0.00</fieldValue>
</objectField>
−
<objectField>
<fieldID>1110</fieldID>
<fieldName>trivialityInd</fieldName>
<fieldValue>N</fieldValue>
</objectField>
−
<objectField>
<fieldID>1111</fieldID>
<fieldName>reducedPensionAmt</fieldName>
<fieldValue/>
</objectField>
−
<objectField>
<fieldID>1112</fieldID>
<fieldName>firstPaymentDate</fieldName>
<fieldValue>19.11.2010</fieldValue>
</objectField>
−
<objectField>
<fieldID>1113</fieldID>
<fieldName>paymentType</fieldName>
<fieldValue/>
</objectField>
−
<objectField>
<fieldID>1114</fieldID>
<fieldName>paymentInterval</fieldName>
<fieldValue/>
</objectField>
−
<objectField>
<fieldID>1115</fieldID>
<fieldName>lumpSumAmt</fieldName>
<fieldValue/>
</objectField>
−
<objectField>
<fieldID>1116</fieldID>
<fieldName>residualSum</fieldName>
<fieldValue/>
</objectField>
−
<objectField>
<fieldID>1117</fieldID>
<fieldName>slaPerc</fieldName>
<fieldValue>0.000</fieldValue>
</objectField>
−
<objectField>
<fieldID>1118</fieldID>
<fieldName>jointLifePercentage</fieldName>
<fieldValue/>
</objectField>
−
<objectField>
<fieldID>1531</fieldID>
<fieldName>manualActionInd</fieldName>
<fieldValue/>
</objectField>
−
<level3Object>
<objectType>plan</objectType>
<objectID>121</objectID>
<objectSeq>1</objectSeq>
−
<objectField>
<fieldID>1006</fieldID>
<fieldName>planRef</fieldName>
<fieldValue>P00029867B</fieldValue>
</objectField>
−
<level4Object>
<objectType>policy</objectType>
<objectID>122</objectID>
<objectSeq>1</objectSeq>
−
<objectField>
<fieldID>1006</fieldID>
<fieldName>planId</fieldName>
<fieldValue>0</fieldValue>
</objectField>
−
<objectField>
<fieldID>1015</fieldID>
<fieldName>tableId</fieldName>
<fieldValue>105A</fieldValue>
</objectField>
−
<objectField>
<fieldID>1016</fieldID>
<fieldName>prodName</fieldName>
<fieldValue>FLEXIBLE PERSONAL PENSION PLAN</fieldValue>
</objectField>
−
<objectField>
<fieldID>1112</fieldID>
<fieldName>earlyRetirementDate</fieldName>
<fieldValue>19.11.2010</fieldValue>
</objectField>
−
<objectField>
<fieldID>1118</fieldID>
<fieldName>jointLifePercentage</fieldName>
<fieldValue/>
</objectField>
−
<objectField>
<fieldID>1521</fieldID>
<fieldName>policyId</fieldName>
<fieldValue>P00029867B01</fieldValue>
</objectField>
−
<objectField>
<fieldID>1522</fieldID>
<fieldName>policyNumber</fieldName>
<fieldValue>P00029867B01</fieldValue>
</objectField>
−
<objectField>
<fieldID>1523</fieldID>
<fieldName>retirementDate</fieldName>
<fieldValue>19.11.2010</fieldValue>
</objectField>
−
<objectField>
<fieldID>1524</fieldID>
<fieldName>retirementAge</fieldName>
<fieldValue/>
</objectField>
−
<objectField>
<fieldID>1525</fieldID>
<fieldName>pensionAmount</fieldName>
<fieldValue>19.99</fieldValue>
</objectField>
−
<objectField>
<fieldID>1526</fieldID>
<fieldName>guaranteePeriod</fieldName>
<fieldValue>5</fieldValue>
</objectField>
−
<objectField>
<fieldID>1527</fieldID>
<fieldName>escalationRate</fieldName>
<fieldValue>11</fieldValue>
</objectField>
−
<objectField>
<fieldID>1530</fieldID>
<fieldName>pensionType</fieldName>
<fieldValue>P</fieldValue>
</objectField>
−
<level5Object>
<objectType>interests</objectType>
<objectID>123</objectID>
<objectSeq>1</objectSeq>
−
<objectField>
<fieldID>1528</fieldID>
<fieldName>partyInterestType</fieldName>
<fieldValue>BEN</fieldValue>
</objectField>
−
<objectField>
<fieldID>1529</fieldID>
<fieldName>partyId</fieldName>
<fieldValue>7510135</fieldValue>
</objectField>
</level5Object>
−
<level5Object>
<objectType>interests</objectType>
<objectID>123</objectID>
<objectSeq>2</objectSeq>
−
<objectField>
<fieldID>1528</fieldID>
<fieldName>partyInterestType</fieldName>
<fieldValue>LIN</fieldValue>
</objectField>
−
<objectField>
<fieldID>1529</fieldID>
<fieldName>partyId</fieldName>
<fieldValue>7510134</fieldValue>
</objectField>
</level5Object>
−
<level5Object>
<objectType>interests</objectType>
<objectID>123</objectID>
<objectSeq>3</objectSeq>
−
<objectField>
<fieldID>1528</fieldID>
<fieldName>partyInterestType</fieldName>
<fieldValue>PRO</fieldValue>
</objectField>
−
<objectField>
<fieldID>1529</fieldID>
<fieldName>partyId</fieldName>
<fieldValue>7510134</fieldValue>
</objectField>
</level5Object>
</level4Object>
−
<level4Object>
<objectType>policy</objectType>
<objectID>122</objectID>
<objectSeq>2</objectSeq>
−
<objectField>
<fieldID>1006</fieldID>
<fieldName>planId</fieldName>
<fieldValue>0</fieldValue>
</objectField>
−
<objectField>
<fieldID>1015</fieldID>
<fieldName>tableId</fieldName>
<fieldValue>105A</fieldValue>
</objectField>
−
<objectField>
<fieldID>1016</fieldID>
<fieldName>prodName</fieldName>
<fieldValue>FLEXIBLE PERSONAL PENSION PLAN</fieldValue>
</objectField>
−
<objectField>
<fieldID>1112</fieldID>
<fieldName>earlyRetirementDate</fieldName>
<fieldValue>19.11.2010</fieldValue>
</objectField>
−
<objectField>
<fieldID>1118</fieldID>
<fieldName>jointLifePercentage</fieldName>
<fieldValue/>
</objectField>
−
<objectField>
<fieldID>1521</fieldID>
<fieldName>policyId</fieldName>
<fieldValue>P00029867B02</fieldValue>
</objectField>
−
<objectField>
<fieldID>1522</fieldID>
<fieldName>policyNumber</fieldName>
<fieldValue>P00029867B02</fieldValue>
</objectField>
−
<objectField>
<fieldID>1523</fieldID>
<fieldName>retirementDate</fieldName>
<fieldValue>19.11.2010</fieldValue>
</objectField>
−
<objectField>
<fieldID>1524</fieldID>
<fieldName>retirementAge</fieldName>
<fieldValue/>
</objectField>
−
<objectField>
<fieldID>1525</fieldID>
<fieldName>pensionAmount</fieldName>
<fieldValue>19.99</fieldValue>
</objectField>
−
<objectField>
<fieldID>1526</fieldID>
<fieldName>guaranteePeriod</fieldName>
<fieldValue>5</fieldValue>
</objectField>
−
<objectField>
<fieldID>1527</fieldID>
<fieldName>escalationRate</fieldName>
<fieldValue>11</fieldValue>
</objectField>
−
<objectField>
<fieldID>1530</fieldID>
<fieldName>pensionType</fieldName>
<fieldValue>P</fieldValue>
</objectField>
−
<level5Object>
<objectType>interests</objectType>
<objectID>123</objectID>
<objectSeq>1</objectSeq>
−
<objectField>
<fieldID>1528</fieldID>
<fieldName>partyInterestType</fieldName>
<fieldValue>BEN</fieldValue>
</objectField>
−
<objectField>
<fieldID>1529</fieldID>
<fieldName>partyId</fieldName>
<fieldValue>7510135</fieldValue>
</objectField>
</level5Object>
−
<level5Object>
<objectType>interests</objectType>
<objectID>123</objectID>
<objectSeq>2</objectSeq>
−
<objectField>
<fieldID>1528</fieldID>
<fieldName>partyInterestType</fieldName>
<fieldValue>LIN</fieldValue>
</objectField>
−
<objectField>
<fieldID>1529</fieldID>
<fieldName>partyId</fieldName>
<fieldValue>7510134</fieldValue>
</objectField>
</level5Object>
−
<level5Object>
<objectType>interests</objectType>
<objectID>123</objectID>
<objectSeq>3</objectSeq>
−
<objectField>
<fieldID>1528</fieldID>
<fieldName>partyInterestType</fieldName>
<fieldValue>PRO</fieldValue>
</objectField>
−
<objectField>
<fieldID>1529</fieldID>
<fieldName>partyId</fieldName>
<fieldValue>7510134</fieldValue>
</objectField>
</level5Object>
</level4Object>
</level3Object>
</level2Object>
−
<level2Object>
<objectType>party</objectType>
<objectID>111</objectID>
<objectSeq>4</objectSeq>
−
<objectField>
<fieldID>1001</fieldID>
<fieldName>addressLine1</fieldName>
<fieldValue>60 GLENEAGLES ROAD</fieldValue>
</objectField>
−
<objectField>
<fieldID>1002</fieldID>
<fieldName>addressLine2</fieldName>
<fieldValue>SUNDERLAND</fieldValue>
</objectField>
−
<objectField>
<fieldID>1003</fieldID>
<fieldName>addressLine3</fieldName>
<fieldValue>TYNE AND WEAR</fieldValue>
</objectField>
−
<objectField>
<fieldID>1004</fieldID>
<fieldName>postcode</fieldName>
<fieldValue>SR4 8JE</fieldValue>
</objectField>
−
<objectField>
<fieldID>1087</fieldID>
<fieldName>country</fieldName>
<fieldValue/>
</objectField>
−
<objectField>
<fieldID>1093</fieldID>
<fieldName>fullName</fieldName>
<fieldValue>MR MALCOLM J JOHNSTON</fieldValue>
</objectField>
−
<objectField>
<fieldID>1512</fieldID>
<fieldName>partyId</fieldName>
<fieldValue>7510134</fieldValue>
</objectField>
−
<objectField>
<fieldID>1513</fieldID>
<fieldName>addressLine4</fieldName>
<fieldValue/>
</objectField>
−
<objectField>
<fieldID>1514</fieldID>
<fieldName>foreignInd</fieldName>
<fieldValue>N</fieldValue>
</objectField>
−
<objectField>
<fieldID>1515</fieldID>
<fieldName>partyAgeNextBirthday</fieldName>
<fieldValue>65</fieldValue>
</objectField>
−
<objectField>
<fieldID>1516</fieldID>
<fieldName>dateOfBirth</fieldName>
<fieldValue>19.11.1945</fieldValue>
</objectField>
−
<objectField>
<fieldID>1517</fieldID>
<fieldName>lifetimeSlaAmount</fieldName>
<fieldValue>1800000</fieldValue>
</objectField>
−
<objectField>
<fieldID>1518</fieldID>
<fieldName>slaAmountTaxYear</fieldName>
<fieldValue>06.04.2010</fieldValue>
</objectField>
−
<objectField>
<fieldID>1519</fieldID>
<fieldName>salutationName</fieldName>
<fieldValue>N</fieldValue>
</objectField>
−
<objectField>
<fieldID>1520</fieldID>
<fieldName>organisationInd</fieldName>
<fieldValue>N</fieldValue>
</objectField>
</level2Object>
</level1Object>
</level0Object>
</document>

this is the original xml document. I might have changed some values before as im not sure i can post the whole thing online. I might get in trouble.

From this, i would like AWK to extract the fields i need and values into a new xml document. The output above is correct and what i want to achieve.
Apologies if i am not being clear, this is all very new to me.

theNbomr · 09-29-2010, 10:28 AM

The 'XML' you posted is not valid XML. Is this some kind of idea that doesn't really exist yet? Did you try to manually transcribe the data, or did you do the simple thing, and copy/paste the XML-ish data? Little or none of your example data corresponds to the terms used in your verbal description.

Code:

−                <<<===  Untagged data
<objectField>
<fieldID>1118</fieldID>
<fieldName>jointLifePercentage</fieldName>
<fieldValue/>          <<<=== Malformed Tag
</objectField>
−
<objectField>

Where's the DTD?
Given useful information, these kinds of problems typically have good solutions. You seem to be unable to give us enough helpful information to get there.

--- rod.

grail · 09-29-2010, 10:30 AM

OK ... So I see where you are coming from now. You have picked a fairly hefty problem for your first time at bat

I would have to agree with earlier information to say that as it stands, awk would not really be the correct tool here. I mean it could do it, but the complexity of the code
would probably outweigh the need.

You want to look at Perl and specifically this will get you started. Also there are a number of Perl gurus around
here that can help you when you get stuck.

Good luck

Hope you let us know how you get on?

richiep · 09-29-2010, 03:16 PM

i have just noticed that i have pasted the wrong part of the xml. i think what i am trying to say refers to the start of the xml document mainly, where <transaction> is found. Ill upload it in the morning. I am currently looking into xml gawk which looks like it could help. I have no idea about perl, i am a graduate developer trying to learn new tricks! thanks for the help!