<html><body>Thanks to Paul for getting back to me with an observation he made concerning the file formats on offer from the Internet Archive.<br /><br />I had luckily avoided this issue myself, but I have updated the instructions (marked in red) on my analysis page so others won't fall into the same pit.<br /><br />http://www.eglug.org.uk/bash_and_regexp_example_analysis.html<br /><br /><span class="hilite">[Update 16/09/2011] </span>Please note:  Format options include "PDF", "PDF with text" and "Full Text". I chose "PDF". I then selected all text and  copied and pasted into a text file. This gives a different result to the same operation performed on "PDF with text". Please be aware that the latter option pastes portions of sentences out of order. The other point to note is that choosing "Full Text" makes it harder to craft a command to identify and remove page numbers.<br /><br /><br />
                Best Regards,<br />Fay<br />East Grinstead Linux User Group<br />www.eglug.org.uk<br /><br /></body></html>