2014-10-31 4 views
0

일부 HTML 태그로 텍스트를 구문 분석하는 데 Ben Reeves' HTML parser을 사용하고 있습니다. 모든 노드를 HTMLNode 객체로 나타내며 libxml2에서 xmlNode * 유형의 ivar 만 있습니다. xmlNode는 다음과 같은 구조체입니다.Objective C의 struct ivar에 대한 이상한 메모리 동작

struct _xmlNode { 
void   *_private; /* application data */ 
xmlElementType type; /* type number, must be second ! */ 
const xmlChar *name;  /* the name of the node, or the entity */ 
struct _xmlNode *children; /* parent->childs link */ 
struct _xmlNode *last; /* last child link */ 
struct _xmlNode *parent; /* child->parent link */ 
struct _xmlNode *next; /* next sibling link */ 
struct _xmlNode *prev; /* previous sibling link */ 
struct _xmlDoc *doc; /* the containing document */ 

/* End of common part */ 
xmlNs   *ns;  /* pointer to the associated namespace */ 
xmlChar   *content; /* the content */ 
struct _xmlAttr *properties;/* properties list */ 
xmlNs   *nsDef;  /* namespace definitions on this node */ 
void   *psvi; /* for type/PSVI informations */ 
unsigned short line; /* line number */ 
unsigned short extra; /* extra data for XPath/XSLT */ 

}};

- (HTMLNode*)nodeFromString:(NSString*)string 
{ 
    /* Creates parser which wraps string in <doc><html><body> tags */ 

    HTMLParser *parser = [[HTMLParser alloc] initWithString:string error:nil]; 

    /* Get contents of <body> tag and return it to parse later */ 

    HTMLNode *body = [parser body];  
    return body; 
} 

이 방법은 괜찮 안에이 HTMLNode 사용 :

는 그 노드를 문자열을 취하는 HTMLNode로 래핑 및 반환 방법이있다. 하지만 코드에서 다른 곳에서이 노드를 사용하려고하면 정말 이상한 결과가납니다. xmlNode 구조체 내의 대부분의 변수는 메모리의 임의의 위치를 ​​가리 킵니다.

body HTMLNode * 0x7faaf96a3240 0x00007faaf96a3240 
_node xmlNode * 0x7faaf96b7ec0 0x00007faaf96b7ec0 
    _private void * NULL 0x0000000000000000 
    type xmlElementType XML_ELEMENT_NODE XML_ELEMENT_NODE 
    name const xmlChar * "body" 0x00007faaf9693df0 
    children _xmlNode * 0x7faaf96b7fd0 0x00007faaf96b7fd0 
     _private void * NULL 0x0000000000000000 
     type xmlElementType XML_ELEMENT_NODE XML_ELEMENT_NODE 
     name const xmlChar * "p" 0x00007faaf9678470 
     children _xmlNode * 0x7faaf96b80e0 0x00007faaf96b80e0 
      _private void * NULL 0x0000000000000000 
      type xmlElementType XML_TEXT_NODE XML_TEXT_NODE 
      name const xmlChar * "text" 0x0000000100e31304 
      children _xmlNode * NULL 0x0000000000000000 
      content xmlChar * "My content string" 0x00007faafa910200 

을 그리고이 같은 HTMLNode 개체에 대한 디버그 출력이 메서드에서 반환하고 다른 곳에서 사용 :

body HTMLNode * 0x7faaf96a3240 0x00007faaf96a3240 
_node xmlNode * 0x7faaf96b7ec0 0x00007faaf96b7ec0 
    _private void * 0x900007faaf96b7db 0x900007faaf96b7db 
    type xmlElementType -1349076995 -1349076995 
    name const xmlChar * 0x7faaf969000a 0x00007faaf969000a 
    children _xmlNode * 0x7faaf96b7fd0 0x00007faaf96b7fd0 
     _private void * 0x600007faaf96b7ec 0x600007faaf96b7ec 
     type xmlElementType -1349076978 -1349076978 
     name const xmlChar * "" 0x00007faaf967000a 
     children _xmlNode * 0x7faaf96b80e0 0x00007faaf96b80e0 
      _private void * 0x700007faaf96b7fd 0x700007faaf96b7fd 
      type xmlElementType -1349076961 -1349076961 
      name const xmlChar * "XPathEvalExpression: %d object left on the stack\n" 0x0000000100e3000a 
      children _xmlNode * NULL 0x0000000000000000 
      content xmlChar * "My content string" 0x00007faafa910200 

왜 메모리

여기 HTMLNode에 대한 디버그 출력 내부 nodeFromString 방법과 같은 방법 xmlNode ivar가 손상 되었습니까? 그것을 막기 위해해야 ​​할 일은 무엇입니까 (한 문자열 내에서 전체 문자열을 구문 분석하지 않으려 고합니다).

이 문제를 재현하는 간단한 샘플 프로젝트는 here입니다.

+1

저는 파서의 버그라고 생각합니다. Xml 계층 구조는'HTMLParser' 객체로 할당 해제됩니다. –

+0

젠장, 시간을 낭비했고 그 파서 객체에 대해서 생각조차하지 않았다. 실제로 그것은 파서로 할당 해제됩니다. ( – Spail

+0

@ Cy-4AH 답변을 게시하는 경우이를 수락합니다. – Spail

답변

1

저는 파서의 버그라고 생각합니다. Xml 계층 구조는 HTMLParser 객체로 할당 해제됩니다.