source: pyyaml/trunk/lib3/yaml/parser.py @ 328

Revision 328, 24.8 KB checked in by xi, 5 years ago (diff)

Added basic support for Python 3 (Thanks idadesub(at)users(dot)sourceforge(dot)net).

Line 
1
2# The following YAML grammar is LL(1) and is parsed by a recursive descent
3# parser.
4#
5# stream            ::= STREAM-START implicit_document? explicit_document* STREAM-END
6# implicit_document ::= block_node DOCUMENT-END*
7# explicit_document ::= DIRECTIVE* DOCUMENT-START block_node? DOCUMENT-END*
8# block_node_or_indentless_sequence ::=
9#                       ALIAS
10#                       | properties (block_content | indentless_block_sequence)?
11#                       | block_content
12#                       | indentless_block_sequence
13# block_node        ::= ALIAS
14#                       | properties block_content?
15#                       | block_content
16# flow_node         ::= ALIAS
17#                       | properties flow_content?
18#                       | flow_content
19# properties        ::= TAG ANCHOR? | ANCHOR TAG?
20# block_content     ::= block_collection | flow_collection | SCALAR
21# flow_content      ::= flow_collection | SCALAR
22# block_collection  ::= block_sequence | block_mapping
23# flow_collection   ::= flow_sequence | flow_mapping
24# block_sequence    ::= BLOCK-SEQUENCE-START (BLOCK-ENTRY block_node?)* BLOCK-END
25# indentless_sequence   ::= (BLOCK-ENTRY block_node?)+
26# block_mapping     ::= BLOCK-MAPPING_START
27#                       ((KEY block_node_or_indentless_sequence?)?
28#                       (VALUE block_node_or_indentless_sequence?)?)*
29#                       BLOCK-END
30# flow_sequence     ::= FLOW-SEQUENCE-START
31#                       (flow_sequence_entry FLOW-ENTRY)*
32#                       flow_sequence_entry?
33#                       FLOW-SEQUENCE-END
34# flow_sequence_entry   ::= flow_node | KEY flow_node? (VALUE flow_node?)?
35# flow_mapping      ::= FLOW-MAPPING-START
36#                       (flow_mapping_entry FLOW-ENTRY)*
37#                       flow_mapping_entry?
38#                       FLOW-MAPPING-END
39# flow_mapping_entry    ::= flow_node | KEY flow_node? (VALUE flow_node?)?
40#
41# FIRST sets:
42#
43# stream: { STREAM-START }
44# explicit_document: { DIRECTIVE DOCUMENT-START }
45# implicit_document: FIRST(block_node)
46# block_node: { ALIAS TAG ANCHOR SCALAR BLOCK-SEQUENCE-START BLOCK-MAPPING-START FLOW-SEQUENCE-START FLOW-MAPPING-START }
47# flow_node: { ALIAS ANCHOR TAG SCALAR FLOW-SEQUENCE-START FLOW-MAPPING-START }
48# block_content: { BLOCK-SEQUENCE-START BLOCK-MAPPING-START FLOW-SEQUENCE-START FLOW-MAPPING-START SCALAR }
49# flow_content: { FLOW-SEQUENCE-START FLOW-MAPPING-START SCALAR }
50# block_collection: { BLOCK-SEQUENCE-START BLOCK-MAPPING-START }
51# flow_collection: { FLOW-SEQUENCE-START FLOW-MAPPING-START }
52# block_sequence: { BLOCK-SEQUENCE-START }
53# block_mapping: { BLOCK-MAPPING-START }
54# block_node_or_indentless_sequence: { ALIAS ANCHOR TAG SCALAR BLOCK-SEQUENCE-START BLOCK-MAPPING-START FLOW-SEQUENCE-START FLOW-MAPPING-START BLOCK-ENTRY }
55# indentless_sequence: { ENTRY }
56# flow_collection: { FLOW-SEQUENCE-START FLOW-MAPPING-START }
57# flow_sequence: { FLOW-SEQUENCE-START }
58# flow_mapping: { FLOW-MAPPING-START }
59# flow_sequence_entry: { ALIAS ANCHOR TAG SCALAR FLOW-SEQUENCE-START FLOW-MAPPING-START KEY }
60# flow_mapping_entry: { ALIAS ANCHOR TAG SCALAR FLOW-SEQUENCE-START FLOW-MAPPING-START KEY }
61
62__all__ = ['Parser', 'ParserError']
63
64from .error import MarkedYAMLError
65from .tokens import *
66from .events import *
67from .scanner import *
68
69class ParserError(MarkedYAMLError):
70    pass
71
72class Parser:
73    # Since writing a recursive-descendant parser is a straightforward task, we
74    # do not give many comments here.
75
76    DEFAULT_TAGS = {
77        '!':   '!',
78        '!!':  'tag:yaml.org,2002:',
79    }
80
81    def __init__(self):
82        self.current_event = None
83        self.yaml_version = None
84        self.tag_handles = {}
85        self.states = []
86        self.marks = []
87        self.state = self.parse_stream_start
88
89    def check_event(self, *choices):
90        # Check the type of the next event.
91        if self.current_event is None:
92            if self.state:
93                self.current_event = self.state()
94        if self.current_event is not None:
95            if not choices:
96                return True
97            for choice in choices:
98                if isinstance(self.current_event, choice):
99                    return True
100        return False
101
102    def peek_event(self):
103        # Get the next event.
104        if self.current_event is None:
105            if self.state:
106                self.current_event = self.state()
107        return self.current_event
108
109    def get_event(self):
110        # Get the next event and proceed further.
111        if self.current_event is None:
112            if self.state:
113                self.current_event = self.state()
114        value = self.current_event
115        self.current_event = None
116        return value
117
118    # stream    ::= STREAM-START implicit_document? explicit_document* STREAM-END
119    # implicit_document ::= block_node DOCUMENT-END*
120    # explicit_document ::= DIRECTIVE* DOCUMENT-START block_node? DOCUMENT-END*
121
122    def parse_stream_start(self):
123
124        # Parse the stream start.
125        token = self.get_token()
126        event = StreamStartEvent(token.start_mark, token.end_mark,
127                encoding=token.encoding)
128
129        # Prepare the next state.
130        self.state = self.parse_implicit_document_start
131
132        return event
133
134    def parse_implicit_document_start(self):
135
136        # Parse an implicit document.
137        if not self.check_token(DirectiveToken, DocumentStartToken,
138                StreamEndToken):
139            self.tag_handles = self.DEFAULT_TAGS
140            token = self.peek_token()
141            start_mark = end_mark = token.start_mark
142            event = DocumentStartEvent(start_mark, end_mark,
143                    explicit=False)
144
145            # Prepare the next state.
146            self.states.append(self.parse_document_end)
147            self.state = self.parse_block_node
148
149            return event
150
151        else:
152            return self.parse_document_start()
153
154    def parse_document_start(self):
155
156        # Parse any extra document end indicators.
157        while self.check_token(DocumentEndToken):
158            self.get_token()
159
160        # Parse an explicit document.
161        if not self.check_token(StreamEndToken):
162            token = self.peek_token()
163            start_mark = token.start_mark
164            version, tags = self.process_directives()
165            if not self.check_token(DocumentStartToken):
166                raise ParserError(None, None,
167                        "expected '<document start>', but found %r"
168                        % self.peek_token().id,
169                        self.peek_token().start_mark)
170            token = self.get_token()
171            end_mark = token.end_mark
172            event = DocumentStartEvent(start_mark, end_mark,
173                    explicit=True, version=version, tags=tags)
174            self.states.append(self.parse_document_end)
175            self.state = self.parse_document_content
176        else:
177            # Parse the end of the stream.
178            token = self.get_token()
179            event = StreamEndEvent(token.start_mark, token.end_mark)
180            assert not self.states
181            assert not self.marks
182            self.state = None
183        return event
184
185    def parse_document_end(self):
186
187        # Parse the document end.
188        token = self.peek_token()
189        start_mark = end_mark = token.start_mark
190        explicit = False
191        if self.check_token(DocumentEndToken):
192            token = self.get_token()
193            end_mark = token.end_mark
194            explicit = True
195        event = DocumentEndEvent(start_mark, end_mark,
196                explicit=explicit)
197
198        # Prepare the next state.
199        self.state = self.parse_document_start
200
201        return event
202
203    def parse_document_content(self):
204        if self.check_token(DirectiveToken,
205                DocumentStartToken, DocumentEndToken, StreamEndToken):
206            event = self.process_empty_scalar(self.peek_token().start_mark)
207            self.state = self.states.pop()
208            return event
209        else:
210            return self.parse_block_node()
211
212    def process_directives(self):
213        self.yaml_version = None
214        self.tag_handles = {}
215        while self.check_token(DirectiveToken):
216            token = self.get_token()
217            if token.name == 'YAML':
218                if self.yaml_version is not None:
219                    raise ParserError(None, None,
220                            "found duplicate YAML directive", token.start_mark)
221                major, minor = token.value
222                if major != 1:
223                    raise ParserError(None, None,
224                            "found incompatible YAML document (version 1.* is required)",
225                            token.start_mark)
226                self.yaml_version = token.value
227            elif token.name == 'TAG':
228                handle, prefix = token.value
229                if handle in self.tag_handles:
230                    raise ParserError(None, None,
231                            "duplicate tag handle %r" % handle,
232                            token.start_mark)
233                self.tag_handles[handle] = prefix
234        if self.tag_handles:
235            value = self.yaml_version, self.tag_handles.copy()
236        else:
237            value = self.yaml_version, None
238        for key in self.DEFAULT_TAGS:
239            if key not in self.tag_handles:
240                self.tag_handles[key] = self.DEFAULT_TAGS[key]
241        return value
242
243    # block_node_or_indentless_sequence ::= ALIAS
244    #               | properties (block_content | indentless_block_sequence)?
245    #               | block_content
246    #               | indentless_block_sequence
247    # block_node    ::= ALIAS
248    #                   | properties block_content?
249    #                   | block_content
250    # flow_node     ::= ALIAS
251    #                   | properties flow_content?
252    #                   | flow_content
253    # properties    ::= TAG ANCHOR? | ANCHOR TAG?
254    # block_content     ::= block_collection | flow_collection | SCALAR
255    # flow_content      ::= flow_collection | SCALAR
256    # block_collection  ::= block_sequence | block_mapping
257    # flow_collection   ::= flow_sequence | flow_mapping
258
259    def parse_block_node(self):
260        return self.parse_node(block=True)
261
262    def parse_flow_node(self):
263        return self.parse_node()
264
265    def parse_block_node_or_indentless_sequence(self):
266        return self.parse_node(block=True, indentless_sequence=True)
267
268    def parse_node(self, block=False, indentless_sequence=False):
269        if self.check_token(AliasToken):
270            token = self.get_token()
271            event = AliasEvent(token.value, token.start_mark, token.end_mark)
272            self.state = self.states.pop()
273        else:
274            anchor = None
275            tag = None
276            start_mark = end_mark = tag_mark = None
277            if self.check_token(AnchorToken):
278                token = self.get_token()
279                start_mark = token.start_mark
280                end_mark = token.end_mark
281                anchor = token.value
282                if self.check_token(TagToken):
283                    token = self.get_token()
284                    tag_mark = token.start_mark
285                    end_mark = token.end_mark
286                    tag = token.value
287            elif self.check_token(TagToken):
288                token = self.get_token()
289                start_mark = tag_mark = token.start_mark
290                end_mark = token.end_mark
291                tag = token.value
292                if self.check_token(AnchorToken):
293                    token = self.get_token()
294                    end_mark = token.end_mark
295                    anchor = token.value
296            if tag is not None:
297                handle, suffix = tag
298                if handle is not None:
299                    if handle not in self.tag_handles:
300                        raise ParserError("while parsing a node", start_mark,
301                                "found undefined tag handle %r" % handle,
302                                tag_mark)
303                    tag = self.tag_handles[handle]+suffix
304                else:
305                    tag = suffix
306            #if tag == '!':
307            #    raise ParserError("while parsing a node", start_mark,
308            #            "found non-specific tag '!'", tag_mark,
309            #            "Please check 'http://pyyaml.org/wiki/YAMLNonSpecificTag' and share your opinion.")
310            if start_mark is None:
311                start_mark = end_mark = self.peek_token().start_mark
312            event = None
313            implicit = (tag is None or tag == '!')
314            if indentless_sequence and self.check_token(BlockEntryToken):
315                end_mark = self.peek_token().end_mark
316                event = SequenceStartEvent(anchor, tag, implicit,
317                        start_mark, end_mark)
318                self.state = self.parse_indentless_sequence_entry
319            else:
320                if self.check_token(ScalarToken):
321                    token = self.get_token()
322                    end_mark = token.end_mark
323                    if (token.plain and tag is None) or tag == '!':
324                        implicit = (True, False)
325                    elif tag is None:
326                        implicit = (False, True)
327                    else:
328                        implicit = (False, False)
329                    event = ScalarEvent(anchor, tag, implicit, token.value,
330                            start_mark, end_mark, style=token.style)
331                    self.state = self.states.pop()
332                elif self.check_token(FlowSequenceStartToken):
333                    end_mark = self.peek_token().end_mark
334                    event = SequenceStartEvent(anchor, tag, implicit,
335                            start_mark, end_mark, flow_style=True)
336                    self.state = self.parse_flow_sequence_first_entry
337                elif self.check_token(FlowMappingStartToken):
338                    end_mark = self.peek_token().end_mark
339                    event = MappingStartEvent(anchor, tag, implicit,
340                            start_mark, end_mark, flow_style=True)
341                    self.state = self.parse_flow_mapping_first_key
342                elif block and self.check_token(BlockSequenceStartToken):
343                    end_mark = self.peek_token().start_mark
344                    event = SequenceStartEvent(anchor, tag, implicit,
345                            start_mark, end_mark, flow_style=False)
346                    self.state = self.parse_block_sequence_first_entry
347                elif block and self.check_token(BlockMappingStartToken):
348                    end_mark = self.peek_token().start_mark
349                    event = MappingStartEvent(anchor, tag, implicit,
350                            start_mark, end_mark, flow_style=False)
351                    self.state = self.parse_block_mapping_first_key
352                elif anchor is not None or tag is not None:
353                    # Empty scalars are allowed even if a tag or an anchor is
354                    # specified.
355                    event = ScalarEvent(anchor, tag, (implicit, False), '',
356                            start_mark, end_mark)
357                    self.state = self.states.pop()
358                else:
359                    if block:
360                        node = 'block'
361                    else:
362                        node = 'flow'
363                    token = self.peek_token()
364                    raise ParserError("while parsing a %s node" % node, start_mark,
365                            "expected the node content, but found %r" % token.id,
366                            token.start_mark)
367        return event
368
369    # block_sequence ::= BLOCK-SEQUENCE-START (BLOCK-ENTRY block_node?)* BLOCK-END
370
371    def parse_block_sequence_first_entry(self):
372        token = self.get_token()
373        self.marks.append(token.start_mark)
374        return self.parse_block_sequence_entry()
375
376    def parse_block_sequence_entry(self):
377        if self.check_token(BlockEntryToken):
378            token = self.get_token()
379            if not self.check_token(BlockEntryToken, BlockEndToken):
380                self.states.append(self.parse_block_sequence_entry)
381                return self.parse_block_node()
382            else:
383                self.state = self.parse_block_sequence_entry
384                return self.process_empty_scalar(token.end_mark)
385        if not self.check_token(BlockEndToken):
386            token = self.peek_token()
387            raise ParserError("while parsing a block collection", self.marks[-1],
388                    "expected <block end>, but found %r" % token.id, token.start_mark)
389        token = self.get_token()
390        event = SequenceEndEvent(token.start_mark, token.end_mark)
391        self.state = self.states.pop()
392        self.marks.pop()
393        return event
394
395    # indentless_sequence ::= (BLOCK-ENTRY block_node?)+
396
397    def parse_indentless_sequence_entry(self):
398        if self.check_token(BlockEntryToken):
399            token = self.get_token()
400            if not self.check_token(BlockEntryToken,
401                    KeyToken, ValueToken, BlockEndToken):
402                self.states.append(self.parse_indentless_sequence_entry)
403                return self.parse_block_node()
404            else:
405                self.state = self.parse_indentless_sequence_entry
406                return self.process_empty_scalar(token.end_mark)
407        token = self.peek_token()
408        event = SequenceEndEvent(token.start_mark, token.start_mark)
409        self.state = self.states.pop()
410        return event
411
412    # block_mapping     ::= BLOCK-MAPPING_START
413    #                       ((KEY block_node_or_indentless_sequence?)?
414    #                       (VALUE block_node_or_indentless_sequence?)?)*
415    #                       BLOCK-END
416
417    def parse_block_mapping_first_key(self):
418        token = self.get_token()
419        self.marks.append(token.start_mark)
420        return self.parse_block_mapping_key()
421
422    def parse_block_mapping_key(self):
423        if self.check_token(KeyToken):
424            token = self.get_token()
425            if not self.check_token(KeyToken, ValueToken, BlockEndToken):
426                self.states.append(self.parse_block_mapping_value)
427                return self.parse_block_node_or_indentless_sequence()
428            else:
429                self.state = self.parse_block_mapping_value
430                return self.process_empty_scalar(token.end_mark)
431        if not self.check_token(BlockEndToken):
432            token = self.peek_token()
433            raise ParserError("while parsing a block mapping", self.marks[-1],
434                    "expected <block end>, but found %r" % token.id, token.start_mark)
435        token = self.get_token()
436        event = MappingEndEvent(token.start_mark, token.end_mark)
437        self.state = self.states.pop()
438        self.marks.pop()
439        return event
440
441    def parse_block_mapping_value(self):
442        if self.check_token(ValueToken):
443            token = self.get_token()
444            if not self.check_token(KeyToken, ValueToken, BlockEndToken):
445                self.states.append(self.parse_block_mapping_key)
446                return self.parse_block_node_or_indentless_sequence()
447            else:
448                self.state = self.parse_block_mapping_key
449                return self.process_empty_scalar(token.end_mark)
450        else:
451            self.state = self.parse_block_mapping_key
452            token = self.peek_token()
453            return self.process_empty_scalar(token.start_mark)
454
455    # flow_sequence     ::= FLOW-SEQUENCE-START
456    #                       (flow_sequence_entry FLOW-ENTRY)*
457    #                       flow_sequence_entry?
458    #                       FLOW-SEQUENCE-END
459    # flow_sequence_entry   ::= flow_node | KEY flow_node? (VALUE flow_node?)?
460    #
461    # Note that while production rules for both flow_sequence_entry and
462    # flow_mapping_entry are equal, their interpretations are different.
463    # For `flow_sequence_entry`, the part `KEY flow_node? (VALUE flow_node?)?`
464    # generate an inline mapping (set syntax).
465
466    def parse_flow_sequence_first_entry(self):
467        token = self.get_token()
468        self.marks.append(token.start_mark)
469        return self.parse_flow_sequence_entry(first=True)
470
471    def parse_flow_sequence_entry(self, first=False):
472        if not self.check_token(FlowSequenceEndToken):
473            if not first:
474                if self.check_token(FlowEntryToken):
475                    self.get_token()
476                else:
477                    token = self.peek_token()
478                    raise ParserError("while parsing a flow sequence", self.marks[-1],
479                            "expected ',' or ']', but got %r" % token.id, token.start_mark)
480           
481            if self.check_token(KeyToken):
482                token = self.peek_token()
483                event = MappingStartEvent(None, None, True,
484                        token.start_mark, token.end_mark,
485                        flow_style=True)
486                self.state = self.parse_flow_sequence_entry_mapping_key
487                return event
488            elif not self.check_token(FlowSequenceEndToken):
489                self.states.append(self.parse_flow_sequence_entry)
490                return self.parse_flow_node()
491        token = self.get_token()
492        event = SequenceEndEvent(token.start_mark, token.end_mark)
493        self.state = self.states.pop()
494        self.marks.pop()
495        return event
496
497    def parse_flow_sequence_entry_mapping_key(self):
498        token = self.get_token()
499        if not self.check_token(ValueToken,
500                FlowEntryToken, FlowSequenceEndToken):
501            self.states.append(self.parse_flow_sequence_entry_mapping_value)
502            return self.parse_flow_node()
503        else:
504            self.state = self.parse_flow_sequence_entry_mapping_value
505            return self.process_empty_scalar(token.end_mark)
506
507    def parse_flow_sequence_entry_mapping_value(self):
508        if self.check_token(ValueToken):
509            token = self.get_token()
510            if not self.check_token(FlowEntryToken, FlowSequenceEndToken):
511                self.states.append(self.parse_flow_sequence_entry_mapping_end)
512                return self.parse_flow_node()
513            else:
514                self.state = self.parse_flow_sequence_entry_mapping_end
515                return self.process_empty_scalar(token.end_mark)
516        else:
517            self.state = self.parse_flow_sequence_entry_mapping_end
518            token = self.peek_token()
519            return self.process_empty_scalar(token.start_mark)
520
521    def parse_flow_sequence_entry_mapping_end(self):
522        self.state = self.parse_flow_sequence_entry
523        token = self.peek_token()
524        return MappingEndEvent(token.start_mark, token.start_mark)
525
526    # flow_mapping  ::= FLOW-MAPPING-START
527    #                   (flow_mapping_entry FLOW-ENTRY)*
528    #                   flow_mapping_entry?
529    #                   FLOW-MAPPING-END
530    # flow_mapping_entry    ::= flow_node | KEY flow_node? (VALUE flow_node?)?
531
532    def parse_flow_mapping_first_key(self):
533        token = self.get_token()
534        self.marks.append(token.start_mark)
535        return self.parse_flow_mapping_key(first=True)
536
537    def parse_flow_mapping_key(self, first=False):
538        if not self.check_token(FlowMappingEndToken):
539            if not first:
540                if self.check_token(FlowEntryToken):
541                    self.get_token()
542                else:
543                    token = self.peek_token()
544                    raise ParserError("while parsing a flow mapping", self.marks[-1],
545                            "expected ',' or '}', but got %r" % token.id, token.start_mark)
546            if self.check_token(KeyToken):
547                token = self.get_token()
548                if not self.check_token(ValueToken,
549                        FlowEntryToken, FlowMappingEndToken):
550                    self.states.append(self.parse_flow_mapping_value)
551                    return self.parse_flow_node()
552                else:
553                    self.state = self.parse_flow_mapping_value
554                    return self.process_empty_scalar(token.end_mark)
555            elif not self.check_token(FlowMappingEndToken):
556                self.states.append(self.parse_flow_mapping_empty_value)
557                return self.parse_flow_node()
558        token = self.get_token()
559        event = MappingEndEvent(token.start_mark, token.end_mark)
560        self.state = self.states.pop()
561        self.marks.pop()
562        return event
563
564    def parse_flow_mapping_value(self):
565        if self.check_token(ValueToken):
566            token = self.get_token()
567            if not self.check_token(FlowEntryToken, FlowMappingEndToken):
568                self.states.append(self.parse_flow_mapping_key)
569                return self.parse_flow_node()
570            else:
571                self.state = self.parse_flow_mapping_key
572                return self.process_empty_scalar(token.end_mark)
573        else:
574            self.state = self.parse_flow_mapping_key
575            token = self.peek_token()
576            return self.process_empty_scalar(token.start_mark)
577
578    def parse_flow_mapping_empty_value(self):
579        self.state = self.parse_flow_mapping_key
580        return self.process_empty_scalar(self.peek_token().start_mark)
581
582    def process_empty_scalar(self, mark):
583        return ScalarEvent(None, None, (True, False), '', mark, mark)
584
Note: See TracBrowser for help on using the repository browser.