source: CMIP6dreq/trunk/dreqPy/misc_utils.py @ 1271

Subversion URL: http://proj.badc.rl.ac.uk/svn/exarch/CMIP6dreq/trunk/dreqPy/misc_utils.py@1292
Revision 1271, 12.0 KB checked in by mjuckes, 13 months ago (diff)

fixed python 3 compatibility issue regarding obsolete use of string module

Line 
1import collections, os, sys
2import logging
3import time
4import difflib 
5
6python2 = True
7if sys.version_info[0] == 3:
8  python2 = False
9
10def vfmt( x ):
11            if x < 1.e9:
12              s = '%sM' % int( x*1.e-6 )
13            elif x < 1.e12:
14              s = '%sG' % int( x*1.e-9 )
15            elif x < 1.e13:
16              s = '%3.1fT' % ( x*1.e-12 )
17            elif x < 1.e15:
18              s = '%3iT' % int( x*1.e-12 )
19            elif x < 1.e18:
20              s = '%3iP' % int( x*1.e-15 )
21            else:
22              s = '{:,.2f}'.format( x*1.e-9 )
23            return s
24
25
26class mdiff(object):
27  """Compare a string against a list, using the difflib library, with an extension to look at case insensitive matches.
28     Lower case matches are weighted by 90% .. i.e. an exact match scores 1, an exact match after conversion to lower case score 0.90"""
29
30  def __init__(self,nmax=3,cut=0.3):
31    self.n = nmax
32    self.c = cut
33
34  def diff(self,s,targ):
35    if s in targ:
36      return (True, None)
37    targl = collections.defaultdict( set )
38    for x in targ:
39      targl[ x.lower() ].add( x )
40
41    l1 = difflib.get_close_matches(s,targ,self.n,self.c)
42    l1s = difflib.get_close_matches(s.lower(),targl,self.n,self.c)
43    if len( l1 ) == 0 and len(l1s) == 0:
44      return (False, 0)
45    cc = collections.defaultdict( set )
46    for k in l1:
47      r = difflib.SequenceMatcher(None, s, k ).ratio()
48      cc[r].add( k )
49
50    for k in l1s:
51      r = difflib.SequenceMatcher(None, s.lower(), k ).ratio()
52      r1 = 0.90*r
53      for x in targl[k]:
54        cc[r1].add( x )
55    ks = sorted( cc.keys() )
56    ks.reverse()
57    ll = []
58    for k in  ks:
59      ll.append( (k,tuple( cc[k] )) )
60    return (False, len(ll), ll )
61
62  def prntprep(self,i,tt):
63          oo = []
64          if tt[1] == 0:
65            oo.append ( 'NOT FOUND: %s' % i )
66          else:
67            msg = []
68            for ix in tt[2]:
69              msg.append( '%s [%4.1f]' % (','.join( ix[1] ),ix[0]) )
70
71            oo.append( '----------------------------------------' )
72            if tt[1] == 1 and len(tt[2][0][1]) == 1:
73              oo.append ( 'NOT FOUND: %s:  SUGGESTION: %s' % (i,msg[0]) )
74            else:
75              oo.append ( 'NOT FOUND: %s:  SUGGESTIONS: %s' % (i,'; '.join( msg ) ) )
76            oo.append( '----------------------------------------' )
77          return oo
78         
79def setMlab( m ):
80      if type(m) == type(''):
81        if m == '_all_':
82          mlab = 'TOTAL'
83        else:
84          mlab = m
85      else:
86        ll = sorted( [x.lower() for x in list(m)] )
87        if len(ll) == 1:
88          mlab = list(m)[0]
89        else:
90          mlab='.'.join( [ x[:2].lower() for x in ll ] )
91      return mlab
92
93class dreqLog(object):
94  def __init__(self, dir='.'):
95    self.tstring2 = '%4.4i%2.2i%2.2i' % time.gmtime()[0:3]
96    self.logdir = dir
97    if not os.path.isdir( dir ):
98      os.mkdir(dir )
99      print ( 'dreqLog: making a new directory fr log files: %s' % dir )
100
101  def getLog(self,name,dir=None):
102    if dir == None:
103      dir = self.logdir
104    testLogFile = '%s/dreq_%s_%s.txt' % (dir,name,self.tstring2)
105    log = logging.getLogger(testLogFile)
106    fHdlr = logging.FileHandler(testLogFile,mode='w')
107    fileFormatter = logging.Formatter('%(message)s')
108    fHdlr.setFormatter(fileFormatter)
109    log.addHandler(fHdlr)
110    log.setLevel(logging.INFO)
111    return log
112
113def rankCMORvars(dq):
114  """Unused in 01.beta.32"""
115  cc = collections.defaultdict( set )
116  ee = {}
117  kd = 0
118  ff = {}
119  for ic in dq.coll['CMORvar'].items:
120    s = set()
121    r = set()
122    i = dq.inx.uid[ ic.vid ]
123    if i._h.label != 'remarks':
124      kk = '%s.%s' % (ic.mipTable, ic.label)
125      if i.title != ic.title:
126        print ( '%s: %s, %s' % (kk, ic.title, i.title) )
127        kd += 1
128      if ic.modeling_realm.find( ' ' ) != -1:
129         for x in ic.modeling_realm.split( ):
130            r.add( x.strip( ) )
131      elif ic.modeling_realm not in ['__unset__','']:
132          r.add( ic.modeling_realm )
133      if 'requestVar' in dq.inx.iref_by_sect[ic.uid].a:
134          for x in dq.inx.iref_by_sect[ic.uid].a['requestVar']:
135            s.add(x)
136
137    if len(s) > 0:
138      ee[kk] = r
139      ff[kk] = i
140      ss = sorted( [dq.inx.uid[x].priority for x in s] )
141      if len(ss) > 1:
142        kk = '%s-%s' % (ss[0],ss[1])
143        sn = dq.inx.uid[i.sn]
144        if sn._h.label == 'remarks':
145          kk += 'x'
146        cc[kk].add( i.label )
147    else:
148      print ( '%s not used' % i.label )
149  print ( kd )
150  return (cc,ee,ff)
151
152def rankVars(dq):
153  """Find the maximal priorities at which variables are requested ... to prioritise checking .. called by sm1"""
154  cc = collections.defaultdict( set )
155  ee = {}
156  ff = {}
157  for i in dq.coll['var'].items:
158    s = set()
159    r = set()
160    if 'CMORvar' in  dq.inx.iref_by_sect[i.uid].a:
161      for cmv in dq.inx.iref_by_sect[i.uid].a['CMORvar']:
162        ic = dq.inx.uid[cmv]
163        if ic.modeling_realm.find( ' ' ) != -1:
164          for x in ic.modeling_realm.split( ):
165            r.add( x.strip( ) )
166        elif ic.modeling_realm not in ['__unset__','']:
167          r.add( ic.modeling_realm )
168        if 'requestVar' in dq.inx.iref_by_sect[cmv].a:
169          for x in dq.inx.iref_by_sect[cmv].a['requestVar']:
170            s.add(x)
171
172    if len(s) > 0:
173      ee[i.label] = r
174      ff[i.label] = i
175      ss = sorted( [dq.inx.uid[x].priority for x in s] )
176      if len(ss) > 0:
177        kk = '%s' % (ss[0])
178        sn = dq.inx.uid[i.sn]
179        if sn._h.label == 'remarks':
180          kk += 'x'
181        cc[kk].add( i.label )
182    else:
183      print ( '%s not used' % i.label )
184  return (cc,ee,ff)
185
186def getExptSum(dq,mip,rqi):
187  """Return a dictionary of experiment uids keyed on MIPs, from list of request items (used in makeTables)"""
188  cc = collections.defaultdict( set )
189  for i in rqi:
190    es = dq.inx.uid[i.esid]
191    if es._h.label == 'experiment':
192      cc[es.mip].add(es.uid)
193    elif es._h.label in ['exptgroup','mip']:
194      if 'experiment' in dq.inx.iref_by_sect[i.esid].a:
195        for id in dq.inx.iref_by_sect[i.esid].a['experiment']:
196          ex = dq.inx.uid[id]
197          cc[ex.mip].add(id)
198
199  return cc
200
201class rqiSet(object):
202  """Unused in 01.beta.32"""
203  npy = {'1hrClimMon':24*12, 'daily':365, u'Annual':1, u'fx':0.01, u'1hr':24*365, u'3hr':8*365,
204       u'monClim':12, u'Timestep':100, u'6hr':4*365, u'day':365, u'1day':365, u'mon':12, u'yr':1,
205       u'1mon':12, 'month':12, 'year':1, 'monthly':12, 'hr':24*365, 'other':24*365,
206        'subhr':24*365, 'Day':365, '6h':4*365, '3 hourly':8*365, '':1, 'dec':0.1, 
207        '1hrCM':24*12, '1hrPt':24*365, '3hrPt':8*365, '6hrPt':4*365, 'monPt':12, 'monC':12, 'subhrPt':24*365, 'yrPt':1 }
208  def __init__(self,dq,rqi=None,byMip=None):
209    self.dq = dq
210    if rqi != None:
211      assert byMip == None, 'ERROR.rqiSet.001: Cannot have rqi and byMip both assigned'
212      self.rqi = rqi
213    elif byMip != None:
214      self.rqi = [i for i in dq.coll['requestItem'].items if i.mip == byMip]
215    else:
216      self.rqi = dq.coll['requestItem'].items
217
218    self.verbose = False
219    if self.verbose:
220      print ( 'INFO.rqiSet.00001: initialised, len(rqi) = %s' % len(self.rqi) )
221
222  def run(self,vsz,rqi=None,pmax=1,tiermax=1,plist=False):
223    self.exptVarSum(pmax=pmax,plist=plist,tiermax=tiermax)
224    self.exptVarVol(vsz,plist=plist,tiermax=tiermax)
225
226  def getVarList(self,rqi,pmax=1):
227    cc = collections.defaultdict( list )
228    for i in rqi:
229      rl = self.dq.inx.uid[i.rlid]
230      if 'requestVar' in self.dq.inx.iref_by_sect[rl.refid].a:
231        for id in self.dq.inx.iref_by_sect[rl.refid].a['requestVar']:
232          rq = self.dq.inx.uid[id]
233          if rq.priority <= pmax:
234            cc[rq.vid].append( (i.ny, i.nymax, i.nenmax,rl.grid,i.uid) )
235    ee = {}
236    for vid in cc.keys():
237      if len( cc[vid] ) == 1:
238        ee[vid] = cc[vid][0]
239      else:
240        ll = [x[0] for x in cc[vid] if x[0] > 0]
241        if len(ll) == 0:
242          ny = -1
243        else:
244          ny = max(ll)
245        ll = [x[1] for x in cc[vid] if x[1] > 0]
246        if len(ll) == 0:
247          nymax = -1
248        else:
249          nymax = max(ll)
250        ll = [x[2] for x in cc[vid] if x[2] > 0]
251        if len(ll) == 0:
252          nenmax = -1
253        else:
254          nenmax = max(ll)
255        ss = set( [x[3] for x in cc[vid]] )
256        rqil =  [x[4] for x in cc[vid] ] 
257        ee[vid] = (ny,nymax,nenmax,list(ss),rqil )
258
259    return ee
260
261  def exptVarSum(self,exptsOk=False,pmax=1,plist=True,tiermax=1):
262    if not exptsOk:
263      self.exptByMip(tiermax=tiermax)
264
265    self.exvars = {}
266    for m in sorted( self.expts.keys() ):
267      for i in self.expts[m]:
268        rqi = [self.dq.inx.uid[x] for x in self.exrqi[i] ]
269
270## obtain dictionary, keyed om CMORvar uid, of variables requested
271        ee = self.getVarList( rqi, pmax=pmax )
272        ex = self.dq.inx.uid[i]
273        if plist:
274          print ( 'exptVarSum: %s, %s, %s (%s)' % (m,ex.label,len( ee.keys() ), len( rqi)) )
275        self.exvars[i] = ee
276
277  def exptVarVol(self,vsz,plist=True,tiermax=1):
278    nttt = 0
279##
280## exvarvol is a dictionary of dictionaries. key 1: experiment uid.
281##                                           key 2: cmor variable uid
282##                               content: 5-tuple: ntot: floats requested
283##                                                    s: floats per time instant
284##                                                  npy: number of outputs per year
285##                                                   ny: number of years of output
286##                                                  nen: number of ensembles
287####################################################################################
288    self.exvarvol = {}
289    for m in sorted( self.expts.keys() ):
290      for i in self.expts[m]:
291        ee = self.exvars[i]
292        ex = self.dq.inx.uid[i]
293##
294## experiment has list of ensemble size (ensz) against tier (tier)
295## max ensz st. tier <= tiermax
296##
297        l = [x for x in ex.tier if x <= tiermax]
298        exensz = ex.ensz[len(l)-1]
299
300        cmvd = {}
301        nn = 0
302        nerr = 0
303        for k in ee:
304          cmv = self.dq.inx.uid[k]
305          if cmv._h.label == 'CMORvar':
306            s = vsz[cmv.stid]
307            npy = self.npy[cmv.frequency]
308            nyi = ee[k][0]
309            if ex.yps < 0:
310              ny = nyi
311            else:
312              ny = min( [ex.yps,nyi] )
313            ne = ee[k][2]
314            if ne < 0:
315              nen = exensz
316            else:
317              nen = min( [ne,exensz] )
318            ntot = s*npy*ny*nen
319##
320## need to do more on various options here
321##
322            cmvd[k] = (ntot,s,npy,ny,nen)
323            nn += ntot
324          else:
325            nerr += 1
326        if plist:
327          print ( 'exptVarVol: %s, %s, %s[%s]: %9.4fTb' % (m,ex.label,len( ee.keys() ), nerr, nn*2.*1.e-12) )
328        nttt += nn
329        self.exvarvol[i] = cmvd
330
331    if plist:
332      print ( 'TOTAL: %9.3fTb' % (nttt*2*1.e-12) )
333       
334  def exptByMip(self,tiermax=1):
335    cc = collections.defaultdict( list )
336    for i in self.rqi:
337      cc[i.mip].append( i )
338
339    ks = sorted( list( cc.keys() ) )
340    for k in ks:
341      self.getExptByThisMip(k,cc[k],tiermax=tiermax)
342
343  def getExptByThisMip(self,mip,rqi,tiermax=1):
344    self.expts = collections.defaultdict( set )
345    self.exrqi = collections.defaultdict( set )
346    for i in rqi:
347      es = self.dq.inx.uid[i.esid]
348
349## check to see if "treset" override is present and below tiermax
350      tover = False
351      if 'treset' in i.__dict__ and i.treset != '__unset__':
352        tover = i.treset <= tiermax
353       
354      if es._h.label == 'experiment':
355        if es.tier[0] <= tiermax or tover:
356          self.expts[es.mip].add(es.uid)
357          self.exrqi[es.uid].add( i.uid )
358      elif es._h.label in ['exptgroup','mip']:
359        if 'experiment' in self.dq.inx.iref_by_sect[i.esid].a:
360          for id in self.dq.inx.iref_by_sect[i.esid].a['experiment']:
361            ex = self.dq.inx.uid[id]
362            if ex.tier[0] <= tiermax or tover:
363              self.expts[ex.mip].add(id)
364              self.exrqi[id].add( i.uid )
365    ks = sorted( list( self.expts.keys() ) )
366    xx = ', '.join( ['%s: %s' % (k,len(self.expts[k])) for k in ks] )
367    print ( '%s:: %s' % (mip,xx) )
368
369class c1(object):
370  def __init__(self):
371    self.a = collections.defaultdict( int )
Note: See TracBrowser for help on using the repository browser.