(file) Return to String.cpp CVS log (file) (dir) Up to [Pegasus] / pegasus / src / Pegasus / Common

Diff for /pegasus/src/Pegasus/Common/String.cpp between version 1.87 and 1.109

version 1.87, 2003/11/20 23:49:55 version 1.109, 2005/05/18 20:34:36
Line 1 
Line 1 
 //%2003////////////////////////////////////////////////////////////////////////  //%2005////////////////////////////////////////////////////////////////////////
 // //
 // Copyright (c) 2000, 2001, 2002  BMC Software, Hewlett-Packard Development  // Copyright (c) 2000, 2001, 2002 BMC Software; Hewlett-Packard Development
 // Company, L. P., IBM Corp., The Open Group, Tivoli Systems.  // Company, L.P.; IBM Corp.; The Open Group; Tivoli Systems.
 // Copyright (c) 2003 BMC Software; Hewlett-Packard Development Company, L. P.; // Copyright (c) 2003 BMC Software; Hewlett-Packard Development Company, L. P.;
 // IBM Corp.; EMC Corporation, The Open Group. // IBM Corp.; EMC Corporation, The Open Group.
   // Copyright (c) 2004 BMC Software; Hewlett-Packard Development Company, L.P.;
   // IBM Corp.; EMC Corporation; VERITAS Software Corporation; The Open Group.
   // Copyright (c) 2005 Hewlett-Packard Development Company, L.P.; IBM Corp.;
   // EMC Corporation; VERITAS Software Corporation; The Open Group.
 // //
 // Permission is hereby granted, free of charge, to any person obtaining a copy // Permission is hereby granted, free of charge, to any person obtaining a copy
 // of this software and associated documentation files (the "Software"), to // of this software and associated documentation files (the "Software"), to
Line 26 
Line 30 
 // Author: Mike Brasher (mbrasher@bmc.com) // Author: Mike Brasher (mbrasher@bmc.com)
 // //
 // Modified By: Roger Kumpf, Hewlett-Packard Company (roger_kumpf@hp.com) // Modified By: Roger Kumpf, Hewlett-Packard Company (roger_kumpf@hp.com)
   //              Josephine Eskaline Joyce, IBM (jojustin@in.ibm.com) for Bug#3297
 // //
 //%///////////////////////////////////////////////////////////////////////////// //%/////////////////////////////////////////////////////////////////////////////
  
Line 34 
Line 39 
 #include <cstring> #include <cstring>
 #include "String.h" #include "String.h"
 #include "Array.h" #include "Array.h"
   #include "AutoPtr.h"
 #include "InternalException.h" #include "InternalException.h"
 #include <iostream> #include <iostream>
 #include <fstream> #include <fstream>
 #ifdef PEGASUS_USE_DEPRECATED_INTERFACES  #include <Pegasus/Common/CommonUTF.h>
 #include "System.h"  // for strcasecmp  
 #endif  
  
 #include "CommonUTF.h" #include "CommonUTF.h"
  
 #ifdef PEGASUS_HAS_ICU #ifdef PEGASUS_HAS_ICU
 #include <unicode/unistr.h>  #include <unicode/ustring.h>
   #include <unicode/uchar.h>
 #endif #endif
  
 PEGASUS_USING_STD; PEGASUS_USING_STD;
Line 117 
Line 122 
  
 const String String::EMPTY = String(); const String String::EMPTY = String();
  
 Uint32 _strnlen(const char* str, Uint32 n)  inline Uint32 _StrLen(const Char16* str)
 { {
     if (!str)     if (!str)
         throw NullPointer();         throw NullPointer();
  
     for (Uint32 i=0; i<n; i++)      Uint32 n = 0;
     {  
         if (!*str)      while (*str++)
         {          n++;
             return i;  
         }  
     }  
  
     return n;     return n;
 } }
  
 Uint32 _strnlen(const Char16* str, Uint32 n)  //
   // Converts a utf-8 char buffer to utf-16 and appends the utf-16 to the Array.
   // n is the length of the input char *, if stopAtTerm is 0
   // A terminator character is appended to the end.
   // Note that each input char is converted individually, which gives
   // the fastest performance.
   //
   void _convertAndAppend(const char* str, Array<Char16>& c16a, Uint32 n, Uint8 stopAtTerm)
 { {
     if (!str)      Uint32 i = 0;
         throw NullPointer();      while ((stopAtTerm && *str) || (!stopAtTerm && i < n))
   
     for (Uint32 i=0; i<n; i++)  
     {     {
         if (!*str)          if (*(Uint8*)str <= 0x7f)
         {         {
             return i;              // Current byte sequence is in the us-ascii range.
               c16a.append(Uint8(*str++));
         }         }
     }          else
   
     return n;  
 }  
   
 inline Uint32 _StrLen(const char* str)  
 { {
     if (!str)              //
         throw NullPointer();              // Current byte sequence is not in the us-ascii range.
               //
  
     return strlen(str);              // Check if the byte sequence is valid utf-8, and if so,
               // call the converter to utf-16
               Uint16 tgt[3];
               tgt[1] = 0;
               Uint8 c = UTF_8_COUNT_TRAIL_BYTES(*str);
               if ( (!stopAtTerm && i + c >= n) ||
                    (!isValid_U8((const Uint8 *)str, c+1)) )
               {
                   // Note about error conditions.
                   // It is possible that the last utf-8 char before the
                   // end of input string extends past the end of the input string.
                   // This is caught in both cases -
                   // If counting up to n, then the test above catches it.
                   // If converting until terminator found, then a terminator
                   // in the middle of a multi-byte utf-8 char is invalid.
                   MessageLoaderParms parms("Common.String.BAD_UTF8",
                     "The byte sequence starting at index $0 is not valid UTF-8 encoding.",
                     i);
                   throw Exception(parms);
 } }
               else
 inline Uint32 _StrLen(const Char16* str)  
 { {
     if (!str)                  //  str is incremented by this call to the start of the next char
         throw NullPointer();                  Uint16 * tgtBuf = tgt;
                   UTF8toUTF16((const Uint8 **)&str, (Uint8 *)&str[c+1], &tgtBuf,  &tgtBuf[2]);
                   c16a.append(tgt[0]);
                   if (tgt[1])
                   {
                       // Its a utf-16 surrogate pair (uses 2 Char16's)
                       c16a.append(tgt[1]);
                   }
  
     Uint32 n = 0;                  // bump by the trailing byte count
                   i += c;
               }
           }
  
     while (*str++)          i++;
         n++;      }  // end while
  
     return n;      c16a.append('\0');
 } }
  
 class StringRep class StringRep
Line 212 
Line 243 
  
 String::String(const Char16* str) String::String(const Char16* str)
 { {
       if ( str == 0 )
       {
           throw NullPointer();
       }
   
     _rep = new StringRep(str);     _rep = new StringRep(str);
 } }
  
 String::String(const Char16* str, Uint32 n) String::String(const Char16* str, Uint32 n)
 { {
       if ( str == 0 )
       {
           throw NullPointer();
       }
   
     _rep = new StringRep;     _rep = new StringRep;
     assign(str, n);     assign(str, n);
 } }
  
 String::String(const char* str) String::String(const char* str)
 { {
     _rep = new StringRep;      if ( str == 0 )
     assign(str);      {
           throw NullPointer();
 } }
  
 String::String(const char* str, const char* utfFlag)  
 {  
     _rep = new StringRep;     _rep = new StringRep;
       AutoPtr<StringRep> tempRep(_rep);
       // An exception can be thrown, so use a temp AutoPtr.
       _convertAndAppend(str, _rep->c16a, 0, 1);
       tempRep.release();
   }
  
     if(!memcmp(utfFlag,STRING_FLAG_UTF8,sizeof(STRING_FLAG_UTF8)))  String::String(const char* str, Uint32 n)
     {     {
         assignUTF8(str);      if ( str == 0 )
     }  
     else  
     {     {
         assign(str);          throw NullPointer();
     }  
 } }
  
 String::String(const char* str, Uint32 n)  
 {  
     _rep = new StringRep;     _rep = new StringRep;
     assign(str, n);      AutoPtr<StringRep> tempRep(_rep);
       // An exception can be thrown, so use a temp AutoPtr.
       _convertAndAppend(str, _rep->c16a, n, 0);
       tempRep.release();
 } }
  
 String::~String() String::~String()
Line 269 
Line 312 
  
 String& String::assign(const Char16* str) String& String::assign(const Char16* str)
 { {
       if ( str == 0 )
       {
           throw NullPointer();
       }
   
     _rep->c16a.clear();     _rep->c16a.clear();
     _rep->c16a.append(str, _StrLen(str) + 1);     _rep->c16a.append(str, _StrLen(str) + 1);
     return *this;     return *this;
Line 276 
Line 324 
  
 String& String::assign(const Char16* str, Uint32 n) String& String::assign(const Char16* str, Uint32 n)
 { {
       if ( str == 0 )
       {
           throw NullPointer();
       }
   
     _rep->c16a.clear();     _rep->c16a.clear();
     Uint32 m = _strnlen(str, n);      _rep->c16a.append(str, n);
     _rep->c16a.append(str, m);  
     _rep->c16a.append('\0');     _rep->c16a.append('\0');
     return *this;     return *this;
 } }
  
 String& String::assign(const char* str) String& String::assign(const char* str)
 { {
     _rep->c16a.clear();      if ( str == 0 )
       {
     Uint32 n = strlen(str) + 1;          throw NullPointer();
     _rep->c16a.reserveCapacity(n);      }
   
     while (n--)  
         _rep->c16a.append(Uint8(*str++));  
  
       _rep->c16a.clear();
       _convertAndAppend(str, _rep->c16a, 0, 1);
     return *this;     return *this;
 } }
  
 String& String::assign(const char* str, Uint32 n) String& String::assign(const char* str, Uint32 n)
 { {
     _rep->c16a.clear();      if ( str == 0 )
       {
     Uint32 _n = _strnlen(str, n);          throw NullPointer();
     _rep->c16a.reserveCapacity(_n + 1);      }
   
     while (_n--)  
         _rep->c16a.append(Uint8(*str++));  
   
     _rep->c16a.append('\0');  
  
       _rep->c16a.clear();
       _convertAndAppend(str, _rep->c16a, n, 0);
     return *this;     return *this;
 } }
  
Line 324 
Line 372 
  
 Uint32 String::size() const Uint32 String::size() const
 { {
   //#if defined (PEGASUS_OS_VMS)
     //
     // This prevents returning a minus number.
     //
     // Seems as though the first time through
     //  the XML parser something doesn't get
     //  initialized and there is no check for
     //  a negative number in the parser!
     //
   //  Uint32 foo;
   //  foo = _rep->c16a.size();
   //  if (foo == 0)
   //  {
   //    return 0;
   //  }
   //  else
   //  {
   //    return (foo -1);
   //  }
   //#else
     return _rep->c16a.size() - 1;     return _rep->c16a.size() - 1;
   //#endif
 } }
  
 const Char16* String::getChar16Data() const const Char16* String::getChar16Data() const
Line 332 
Line 401 
     return _rep->c16a.getData();     return _rep->c16a.getData();
 } }
  
 CString String::getCString() const  
 {  
     Uint32 n = size() + 1;  
     char* str = new char[n];  
     char* p = str;  
     const Char16* q = getChar16Data();  
   
     for (Uint32 i = 0; i < n; i++)  
     {  
         Uint16 c = *q++;  
         *p++ = char(c);  
   
         //if (c & 0xff00)  
         //    truncatedCharacters = true;  
     }  
   
     return CString(str);  
 }  
   
 Char16& String::operator[](Uint32 index) Char16& String::operator[](Uint32 index)
 { {
     if (index > size())     if (index > size())
Line 375 
Line 425 
  
 String& String::append(const Char16* str, Uint32 n) String& String::append(const Char16* str, Uint32 n)
 { {
     Uint32 m = _strnlen(str, n);       if (str == 0)
     _rep->c16a.reserveCapacity(_rep->c16a.size() + m);       {
            throw NullPointer();
        }
   
       _rep->c16a.reserveCapacity(_rep->c16a.size() + n);
     _rep->c16a.remove(_rep->c16a.size() - 1);     _rep->c16a.remove(_rep->c16a.size() - 1);
     _rep->c16a.append(str, m);      _rep->c16a.append(str, n);
     _rep->c16a.append('\0');     _rep->c16a.append('\0');
     return *this;     return *this;
 } }
Line 409 
Line 463 
  
         return String(getChar16Data() + index, length);         return String(getChar16Data() + index, length);
     }     }
     else  
         return String();         return String();
 } }
  
Line 464 
Line 518 
             Uint32 i = 1;             Uint32 i = 1;
             for (; i < subStrLen; i++)             for (; i < subStrLen; i++)
                 if (*pStr++ != *p++ )                 if (*pStr++ != *p++ )
                     {pStr--; break;} // break from loop                      {pStr-=i; break;} // break from loop
             if (i == subStrLen)             if (i == subStrLen)
                 return loc;                 return loc;
         }         }
Line 486 
Line 540 
     return PEG_NOT_FOUND;     return PEG_NOT_FOUND;
 } }
  
 // ATTN-RK-P3-20020509: Define case-sensitivity for non-English characters  
 // ATTN-CEC-20030913: ICU code added, but uses the server's locale.  Look at adding  
 // a toLower( ) with Locale parameter - like ICU's toLower( )  
 void String::toLower() void String::toLower()
 { {
 #ifdef PEGASUS_HAS_ICU #ifdef PEGASUS_HAS_ICU
     UnicodeString UniStr((const UChar *)_rep->c16a.getData());      if (InitializeICU::initICUSuccessful())
     UniStr.toLower();      {
     UniStr.append((UChar)'\0');          // This will do a locale-insensitive, but context-sensitive convert.
           // Context-sensitive prevents any optimizations that try to
           // convert just the ascii before calling ICU.
           // The string may shrink or expand after the convert.
  
     assign((Char16*)UniStr.getBuffer());          int32_t sz = size();
 #else          UChar* destbuf = new UChar[sz + 1];
           const UChar* srcbuf = (const UChar *)getChar16Data();
           UErrorCode err = U_ZERO_ERROR;
   
           int32_t needed = u_strToLower(destbuf, sz + 1 , srcbuf, sz, NULL, &err);
           if (err == U_BUFFER_OVERFLOW_ERROR)
           {
             delete [] destbuf;
             destbuf = new UChar[needed + 1];
             err = U_ZERO_ERROR;
             u_strToLower(destbuf, needed + 1 , srcbuf, sz, NULL, &err);
           }
           if (U_FAILURE(err))
           {
               delete [] destbuf;
               throw Exception(u_errorName(err));
           }
   
           if (needed == sz)
           {
               Char16* from = (Char16*)destbuf;
               for (Char16* to = &_rep->c16a[0]; *to; to++, from++)
               {
                 *to = *from;
               }
           }
           else
           {
               assign((Char16 *)destbuf, needed);
           }
   
           delete [] destbuf;
       }
       else
   #endif
       {
     for (Char16* p = &_rep->c16a[0]; *p; p++)     for (Char16* p = &_rep->c16a[0]; *p; p++)
     {     {
         if (*p <= PEGASUS_MAX_PRINTABLE_CHAR)         if (*p <= PEGASUS_MAX_PRINTABLE_CHAR)
             *p = tolower(*p);             *p = tolower(*p);
     }     }
       }
   }
   
   void String::toUpper()
   {
   #ifdef PEGASUS_HAS_ICU
       if (InitializeICU::initICUSuccessful())
       {
           // This will do a locale-insensitive, but context-sensitive convert.
           // Context-sensitive prevents any optimizations that try to
           // convert just the ascii before calling ICU.
           // The string may shrink or expand after the convert.
   
           int32_t sz = size();
           UChar* destbuf = new UChar[sz + 1];
           const UChar* srcbuf = (const UChar *)getChar16Data();
           UErrorCode err = U_ZERO_ERROR;
   
           int32_t needed = u_strToUpper(destbuf, sz + 1 , srcbuf, sz, NULL, &err);
           if (err == U_BUFFER_OVERFLOW_ERROR)
           {
             delete [] destbuf;
             destbuf = new UChar[needed + 1];
             err = U_ZERO_ERROR;
             u_strToUpper(destbuf, needed + 1 , srcbuf, sz, NULL, &err);
           }
           if (U_FAILURE(err))
           {
               delete [] destbuf;
               throw Exception(u_errorName(err));
           }
   
           if (needed == sz)
           {
               Char16* from = (Char16*)destbuf;
               for (Char16* to = &_rep->c16a[0]; *to; to++, from++)
               {
                 *to = *from;
               }
           }
           else
           {
               assign((Char16 *)destbuf, needed);
           }
   
           delete [] destbuf;
       }
       else
 #endif #endif
       {
           for (Char16* p = &_rep->c16a[0]; *p; p++)
           {
               if (*p <= PEGASUS_MAX_PRINTABLE_CHAR)
                   *p = toupper(*p);
           }
       }
 } }
  
 int String::compare(const String& s1, const String& s2, Uint32 n) int String::compare(const String& s1, const String& s2, Uint32 n)
Line 546 
Line 690 
 int String::compareNoCase(const String& s1, const String& s2) int String::compareNoCase(const String& s1, const String& s2)
 { {
 #ifdef PEGASUS_HAS_ICU #ifdef PEGASUS_HAS_ICU
     UnicodeString UniStr1((const UChar *)s1.getChar16Data(), (int32_t)s1.size());      if (InitializeICU::initICUSuccessful())
     UnicodeString UniStr2((const UChar *)s2.getChar16Data(), (int32_t)s2.size());      {
     UniStr1.toLower();          return  u_strcasecmp((const UChar*)s1.getChar16Data(),
     UniStr2.toLower();                               (const UChar*)s2.getChar16Data(),
     return (UniStr2.compare(UniStr1));                               U_FOLD_CASE_DEFAULT);
 #else      }
   #endif
     const Char16* _s1 = s1.getChar16Data();     const Char16* _s1 = s1.getChar16Data();
     const Char16* _s2 = s2.getChar16Data();     const Char16* _s2 = s2.getChar16Data();
  
Line 579 
Line 724 
         return 1;         return 1;
  
     return 0;     return 0;
 #endif  
 } }
  
 Boolean String::equal(const String& str1, const String& str2) Boolean String::equal(const String& str1, const String& str2)
Line 590 
Line 734 
 Boolean String::equalNoCase(const String& str1, const String& str2) Boolean String::equalNoCase(const String& str1, const String& str2)
 { {
 #ifdef PEGASUS_HAS_ICU #ifdef PEGASUS_HAS_ICU
     UnicodeString UniStr1((const UChar *)str1.getChar16Data(), (int32_t)str1.size());      return  compareNoCase(str1, str2) == 0;
     UnicodeString UniStr2((const UChar *)str2.getChar16Data(), (int32_t)str2.size());  
     UniStr1.toLower();  
     UniStr2.toLower();  
     return (UniStr1 == UniStr2);  
 #else #else
     if (str1.size() != str2.size())     if (str1.size() != str2.size())
         return false;         return false;
Line 620 
Line 760 
 #endif #endif
 } }
  
 // UTF8 specific code:  
 String& String::assignUTF8(const char* str)  
 {  
     _rep->c16a.clear();  
     Uint32 n = strlen(str) + 1;  
   
     const Uint8 *strsrc = (Uint8 *)str;  
     Uint8 *endsrc = (Uint8 *)&str[n-1];  
   
     Char16 *msg16 = new Char16[n];  
     Uint16 *strtgt = (Uint16 *)msg16;  
     Uint16 *endtgt = (Uint16 *)&msg16[n];  
   
     UTF8toUTF16(&strsrc,  
                 endsrc,  
                 &strtgt,  
                 endtgt);  
   
     Uint32 count;  
   
     for(count = 0; ((msg16[count]) != Char16(0x00)) && (count < (n - 1)); ++count);  
   
     _rep->c16a.append(msg16, count);  
   
     _rep->c16a.append('\0');  
  
     delete [] msg16;  CString String::getCString() const
   
     return *this;  
 }  
   
 CString String::getCStringUTF8() const  
 { {
     Uint32 n = 3*size() + 1;     Uint32 n = 3*size() + 1;
     char* str = new char[n];     char* str = new char[n];
Line 676 
Line 786 
     return CString(str1);     return CString(str1);
 } }
  
 Boolean String::isUTF8(const char *legal)  
 {  
     char numBytes = UTF_8_COUNT_TRAIL_BYTES(*legal)+1;  
   
     // Validate that the string is long enough to hold all the expected bytes.  
     // Note that if legal[0] == 0, numBytes will be 1.  
     for (char i=1; i<numBytes; i++)  
     {  
         if (legal[i] == 0)  
         {  
             return false;  
         }  
     }  
   
     return (isValid_U8((const Uint8 *)legal, numBytes));  
 }  
   
 #if 0 #if 0
 // ATTN-RK-P3-20020603: This code is not completely correct // ATTN-RK-P3-20020603: This code is not completely correct
  // Wildcard String matching function that may be useful in the future  // Wildcard String matching function that may be useful in the future
Line 728 
Line 821 
     // ICU_TODO:  If ICU is available we should do this the correct way.     // ICU_TODO:  If ICU is available we should do this the correct way.
     if (nocase)     if (nocase)
         return _ToLower(ch1) == _ToLower(ch2);         return _ToLower(ch1) == _ToLower(ch2);
     else  
         return ch1 == ch2;         return ch1 == ch2;
 } }
  
Line 854 
Line 947 
         @parm str String containing the string to be matched\         @parm str String containing the string to be matched\
         @parm pattern GLOB style patterh to use in the match.         @parm pattern GLOB style patterh to use in the match.
         @return Boolean true if str matches patterh         @return Boolean true if str matches patterh
         @SeeAlso match          @see match
     */     */
 Boolean String::matchNoCase(const String& str, const String& pattern) Boolean String::matchNoCase(const String& str, const String& pattern)
 { {
Line 894 
Line 987 
 { {
  
 #if defined(PEGASUS_OS_OS400) #if defined(PEGASUS_OS_OS400)
     CString cstr = str.getCStringUTF8();      CString cstr = str.getCString();
     const char* utf8str = cstr;     const char* utf8str = cstr;
  
     os << utf8str;     os << utf8str;
  
 #elif defined(PEGASUS_HAS_ICU) #elif defined(PEGASUS_HAS_ICU)
         if(os == cout || os == cerr){      if (InitializeICU::initICUSuccessful())
       {
             char *buf = NULL;             char *buf = NULL;
         const int size = str.size() * 6;         const int size = str.size() * 6;
         UnicodeString UniStr((const UChar *)str.getChar16Data(), (int32_t)str.size());         UnicodeString UniStr((const UChar *)str.getChar16Data(), (int32_t)str.size());
Line 911 
Line 1005 
         os << buf;         os << buf;
         os.flush();         os.flush();
         delete [] buf;         delete [] buf;
         }else{  
                 CString cstr = str.getCStringUTF8();  
         const char* utf8str = cstr;  
         os << utf8str;  
         }         }
       else
 #else  #endif // End of PEGASUS_HAS_ICU #else leg.
       {
         for (Uint32 i = 0, n = str.size(); i < n; i++)         for (Uint32 i = 0, n = str.size(); i < n; i++)
         {         {
                 Uint16 code = str[i];                 Uint16 code = str[i];
Line 934 
Line 1025 
                 os << buffer;                 os << buffer;
                 }                 }
         }         }
 #endif // End of PEGASUS_HAS_ICU #else leg.      }
  
     return os;     return os;
 } }
Line 964 
Line 1055 
     return String::compare(str1, str2) >= 0;     return String::compare(str1, str2) >= 0;
 } }
  
 #ifdef PEGASUS_USE_DEPRECATED_INTERFACES  
 int CompareNoCase(const char* s1, const char* s2)  
 {  
     return System::strcasecmp(s1, s2);  
 }  
 #endif  
   
 PEGASUS_NAMESPACE_END PEGASUS_NAMESPACE_END


Legend:
Removed from v.1.87  
changed lines
  Added in v.1.109

No CVS admin address has been configured
Powered by
ViewCVS 0.9.2