मंगलवार, 8 अक्टूबर 2024
  • Webdunia Deals
  1. खबर-संसार
  2. आईटी
  3. आईटी खबर
  4. Google OCR technology
Written By
Last Modified: शुक्रवार, 15 मई 2015 (16:14 IST)

गूगल की ओसीआर तकनीक से सूचना क्रांति संभावित

गूगल की ओसीआर तकनीक से सूचना क्रांति संभावित - Google OCR technology
विश्व की सूचना के महत्वपूर्ण स्रोत, जैसे किताबें, समाचारपत्र, पत्रिकाएं, पैम्फलेट्‍स और ऐतिहासिक दस्तावेज, डिजीटल नहीं हैं। डिजीटल दस्तावेजों से उलट, इन पेपर आधारित सूचना के स्रोतों का खोजना या इनमें संपादन करना मुश्किल है। कुछ लोगों के लिए पूरी तरह से इन तक पहुंच ही संभव नहीं होती। इस समस्या के हल का एक हिस्सा स्केनिंग करना, पेज की डिजिटल इमेज हासिल करना है। लेकिन कम्प्यूटर के लिहाज से रा इमेज पिक्सल्स को टेक्चुअल कंटेट के तौर पर नहीं पहचाना जाता है। 
 
ऑप्टिकल कैरेक्टर रिकग्निशन (ओसीआर) तकनीक का उद्देश्य टेक्सट की तस्वीरों को कम्प्यूटर टेक्सट में बदलना है जिसे इंडेक्स किया जा सकता है, खोजा जा सकता है और संपादित किया जा सकता है। कुछ समय से गूगल ड्राइव ने ओसीआर क्षमताओं को उपलब्ध कराया है। हाल ही में, हमने इस अत्याधुनिक तकनीक को समूचे विश्व की बड़ी भाषाओं को सपोर्ट करने के लिए विस्तारित किया है। इनमें 25 से अधिक राइटिंग सिस्टम्स की दो सौ से ज्यादा भाषाएं हैं।

यूजर्स इस तकनीक को दो सरल कदमों के जरिए हासिल कर सकते हैं: 
1.एक स्कैन्ड दस्तावेज को इसके वर्तमान फॉर्म (जैसेकि एक इमेज या पीडीएफ) के तौर पर अपलोड करें। 
2. ड्राइव इंटरफेस में दस्तावेज पर राइट क्लिक करें और 'ओपन विद'-'गूगल डॉक्स' चुनें। इससे एक गूगल दस्तावेज अपनी ऑरिजनल इमेज के साथ खुलता है और इसके बाद एक्सट्रेक्टेड टेक्स्ट सामने आती है। 
 
आपको यह बताने की जरूरत नहीं है कि दस्तावेज किस भाषा में है, सिस्टम इसे अपने आप तय कर लेगा। या फिर आप दस्तावेजों में भाषा की पहचान को लेकर और अधिक सुस्पष्ट नियंत्रण चाहते हैं तो आप गूगल ड्राइव एपीआई का प्रयोग कर सकते हैं। उदाहरण के लिए यहां पायथन में ड्राइव एपीआई का सहयोग ‍‍‍लिया गया है। ड्राइव में ओसीआर क्षमता एंड्रॉयड के ड्राइव एप्प में भी उपलब्ध है।    
 
इसे संभव बनाने के लिए समूचे गूगल की इंजीनियर टीमों ने विस्तृत भाषा कवरेज पर केन्द्रित एक तरीका अपनाया जिसका उद्देश्य एक ऐसे आर्किटेक्चर को डिजाइन करना था जोकि सभी उपलब्ध भाषाओं और राइटिंग सिस्टम्स के साथ काम कर सके। आंशिक रूप से हमने यह हिडन मार्कोव मॉडल्स (एचएमएम्स) के साथ किया ताकि सबसे पहले इसे कई हिस्सों में बांटने की बजाय एक होल सीक्वेंस के रूप में हो जिस इनपुट का कोई अर्थ हो। यह प्रक्रिया ठीक वैसी है जिससे मॉडर्न स्पीच रिकग्निशन सिस्टम्स ऑडियो इनपुट को पहचानते हैं। 
 
ओसीआर और स्पीच रिकग्निशन में कुछ चुनौतियां समान हैं- जैसेकि बैकग्राउंड 'शोर' का सामना करना, विभिन्न भाषाएं और लो-क्वालिटी के इनपुट्‍स। लेकिन ओसीआर के लिए  कुछ चुनौतियां विशेष हैं : जैसे टाइपफेसेज की भिन्नता, स्कैनर्स और कैमरों के विभिन्न प्रकार, और ऐसी पुरानी सामग्री पर काम करने की जरूरत जिसमें प्राचीन ऑर्थोग्राफिक और भाषाई तत्व हों।

एचएमएम्स का इस्तेमाल करने के अलावा, हमने ऐसी बहुत सी तकनीकों का लाभ उठाया जिन्हें गूगल हैंडराइटिंग इनपुट एप्प में इस्तेमाल किया गया है ताकि फीचर्स की स्वचालित लर्निंग संभव हो, अधिक संभावित आउटपुट को वरीयता दी जाए, साथ ही मिनिमम इरर रेट ट्रेनिंग (न्यूनतम गलती दर का प्रशिक्षण हो)  ताकि सूचना के विभिन्न स्रोतों का प्रभावी समन्वय किया जा सके और मशीन लर्निंग की आधुनिक पद्धतियों से डाटा का अधिकतम प्रयोग और मैनुअल डिजाइन को कम से कम प्रयोग सुनिश्चित हो। हमारी ट्रेनिंग में सिंथेटिक डाटा का इस्तेमाल करते हुए हमने अंतरराष्ट्रीयकरण और टाइपसेटिंग में हुई प्रगति का भी लाभ लिया।            
 
वर्तमान में ओसीआर क्लीनली स्केंड, हाई-रिजोल्यूशन डॉक्यूमेंट्‍स जो‍ कि सर्वाधिक प्रचलित टाइपफेसेज में हों, पर सबसे अच्छा काम करता है। हम खराब क्वालिटी के स्केन्स का प्रदर्शन सुधारने और चुनौतीपूर्ण टेक्स्ट लेआउट्‍स पर काम कर रहे हैं। इसे एक बार आजमाएं और हमें जानने दें कि यह आपके लिए कैसा काम करता है।