گوئٹے مالا میں کون کون سی زبانیں بولی جاتی ہیں اور یہاں پر رہنے والے زنکا قبیلے کے رہائشیوں کی کُل تعداد کتنی ہے؟
اس کا جواب انٹرنیٹ پر چند سیکنڈ میں حاصل کیا جا سکتا ہے۔
زیادہ پرانی بات نہیں کہ ایسے جوابات کے لئے لائیبریریاں کنگھالنی پڑتی تھیں۔ اب ایک بچہ بھی گھر بیٹھے اس کو تلاش کر سکتا ہے۔ ڈیٹا کے پہاڑوں سے انفارمیشن نکال لانا صرف انٹرنیٹ پر جنرل نالج تک محدود نہیں۔ یہ صلاحیت بہت سے شعبوں میں انقلاب لا رہی ہے اور اس کی بنیاد میں بڑی اہمیت جس ٹیکنالوجی کی ہے، وہ عام خبروں میں کم ہی رہتی ہے۔ یہ سٹوریج کی ٹیکنالوجی ہے۔
ایک دو سالہ بچے نے اپنے کھلونا ہاتھی کا جو نام رکھا تھا، اس کے والد نے اپنی نئی کمپنی کا نام وہی رکھا تا کہ یاد رکھنے میں آسانی رہے۔ یہ نام ہاڈوپ تھا۔ اس نے دنیا کو تبدیل کرنے میں مدد کی۔ اس کی مدد گوگل نے کی۔ اور اس کی کہانی اکیسویں صدی کے ڈیٹا کے پہاڑوں کو سر کرنے کی کہانی ہے۔
اس کمپنی کو بنانے والے کا نام ڈوگ کٹنگ تھا۔ انہوں نے اپنی ڈگری لسانیات میں کی لیکن ساتھ کمپیوٹر پروگرامنگ کے کورس بھی لئے۔ اپنا پہلا کمپیوٹر بھی انہوں نے یونیورسٹی میں 1981 میں ہی دیکھا تھا۔ گریجویشن کرنے کے بعد انہیں زیروکس کے ریسرچ سینٹر میں ملازمت مل گئی جہاں پر ماہرینِ لسانیات کی ٹیم مصنوعی ذہانت پر کام کر رہی تھی اور تحقیق ایک نئے شعبے میں جس کو “سرچ” کہا جاتا تھا۔ آج سرچ کے بغیر کی دنیا کا تصور کرنا ہمارے لئے مشکل ہو گا لیکن اس وقت یہ ایک اچھوتا تصور تھا۔
زیروکس فوٹو کاپی کی مشینوں سے مشہور ہوئی تھی۔ یہ پرسنل کمپیوٹر کی مارکیٹ سے فائدہ نہیں اٹھا سکی تھی۔ اب اس کا فوکس اس پر تھا کہ کاغذ اور ٹونر کو ڈیجیٹل دنیا میں کیسے لے جایا جا سکتا ہے۔ اور دستاویزات میں سے میں سرچ کیسے کی جا سکتی ہے۔ کسی بھی کمپنی کی طرح یہ اپنی کامیابی کے جال میں پھنس گئی تھی اور کاغذ سے آگے نہیں دیکھ پا رہی تھی۔ ابھی ویب منظرِعام پر نہیں آیا تھا۔
جب ویب کی ابتدا تھی تو یاہو جیسے کمپنیاں اس میں سب سے آگے تھیں۔ یاہو نے ویب کی ڈائریکٹری بنائی تھی۔ کوئی ویب سائٹ بناتا تو یاہو اس کو اپنی ڈائریکٹری میں شامل کر لیتا۔ کھیل، خبریں، بزنس، تفریح وغیرہ جیسی کیٹیگری میں۔ “سرچ” اس کے بعد آئی۔ آلٹاوسٹا جیسے سرچ انجن جس میں دو کروڑ ویب پیج کا انڈیکس تھا ایک وقت میں سب سے آگے تھے۔ گوگل 1997 میں اس دعوے کے ساتھ آیا کہ اس کے پاس بہتر طریقہ ہے اور اس نے رفتہ رفتہ اپنے اس دعوے کو منوا لیا۔
کٹنگ ایک اوپن سورس کا پروگرام لکھ رہے تھے جو سرچ کر سکے۔ ان کا بنایا ہوا پروگرام لیوسین تھا۔ (اگر آپ کا تعلق کمپیوٹر سائنس سے ہے تو اس مقبول پروگرام سے واقف ہوں گے)۔ کچھ سال بعد کٹنگ نے اپنے ایک ساتھی کے ساتھ ایک کمپنی بنائی جس کا نام نچ تھا۔ اس کا مقصد اوپن سورس میں گوگل کا مقابلہ کرنا تھا۔ نچ آج بہت استعمال کیا جانے والا ویب کرالر ہے اور یہ ان کے اگلے بڑے کارنامے کی بنیاد بنا۔
۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔
اوپن سورس سافٹ وئیر بنانے کا ماڈل ہے جس میں کوئی بھی شرکت کر سکتا ہے۔ اس پراڈکٹ کو استعمال کر سکتا ہے، اس شرط کے ساتھ کہ اس میں جو بھی بہتری کرے گا، وہ کمیونیٹی کے ساتھ واپس شئیر کرے گا۔ اگر ہر کوئی ایسا کرے تو یہ پراڈکٹ جلد سے جلد بہتر ہوتی جائے گی اور زیادہ مفید ہوتی جائے گی۔ اکیلے کے مقابلے میں ملکر کام کرنے سے بہتر چیزیں بن سکتی ہیں۔
کٹنگ کی اوپن سورس سرچ پروگرام بنانے کی کوشش کو ایک بہت بنیادی مسئلے کا سامنا تھا۔ جب آپ کے پاس ایک کمپیوٹر ہے، اس میں اتنا ڈیٹا سٹور کیا جا سکتا ہے جو اس کی ہارڈ ڈسک میں آ سکتا ہو اور اتنی پراسسنگ ہو سکتی ہے جتنی اس کا پراسسر کر سکتا ہو۔ کمپیوٹیشن کے سائز اور رفتار کی یہ حد بن جاتی ہے۔ یاہو جیسی کمپینیوں کی وجہ سے ویب پر ڈیٹا تیزرفتاری سے بڑھ رہا تھا۔ کیسے اس سٹوریج اور کمپییوٹیشن کی طاقت کے مسئلے کو حل کیا جائے؟ اگر دو لوگ اپنے کمپیوٹر ملائیں تو سٹوریج اور پاور دگنی ہو سکے۔ کمپیوٹر میموری اور پراسسر سستے ہوتے جانے کی وجہ سے اب کمپینیاں بڑے سائز کی بلڈنگز بنا رہی تھیں جس میں فرش سے چھت تک پراسسر اور ڈرائیوز موجود تھیں۔ ان کو سرور فارم کہا جاتا تھا۔
لیکن ایک چیز باقی تھی۔ ان سب کو آپس میں جوڑ کر کیسے کام کروایا جائے کہ یہ آپس میں تعاون سے ایک یونٹ کی طرح کام کر سکیں۔ سب پراسسر ایک دوسرے کے ساتھ پیرالل میں چل رہے ہوں اور قابلِ اعتماد طریقے سے بھی کام کریں۔ اگر ایک کمپیوٹر ہفتے میں ایک بار کریش ہوتا ہے تو ایک ہزار آپس میں مل کر اس سے ہزار گنا زیادہ ریٹ سے کریش نہ ہوں۔ ہارڈوئیر موجود تھا لیکن وہ سافٹ وئیر جو اس کو ملا کر جوڑ سکے؟
۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔
ہم اس میں گوگل کا شکریہ ادا کر سکتے ہیں جس نے یہ مسئلہ حل کیا۔ پروگرامنگ کی دنیا کی ایک پرانی روایت شئیر کرنا رہی ہے۔ گوگل کا اصل جینئیس ڈیٹا کو سٹور کرنے کے سسٹم میں تھا۔ یہ دو الگ سافٹ وئیر تھے، جن کی مدد سے ہزاروں ڈرائیوز مل کر ایک ہی ڈرائیو کی طرح کام کرتی ہیں اور اگر ایک فیل ہو جائے تو پتا بھی نہیں لگتا۔ دوسرا سافٹ وئیر بھی گوگل کو خود ہی بنانا تھا کیونکہ اس وقت کوئی ایسی کمرشل ٹیکنالوجی موجود نہیں تھی۔ وہ اس بڑے ڈیٹا کو پراسس کرنے کی ٹیکنالوجی تھی۔ یہ پروگرام گوگل نے خود بنائے اور استعمال کئے۔
گوگل نے جو بنایا تھا، اس کا پروگرام تو نہیں لیکن طریقہ کار پبلک کے ساتھ شئیر کر دیا۔ اس کو دو پیپرز میں شئیر کیا گیا کہ اہم پروگرام کیا ہیں اور کیسے کام کرتے ہیں۔ ایک پیپر اکتوبر 2003 میں شائع ہوا جس میں گوگل فائل سسٹم کا بتایا گیا۔ بہت بڑا ڈیٹا کس طرح سستی سٹوریج کے کلسٹر پر سٹور کیا جا سکتا ہے۔ چونکہ گوگل دنیا بھر کی انفارمیشن کو منظم کرنا چاہتا تھا، اس لئے اس کا حجم ایگزابائٹس کے سکیل پر تھا۔ گوگل کی دوسری ایجاد دسمبر 2004 میں شئیر ہوئی جو گوگل میپ ریڈیوس تھا۔ گوگل کے پیپر کے مطابق یہ “ایسا پروگرامنگ ماڈل اور اس کا اطلاق جو اس بڑے ڈیٹا کو پراسس کر سکے اور بڑے ڈیٹا سیٹ بنا سکے۔ اس سٹائل سے لکھے گئے پروگرام سستی مشینیوں کے کلسٹر پر پیرالل میں پراسسنگ کر سکتے ہیں۔ سسٹم ڈیٹا کے حصے بنانے کا کام لے لیتا ہے، یہ ذمہ داری کہ پروگرام کو کس طرح الگ مشینوں پر چلایا جائے، مشینوں کے فیل ہونے سے کیسے نمٹا جائے، مشینوں کا آپس میں رابطہ کیسے کروایا جائے۔ ایسے پروگرامر، جنہوں اس سب کے پیچیدگی کا تجربہ نہیں، کیسے اس سے آسانی سے فائدہ اٹھا سکیں”۔
آسان زبان میں، گوگل کی ان دو جدتوں کا مطلب یہ تھا کہ ڈیٹا کے پہاڑوں کو پراسس کرنا اتنی آسانی سے ممکن ہو گیا تھا جس کا پہلے تصور نہیں کیا جا سکتا تھا۔
کمپیوٹنگ کی دنیا میں گوگل کا اس کو شئیر کرنے کا فیصلہ بہت بڑا قدم تھا۔ اوپن سورس کمیونیٹی اب اس سے فائدہ اٹھا سکتی تھی۔ بگ ڈیٹا کی صنعت ممکن ہو سکتی تھی۔ یہ وہ چیلنج تھا جس کو اوپن سورس کمیونیٹی نے قبول کیا، اور اسی نے ہاڈوپ کو جنم دیا۔
اس انفارمیشن سے اس شعبے میں مہارت رکھنے والوں نے پروگرام تخلیق کئے جس سے لاکھوں کمپیوٹر مل کر ایک بڑے کمپیوٹر کا کردار ادا کر سکیں۔ نیا ہارڈوئیر لائیں، لگائیں اور اس کلسٹر کو بڑا کر لیں اور ڈیٹا کو مزید باریک بینی سے چھان لیں۔
۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔
فیس بُک، ٹوئٹر اور لنکڈ اِن نے ہاڈوپ کو استعمال کیا اور یہی وجہ ہے کہ یہ تینوں کمپینیاں ایک ہی سال ابھریں۔ 2007 میں۔ ان کے پاس بڑا ڈیٹا حاصل کرنے کی صلاحیت تھی۔ لیکن اس سے پہلے وہ ٹول نہیں تھا جس سے اس کا فائدہ اٹھایا جا سکتا۔ یاہو اور گوگل ویب پیج کا تجزیہ اس لئے کرتے تھے کہ اس کو سرچ کیا جا سکے لیکن یہ اس وقت بہت قیمتی ہو جاتا ہے، اگر ویب پیج پر کئے جانے والے کلک اور دوسرے ایکشن بھی پکڑ کر سٹور کئے جا سکیں اور ان کا تجزیہ کیا جا سکے۔ جب تک ہاڈوپ نہیں آیا تھا، گوگل کے علاوہ کوئی اور ایسا نہیں کر سکتا تھا۔
ہاڈوپ سے یہ ممکن ہوا کہ تمام ڈیٹا سٹور کیا جا سکے، یہ دیکھا جا سکے کہ یہ کونسے شخص سے آ رہا ہے اور وہ اس سے پہلے ویب سائٹ پر کیا کرتا رہا ہے۔ کہاں کلک کر سکتا تھا اور کہاں کلک کیا۔ جب یہ سب تصویر سامنے ہو تو زیادہ بہتر اندازہ لگایا جا سکتا ہے۔ بہتر ڈیٹا بہتر بصارت دیتا ہے۔ ہاڈوپ نے گوگل کے علاوہ دوسری کمپینیوں کے لئے یہ کرنا ممکن بنایا۔ اس کے گرد پروگرام لکھے گئے اور اس کی صلاحیت بڑھتی گئی۔
۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔
گوگل کا اپنا سسٹم صرف گوگل کے ڈیٹا سنٹر پر چلتا تھا اور لوگ اس کو انفارمیشن سرچ کرنے، چہرے پہچاننے، ہجے ٹھیک کرنے، تصاویر کی شناخت جیسے کاموں کے لئے استعمال کرتے تھے اور ساتھ ہاڈوپ کا سسٹم جو اوپن سورس تھا اور اس کو ہر کوئی چلا سکتا تھا۔ آئی بی ایم اور اوریکل جیسے بڑے اداروں نے ہاڈوپ کو اپنا لیا اور یہ اس کی اوپن سورس میں بھی اپنا حصہ ڈالتے ہیں۔ بہت سے حصہ ڈالنے والوں کے سبب یہ تیزی سے بڑھتا رہا۔ (بعد میں اسی سب کی بنیاد پر کئی دوسرے سسٹم بھی نکلے جو اسی مسئلے کو حل کرتے ہیں)۔
۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔
ہاڈوپ سے پہلے غیرمنظم ڈیٹا کی طرف توجہ نہیں دی جاتی تھی۔ اگر ایک بینک کا سسٹم ہے تو ہم اس کو سٹور کرنے کے لئے سٹرکچر پہلے بناتے ہیں۔ “یہ ٹرانزیکشن ہے”، “یہ چیک ہے”، “یہ اکاوٗنٹ ہے”۔ یہ سب ایک تنظیم کے ساتھ ہوتا ہے تا کہ اگر یہ پوچھنا ہو کہ “فلاں صاحب نے آخری چیک کب جمع کروایا؟” تو اس ڈیٹا سے پوچھا جا سکے۔
غیرمنظم ڈیٹا کا مطلب یہ ہے کہ تمام ڈیٹا بغیر کسی سٹرکچر کے سٹور کر لیا جائے۔ ہاڈوپ یہ صلاحیت دیتا ہے کہ اس میں پیٹرن تلاش کئے جا سکیں۔ اس ڈیٹا کے پہاڑوں میں سے آسانی سے یہ دیکھا جا سکے کہ ان میں کیا موجود ہے اور جواب تلاش کئے جا سکیں۔ ایسے پیٹرن شناخت کئے جا سکیں جو اہم بریک تھرو دے سکیں۔
۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔
مثال کے طور پر کریڈٹ کارڈ کی کمپنی ویزا ہر وقت فراڈ ڈھونڈنے کی تلاش میں ہوتی ہے۔ لیکن اس کا سافٹ وئیر اس ڈیٹا میں تیس سے ساٹھ روز سے پہلے جانے کی صلاحیت نہیں دیتا تھا۔ ویزا نے ہاڈوپ استعمال کر کے پانچ سال تک کے ڈیٹا کا تجزیہ کیا اور فراڈ کا سب سے بڑا پیٹرن ڈھونڈ نکالا۔
اس سکیل اور اس قیمت پر یہ کام پہلے نہیں کیا جا سکتا تھا۔ یہ وہ وجہ ہے کہ اس وقت منظم اور غیرمنظم ڈیٹا کا تجزیہ کرنے میں ہاڈوپ ایک بڑے آپریٹنگ سسٹم کا کردار ادا کر رہا ہے۔
۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔
سبک رفتاری، فرد کے لیول پر جا کر اور مرضی کا تجزیہ۔ یہ تینوں ملکر اب وہ ممکن بنا رہے ہیں جو پہلے نہیں تھا اور یہ معمولی چیز نہیں۔ اس کو پرننٹنگ پریس جتنا بڑا بریک تھرو کہا جا سکتا ہے۔ ہاڈوپ اس لئے ممکن ہوا کہ مورز لاء نے ہارڈوئیر سٹوریج کو سستا کیا۔ گوگل کو یہ اعتماد تھا کہ وہ اپنی اہم انسائٹ شئیر کر سکتا ہے اور اوپن سورس کمیونیٹی کو چیلنج کیا کہ وہ اس کو بنا سکتی ہے۔ اوپن سورس میں لوگوں نے یہ کر دکھایا۔
اور یوں، ہاڈوپ نے ہمیں بگ ڈیٹا کا انقلاب دیا۔ گوگل نے اس میں مدد کی اور اب جبکہ اس کی مدد سے بگ ڈیٹا ایک صنعت بن چکی ہے۔ اس ڈیٹا پر تجزیہ کرنے کے لئے گوگل اپنے ٹول دینے کا بزنس کرتا ہے!
کٹنگ کہتے ہیں، “گوگل کچھ سال آگے مستقبل میں رہ رہا ہے اور مستقبل سے ہمیں خط لکھتا ہے۔ ہم اس کے خط پڑھ کر اس کا پیچھا کر رہے ہیں اور اب کچھ جگہیں ایسی ہیں، جہاں پر وہ ہمارا پیچھا کر رہے ہیں اور یہ دو طرفہ مکالمہ سبھی کو فائدہ پہنچا رہا ہے”۔
اس کا جواب انٹرنیٹ پر چند سیکنڈ میں حاصل کیا جا سکتا ہے۔
زیادہ پرانی بات نہیں کہ ایسے جوابات کے لئے لائیبریریاں کنگھالنی پڑتی تھیں۔ اب ایک بچہ بھی گھر بیٹھے اس کو تلاش کر سکتا ہے۔ ڈیٹا کے پہاڑوں سے انفارمیشن نکال لانا صرف انٹرنیٹ پر جنرل نالج تک محدود نہیں۔ یہ صلاحیت بہت سے شعبوں میں انقلاب لا رہی ہے اور اس کی بنیاد میں بڑی اہمیت جس ٹیکنالوجی کی ہے، وہ عام خبروں میں کم ہی رہتی ہے۔ یہ سٹوریج کی ٹیکنالوجی ہے۔
ایک دو سالہ بچے نے اپنے کھلونا ہاتھی کا جو نام رکھا تھا، اس کے والد نے اپنی نئی کمپنی کا نام وہی رکھا تا کہ یاد رکھنے میں آسانی رہے۔ یہ نام ہاڈوپ تھا۔ اس نے دنیا کو تبدیل کرنے میں مدد کی۔ اس کی مدد گوگل نے کی۔ اور اس کی کہانی اکیسویں صدی کے ڈیٹا کے پہاڑوں کو سر کرنے کی کہانی ہے۔
اس کمپنی کو بنانے والے کا نام ڈوگ کٹنگ تھا۔ انہوں نے اپنی ڈگری لسانیات میں کی لیکن ساتھ کمپیوٹر پروگرامنگ کے کورس بھی لئے۔ اپنا پہلا کمپیوٹر بھی انہوں نے یونیورسٹی میں 1981 میں ہی دیکھا تھا۔ گریجویشن کرنے کے بعد انہیں زیروکس کے ریسرچ سینٹر میں ملازمت مل گئی جہاں پر ماہرینِ لسانیات کی ٹیم مصنوعی ذہانت پر کام کر رہی تھی اور تحقیق ایک نئے شعبے میں جس کو “سرچ” کہا جاتا تھا۔ آج سرچ کے بغیر کی دنیا کا تصور کرنا ہمارے لئے مشکل ہو گا لیکن اس وقت یہ ایک اچھوتا تصور تھا۔
زیروکس فوٹو کاپی کی مشینوں سے مشہور ہوئی تھی۔ یہ پرسنل کمپیوٹر کی مارکیٹ سے فائدہ نہیں اٹھا سکی تھی۔ اب اس کا فوکس اس پر تھا کہ کاغذ اور ٹونر کو ڈیجیٹل دنیا میں کیسے لے جایا جا سکتا ہے۔ اور دستاویزات میں سے میں سرچ کیسے کی جا سکتی ہے۔ کسی بھی کمپنی کی طرح یہ اپنی کامیابی کے جال میں پھنس گئی تھی اور کاغذ سے آگے نہیں دیکھ پا رہی تھی۔ ابھی ویب منظرِعام پر نہیں آیا تھا۔
جب ویب کی ابتدا تھی تو یاہو جیسے کمپنیاں اس میں سب سے آگے تھیں۔ یاہو نے ویب کی ڈائریکٹری بنائی تھی۔ کوئی ویب سائٹ بناتا تو یاہو اس کو اپنی ڈائریکٹری میں شامل کر لیتا۔ کھیل، خبریں، بزنس، تفریح وغیرہ جیسی کیٹیگری میں۔ “سرچ” اس کے بعد آئی۔ آلٹاوسٹا جیسے سرچ انجن جس میں دو کروڑ ویب پیج کا انڈیکس تھا ایک وقت میں سب سے آگے تھے۔ گوگل 1997 میں اس دعوے کے ساتھ آیا کہ اس کے پاس بہتر طریقہ ہے اور اس نے رفتہ رفتہ اپنے اس دعوے کو منوا لیا۔
کٹنگ ایک اوپن سورس کا پروگرام لکھ رہے تھے جو سرچ کر سکے۔ ان کا بنایا ہوا پروگرام لیوسین تھا۔ (اگر آپ کا تعلق کمپیوٹر سائنس سے ہے تو اس مقبول پروگرام سے واقف ہوں گے)۔ کچھ سال بعد کٹنگ نے اپنے ایک ساتھی کے ساتھ ایک کمپنی بنائی جس کا نام نچ تھا۔ اس کا مقصد اوپن سورس میں گوگل کا مقابلہ کرنا تھا۔ نچ آج بہت استعمال کیا جانے والا ویب کرالر ہے اور یہ ان کے اگلے بڑے کارنامے کی بنیاد بنا۔
۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔
اوپن سورس سافٹ وئیر بنانے کا ماڈل ہے جس میں کوئی بھی شرکت کر سکتا ہے۔ اس پراڈکٹ کو استعمال کر سکتا ہے، اس شرط کے ساتھ کہ اس میں جو بھی بہتری کرے گا، وہ کمیونیٹی کے ساتھ واپس شئیر کرے گا۔ اگر ہر کوئی ایسا کرے تو یہ پراڈکٹ جلد سے جلد بہتر ہوتی جائے گی اور زیادہ مفید ہوتی جائے گی۔ اکیلے کے مقابلے میں ملکر کام کرنے سے بہتر چیزیں بن سکتی ہیں۔
کٹنگ کی اوپن سورس سرچ پروگرام بنانے کی کوشش کو ایک بہت بنیادی مسئلے کا سامنا تھا۔ جب آپ کے پاس ایک کمپیوٹر ہے، اس میں اتنا ڈیٹا سٹور کیا جا سکتا ہے جو اس کی ہارڈ ڈسک میں آ سکتا ہو اور اتنی پراسسنگ ہو سکتی ہے جتنی اس کا پراسسر کر سکتا ہو۔ کمپیوٹیشن کے سائز اور رفتار کی یہ حد بن جاتی ہے۔ یاہو جیسی کمپینیوں کی وجہ سے ویب پر ڈیٹا تیزرفتاری سے بڑھ رہا تھا۔ کیسے اس سٹوریج اور کمپییوٹیشن کی طاقت کے مسئلے کو حل کیا جائے؟ اگر دو لوگ اپنے کمپیوٹر ملائیں تو سٹوریج اور پاور دگنی ہو سکے۔ کمپیوٹر میموری اور پراسسر سستے ہوتے جانے کی وجہ سے اب کمپینیاں بڑے سائز کی بلڈنگز بنا رہی تھیں جس میں فرش سے چھت تک پراسسر اور ڈرائیوز موجود تھیں۔ ان کو سرور فارم کہا جاتا تھا۔
لیکن ایک چیز باقی تھی۔ ان سب کو آپس میں جوڑ کر کیسے کام کروایا جائے کہ یہ آپس میں تعاون سے ایک یونٹ کی طرح کام کر سکیں۔ سب پراسسر ایک دوسرے کے ساتھ پیرالل میں چل رہے ہوں اور قابلِ اعتماد طریقے سے بھی کام کریں۔ اگر ایک کمپیوٹر ہفتے میں ایک بار کریش ہوتا ہے تو ایک ہزار آپس میں مل کر اس سے ہزار گنا زیادہ ریٹ سے کریش نہ ہوں۔ ہارڈوئیر موجود تھا لیکن وہ سافٹ وئیر جو اس کو ملا کر جوڑ سکے؟
۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔
ہم اس میں گوگل کا شکریہ ادا کر سکتے ہیں جس نے یہ مسئلہ حل کیا۔ پروگرامنگ کی دنیا کی ایک پرانی روایت شئیر کرنا رہی ہے۔ گوگل کا اصل جینئیس ڈیٹا کو سٹور کرنے کے سسٹم میں تھا۔ یہ دو الگ سافٹ وئیر تھے، جن کی مدد سے ہزاروں ڈرائیوز مل کر ایک ہی ڈرائیو کی طرح کام کرتی ہیں اور اگر ایک فیل ہو جائے تو پتا بھی نہیں لگتا۔ دوسرا سافٹ وئیر بھی گوگل کو خود ہی بنانا تھا کیونکہ اس وقت کوئی ایسی کمرشل ٹیکنالوجی موجود نہیں تھی۔ وہ اس بڑے ڈیٹا کو پراسس کرنے کی ٹیکنالوجی تھی۔ یہ پروگرام گوگل نے خود بنائے اور استعمال کئے۔
گوگل نے جو بنایا تھا، اس کا پروگرام تو نہیں لیکن طریقہ کار پبلک کے ساتھ شئیر کر دیا۔ اس کو دو پیپرز میں شئیر کیا گیا کہ اہم پروگرام کیا ہیں اور کیسے کام کرتے ہیں۔ ایک پیپر اکتوبر 2003 میں شائع ہوا جس میں گوگل فائل سسٹم کا بتایا گیا۔ بہت بڑا ڈیٹا کس طرح سستی سٹوریج کے کلسٹر پر سٹور کیا جا سکتا ہے۔ چونکہ گوگل دنیا بھر کی انفارمیشن کو منظم کرنا چاہتا تھا، اس لئے اس کا حجم ایگزابائٹس کے سکیل پر تھا۔ گوگل کی دوسری ایجاد دسمبر 2004 میں شئیر ہوئی جو گوگل میپ ریڈیوس تھا۔ گوگل کے پیپر کے مطابق یہ “ایسا پروگرامنگ ماڈل اور اس کا اطلاق جو اس بڑے ڈیٹا کو پراسس کر سکے اور بڑے ڈیٹا سیٹ بنا سکے۔ اس سٹائل سے لکھے گئے پروگرام سستی مشینیوں کے کلسٹر پر پیرالل میں پراسسنگ کر سکتے ہیں۔ سسٹم ڈیٹا کے حصے بنانے کا کام لے لیتا ہے، یہ ذمہ داری کہ پروگرام کو کس طرح الگ مشینوں پر چلایا جائے، مشینوں کے فیل ہونے سے کیسے نمٹا جائے، مشینوں کا آپس میں رابطہ کیسے کروایا جائے۔ ایسے پروگرامر، جنہوں اس سب کے پیچیدگی کا تجربہ نہیں، کیسے اس سے آسانی سے فائدہ اٹھا سکیں”۔
آسان زبان میں، گوگل کی ان دو جدتوں کا مطلب یہ تھا کہ ڈیٹا کے پہاڑوں کو پراسس کرنا اتنی آسانی سے ممکن ہو گیا تھا جس کا پہلے تصور نہیں کیا جا سکتا تھا۔
کمپیوٹنگ کی دنیا میں گوگل کا اس کو شئیر کرنے کا فیصلہ بہت بڑا قدم تھا۔ اوپن سورس کمیونیٹی اب اس سے فائدہ اٹھا سکتی تھی۔ بگ ڈیٹا کی صنعت ممکن ہو سکتی تھی۔ یہ وہ چیلنج تھا جس کو اوپن سورس کمیونیٹی نے قبول کیا، اور اسی نے ہاڈوپ کو جنم دیا۔
اس انفارمیشن سے اس شعبے میں مہارت رکھنے والوں نے پروگرام تخلیق کئے جس سے لاکھوں کمپیوٹر مل کر ایک بڑے کمپیوٹر کا کردار ادا کر سکیں۔ نیا ہارڈوئیر لائیں، لگائیں اور اس کلسٹر کو بڑا کر لیں اور ڈیٹا کو مزید باریک بینی سے چھان لیں۔
۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔
فیس بُک، ٹوئٹر اور لنکڈ اِن نے ہاڈوپ کو استعمال کیا اور یہی وجہ ہے کہ یہ تینوں کمپینیاں ایک ہی سال ابھریں۔ 2007 میں۔ ان کے پاس بڑا ڈیٹا حاصل کرنے کی صلاحیت تھی۔ لیکن اس سے پہلے وہ ٹول نہیں تھا جس سے اس کا فائدہ اٹھایا جا سکتا۔ یاہو اور گوگل ویب پیج کا تجزیہ اس لئے کرتے تھے کہ اس کو سرچ کیا جا سکے لیکن یہ اس وقت بہت قیمتی ہو جاتا ہے، اگر ویب پیج پر کئے جانے والے کلک اور دوسرے ایکشن بھی پکڑ کر سٹور کئے جا سکیں اور ان کا تجزیہ کیا جا سکے۔ جب تک ہاڈوپ نہیں آیا تھا، گوگل کے علاوہ کوئی اور ایسا نہیں کر سکتا تھا۔
ہاڈوپ سے یہ ممکن ہوا کہ تمام ڈیٹا سٹور کیا جا سکے، یہ دیکھا جا سکے کہ یہ کونسے شخص سے آ رہا ہے اور وہ اس سے پہلے ویب سائٹ پر کیا کرتا رہا ہے۔ کہاں کلک کر سکتا تھا اور کہاں کلک کیا۔ جب یہ سب تصویر سامنے ہو تو زیادہ بہتر اندازہ لگایا جا سکتا ہے۔ بہتر ڈیٹا بہتر بصارت دیتا ہے۔ ہاڈوپ نے گوگل کے علاوہ دوسری کمپینیوں کے لئے یہ کرنا ممکن بنایا۔ اس کے گرد پروگرام لکھے گئے اور اس کی صلاحیت بڑھتی گئی۔
۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔
گوگل کا اپنا سسٹم صرف گوگل کے ڈیٹا سنٹر پر چلتا تھا اور لوگ اس کو انفارمیشن سرچ کرنے، چہرے پہچاننے، ہجے ٹھیک کرنے، تصاویر کی شناخت جیسے کاموں کے لئے استعمال کرتے تھے اور ساتھ ہاڈوپ کا سسٹم جو اوپن سورس تھا اور اس کو ہر کوئی چلا سکتا تھا۔ آئی بی ایم اور اوریکل جیسے بڑے اداروں نے ہاڈوپ کو اپنا لیا اور یہ اس کی اوپن سورس میں بھی اپنا حصہ ڈالتے ہیں۔ بہت سے حصہ ڈالنے والوں کے سبب یہ تیزی سے بڑھتا رہا۔ (بعد میں اسی سب کی بنیاد پر کئی دوسرے سسٹم بھی نکلے جو اسی مسئلے کو حل کرتے ہیں)۔
۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔
ہاڈوپ سے پہلے غیرمنظم ڈیٹا کی طرف توجہ نہیں دی جاتی تھی۔ اگر ایک بینک کا سسٹم ہے تو ہم اس کو سٹور کرنے کے لئے سٹرکچر پہلے بناتے ہیں۔ “یہ ٹرانزیکشن ہے”، “یہ چیک ہے”، “یہ اکاوٗنٹ ہے”۔ یہ سب ایک تنظیم کے ساتھ ہوتا ہے تا کہ اگر یہ پوچھنا ہو کہ “فلاں صاحب نے آخری چیک کب جمع کروایا؟” تو اس ڈیٹا سے پوچھا جا سکے۔
غیرمنظم ڈیٹا کا مطلب یہ ہے کہ تمام ڈیٹا بغیر کسی سٹرکچر کے سٹور کر لیا جائے۔ ہاڈوپ یہ صلاحیت دیتا ہے کہ اس میں پیٹرن تلاش کئے جا سکیں۔ اس ڈیٹا کے پہاڑوں میں سے آسانی سے یہ دیکھا جا سکے کہ ان میں کیا موجود ہے اور جواب تلاش کئے جا سکیں۔ ایسے پیٹرن شناخت کئے جا سکیں جو اہم بریک تھرو دے سکیں۔
۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔
مثال کے طور پر کریڈٹ کارڈ کی کمپنی ویزا ہر وقت فراڈ ڈھونڈنے کی تلاش میں ہوتی ہے۔ لیکن اس کا سافٹ وئیر اس ڈیٹا میں تیس سے ساٹھ روز سے پہلے جانے کی صلاحیت نہیں دیتا تھا۔ ویزا نے ہاڈوپ استعمال کر کے پانچ سال تک کے ڈیٹا کا تجزیہ کیا اور فراڈ کا سب سے بڑا پیٹرن ڈھونڈ نکالا۔
اس سکیل اور اس قیمت پر یہ کام پہلے نہیں کیا جا سکتا تھا۔ یہ وہ وجہ ہے کہ اس وقت منظم اور غیرمنظم ڈیٹا کا تجزیہ کرنے میں ہاڈوپ ایک بڑے آپریٹنگ سسٹم کا کردار ادا کر رہا ہے۔
۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔
سبک رفتاری، فرد کے لیول پر جا کر اور مرضی کا تجزیہ۔ یہ تینوں ملکر اب وہ ممکن بنا رہے ہیں جو پہلے نہیں تھا اور یہ معمولی چیز نہیں۔ اس کو پرننٹنگ پریس جتنا بڑا بریک تھرو کہا جا سکتا ہے۔ ہاڈوپ اس لئے ممکن ہوا کہ مورز لاء نے ہارڈوئیر سٹوریج کو سستا کیا۔ گوگل کو یہ اعتماد تھا کہ وہ اپنی اہم انسائٹ شئیر کر سکتا ہے اور اوپن سورس کمیونیٹی کو چیلنج کیا کہ وہ اس کو بنا سکتی ہے۔ اوپن سورس میں لوگوں نے یہ کر دکھایا۔
اور یوں، ہاڈوپ نے ہمیں بگ ڈیٹا کا انقلاب دیا۔ گوگل نے اس میں مدد کی اور اب جبکہ اس کی مدد سے بگ ڈیٹا ایک صنعت بن چکی ہے۔ اس ڈیٹا پر تجزیہ کرنے کے لئے گوگل اپنے ٹول دینے کا بزنس کرتا ہے!
کٹنگ کہتے ہیں، “گوگل کچھ سال آگے مستقبل میں رہ رہا ہے اور مستقبل سے ہمیں خط لکھتا ہے۔ ہم اس کے خط پڑھ کر اس کا پیچھا کر رہے ہیں اور اب کچھ جگہیں ایسی ہیں، جہاں پر وہ ہمارا پیچھا کر رہے ہیں اور یہ دو طرفہ مکالمہ سبھی کو فائدہ پہنچا رہا ہے”۔
کوئی تبصرے نہیں:
ایک تبصرہ شائع کریں