Goggles visual search จาก Google

Hartmut Neven แห่ง Google สาธิตการใช้ visual search แอพพลิเคชั่น ด้วยการถ่ายภาพนาฬิกา Salvador Dali ในออฟฟิสของเขา

Santa Monica, California (CNN) -- ปกติคอมพิวเตอร์นั้นตาบอด แล้วมันจะมองเห็นได้อย่างไร

ต้องยกเครดิตให้กับ algorithms อันสุดแสนจะซับซ้อนที่ทำให้คอมพิวเตอร์ในวันนี้สามารถรับรู้ได้ว่าอะไรคือหอไอเฟล อะไรคือภาพโมนาลิซ่า หรือว่าอะไรคือกระป๋องเบียร์บัดไวเซอร์

ความก้าวหน้าทางเทคโนโลยีในช่างทศวรรษที่ผ่านมา และในวันนี้การค้นหาด้วยภาพได้ก้าวกระโดดไปสู่ความชัดเจนมากยิ่งขึ้น

จะดีกว่าถ้าจะอธิบายถึง image search engine ว่ามันสามารถแปลความหมายของภาพได้อย่างไรทั้งๆที่มันไม่เคยทำได้มาก่อน กระบวนการที่รวดเร็ว ความคิดนับพันล้านเพื่อที่จะทำให้เป็นความจริง ผลที่ได้คือ robo-eyesight อัจฉริยะนั่นเอง

Hartmut Neven ผู้อำนวยการฝ่ายวิศวกรรมสำหรับการค้นหาแบบแสมือนจริง visual search ของ Google คาดการณ์ว่ามันจะเกือบสมบูรณ์แบบได้ในทศวรรษหน้านี้

"ภายใน 10 ปีเราจะแยกแยะได้เป็นอย่างดี ในหลักการคือทุกสิ่งทุกอย่างที่เราสนใจ" Neven กล่าวในการให้สัมภาษณ์ "วิทยาศาสตร์และเทคโนโลยีมีความคืบหน้าอย่างรวดเร็ว"

Neven เริ่มโครงการวิจัยนี้ในปี 1992 ภายใต้การคาดการณ์ด้วยตัวเขาเองตอนนี้มีความคืบหน้าเกินกว่าครึ่งทางแล้ว

Google Goggles
ผลผลิตของ Neven และทีมวิศวกรเป็นบริการที่เรียกว่า Goggles มันมีใช้อยู่แล้วในรูปแบบแอพพลิเคชั่น stand alone สำหรับโทรศัพท์ Android เช่นเดียวกับ Google Mobile App สำหรับ iPhone

ผู้ใช้งานส่งภาพผ่านเครือข่ายสัญญาณโทรศัพท์ไปยังเซิร์ฟเวอร์ของ Google หลังจากนั้นคอมพิวเตอร์ของ Google จะบอกกับโทรศัพท์ว่ามันทราบว่าภาพนั้นคือภาพอะไร กระบวนการนี้ใช้เวลาเพียง 1-2 วินาทีหรืออาจจะสั้นกว่านั้น

ด้วย algorithm ของ Google รหัสแต่ละบรรทัดจะแบ่งแยกข้อมูลออกเป็น bits ที่คอมพิวเตอร์รู้จัก

ทั้งอาคารที่เป็นเอกลักษณ์ งานศิลปะ สินค้าบนชั้นวางของในสโตร์ บาร์โค้ด โฆษณาในนิตยสารล้วนแล้วแต่น่าสนใจ ระบบสามารถแยกแยะตัวหนังสือบนโปสเตอร์ได้และจะทำการค้นหาเว็ปที่มีข้อความเหมือนกัน หรือแม้กระทั่งแปลเมนูอาหารภาษาฝรั่งเศษ

Microsoft ก็มี visual search ใน Bing ด้วยเช่นกันแต่มีขีดความสามารถจำกัด

อย่างที่ทราบกันดีว่าคอมพิวเตอร์นั้นมีความสามารถในการแยกแยะต่ำกว่ามนุษย์ แต่ทีมงาน Google Goggles กำลังสร้างระบบที่สามารถระบุคนในภาพถ่ายได้ตราบใดที่คนในภาพนั้นอนุญาติให้ใส่ข้อมูลของพวกไว้ใน database ของ google, Neven กล่าว

สิ่งที่ไม่สามารถแยกแยะได้
algorithm ของ Google จะไม่แสดงผลลัพธ์หากเป็นสิ่งที่เหมือนๆกันทั่วๆไปเช่นเฟอร์นิเจอร์ เสื้อผ้า ของใช้ทั่วไป gadget อาหาร สัตว์ รถยนต์ ต้นไม้ และสิ่งที่พบเห็นทั่วไปในชีวิตประจำวัน

"เราปราถนาที่จะทำให้มันแยกแยะทุกสิ่งทุกอย่างบนโลกใบนี้ได้ แต่ในปัจจุบันวิสัยทัศน์ของคอมพิวเตอร์ยังไปไม่ถึงจุดนั้น น่าเสียดายที่มีมากมายหลายอย่างที่เราไม่สามารถทำให้มันแยกแยะออกได้" Neven กล่าว

อุปสรรคที่สำคัญที่สุดก็คือวัตถุที่ไม่มีเอกลักษณ์โดดเด่นชัดเจน รวมถึงสินค้ามากมายหลายอย่างที่ยากจะแยกแยะได้โดยปราศจากหีบห่อสีสันฉูดฉาดเช่นกระเป๋าสตางค์ รองเท้าและโทรศัพท์มือถือ

"เราได้เคยให้ความสำคัญกับสินค้าที่ไม่มีหีบห่อมาพักหนึ่ง แต่มันไม่ใช่เรื่องง่ายเลยที่จะแก้ปัญหาได้" Neven กล่าว "ถ้าเราทำได้ดีกว่านั้นละก็วัตถุอื่นๆอีก 90% ก็ไม่มีปัญหาแล้วล่ะ"

นักพัฒนาของ Google ได้ทอดทิ้งปัญหานั้นไป Neven ตื่นเต้นกับการที่จะแยกแยะสายพันธุ์ต้นไม้จากใบไม้ที่ตกลงมา หรือว่ารถยนต์ที่จอดอยู่บนถนนว่าเป็นรุ่นไหน

ในขณะเดียวกัน Google ก็ทำรายการแอพพลิเคชั่นของ Goggles ในห้องทดลอง นั่นหมายความว่าโครงการยังอยู่ในช่วงของการทดลอง โฆษกของ Google กล่าว

Google ยังได้จัดแสดงฟีเจอร์ของ Goggles ที่ยังใช้งานจริงไม่ได้ทั้งหมดแต่ก็สร้างกระแสให้กับวงการเทคโนโลยีได้เช่นเวอร์ชั่นที่สามารถแก้ปัญหาเกมส์ Sudoku

Goggles แอพพลิเคชั่นยังสามารถอ่าน QR โค้ดได้ด้วย เมื่อใช้สมาร์ทโฟนสแกนเจ้ารูปสี่เหลี่ยมสีขาว-ดำจากโปสเตอร์ ก็จะเข้าถึงวิดีโอและเนื้อหาตอบโต้อื่นๆได้ จนกว่า Goggles จะสามารถแยกแยะทุกสิ่งทุกอย่างได้ QR โค้ดเป็นช่วงหยุดพักที่จำเป็น ถ่ายภาพวัตถุบางอย่างแล้วก็เข้าถึงข้อมูลดิจิตอล

การใช้งาน image search แบบอื่นๆ
รากฐานของเทคโนโลยี image search สำคัญกับผลผลิตมากมายของ Google

algorithm ในการแยกแยะ image ช่วยให้แยกแยะรถยนต์และผู้คนสำหรับบริการ Street View ของ Google เพื่อที่จะทำให้ป้ายทะเบียนและหน้าคนพร่ามัว และยังสามารถแจ้งเตือนได้ถ้าภาพถ่ายเปิดเผยเนื้อหนังมังสามากเกินไป

Neven เข้าร่วมงานกับ Google ในปี 2006 เมื่อ Google เข้าบริหารกิจการของเขาในชื่อ Neven Vision เพื่อนร่วมงานเก่าของเขา Orang Dialameh, CEO ของ IPPLEX ก็มีทีมวิศวกรที่กำลังทำโปรเจค image recognition อยู่เช่นเดียวกัน

วิศวกรของ Dialameh ได้ใช้กล้องสร้างแอพพลิเคชั่นเพื่อแยกแยะวัตถุเช่นธนบัตรหรือกล่องอาหารเช้าโดยผู้ใช้งานไม่ต้องถ่ายภาพ แอพพลิเคชั่นบางอย่างได้ใช้เป็นเครื่องมือสำหรับคนตาบอด ผลผลิตต่อไปของ IPPLEX คือ Nantworks ที่ผู้ใช้สามารถติดป้ายวัตถุได้ด้วยกล้องของโทรศัพท์มือถือ Dialameh กล่าว

Dialameh อยู่ใน Southern California เช่นเดียวกันกับ Neven เขาพบกับอุปสรรคมากมายเช่นเดียวกันกับ Google ไม่น้อยไปกว่าการเชิญชวนให้คนหันมาใช้แอพพลิเคชั่นในชีวิตประจำวัน

"จะทำให้มันเป็นกิจวัตรประจำวันของผู้บริโภคได้อย่างไร"

"เราไม่คุ้นเคยกับการถ่ายภาพและแสดงสิ่งของบนโทรศัพท์ของเรา"

มีแอพพลิเคชั่นที่ใช้เทคโนโลยีแบบเดียวกันคือ Face.com ตรวจสอบภาพถ่ายบน Facebook เพื่อระบุว่าคนในภาพถ่ายเป็นใคร ในทางเดียวกันกับเทคโนโลยีของ Neven ที่ Google สามารถระบุคนในภาพของ Picasa

แต่เทคโนโลยีแยกแยะรูปพรรณนี้บางครั้งคิดว่าคุณเป็นน้องสาวทั้งที่ในความเป็นจริงคุณเป็นคุณปู่ มันมีทางออกของมันและไม่ใช่ทุกคนที่จะขายผลิตภัณฑ์ที่มีประโยชน์สูงสุด

"ก่อนที่จะมีป้ายชื่อของแต่ละคน ผมคิดว่าเกือบจะทุกคนคงจะบอกว่าวิธีที่ดีที่สุดที่จะระบุว่าคนในภาพเป็นใครก็คือเราต้องมี algorithm ที่สามารถแยกแยะหน้าคนได้" Mark Zuckerberg, CEO ของ Facebook กล่าวตอนให้สัมพาษณ์กับนักข่าวในงานเมื่อเดือนพฤษจิกายน

"แต่ในขณะนี้วิธีที่ดีที่สุดกลายเป็นว่าแค่มีป้ายชื่อก็พอแล้ว"

ที่มา : CNN
แปล, เรียบเรียง : thaiitnewsupdate.blogspot.com

Comments