H2O.ai, açık kaynak yapay zeka platformları sağlayıcısı, bugün belge analizi ve optik karakter tanıma (OCR) görevlerini geliştirmek amacıyla tasarlanmış iki yeni görüntü-dil modellerini duyurdu.
Modeller, H2OVL Mississippi-2B ve H2OVL-Mississippi-0.8B adını taşıyor ve büyük teknoloji şirketlerinden çok daha büyük modellere karşı rekabetçi performans sergileyerek belge ağırlıklı iş akışlarıyla uğraşan işletmelere daha verimli bir çözüm sunma potansiyeli taşıyor.
David vs. Goliath: H2O.ai’ın küçük modelleri nasıl büyük teknoloji devlerini alt ediyor
H2OVL Mississippi-0.8B modeli, yalnızca 800 milyon parametreye sahip olmasına rağmen, OCRBench Metin Tanıma görevinde diğer tüm modelleri, milyarlarca parametresi olanları da geçerek ön plana çıktı. Diğer yandan, 2 milyar parametreli H2OVL Mississippi-2B modeli, çeşitli görüntü-dil benchmarklarında güçlü genel performans sergiledi.
Şirketin kurucusu ve CEO’su Sri Ambati, VentureBeat’e yaptığı özel bir röportajda, “H2OVL Mississippi modellerini, yüksek performanslı ancak maliyet etkin bir çözüm olarak tasarladık ve AI destekli OCR, görsel anlayış ve Belge AI’ını işletmelere sunuyoruz” şeklinde konuştu.
Bu modellerin piyasaya sürülmesi, H2O.ai’ın AI teknolojisini daha erişilebilir hale getirme stratejisinde önemli bir adımı temsil ediyor. Modelleri Hugging Face üzerinde ücretsiz olarak sunarak, H2O.ai geliştiricilere ve işletmelere modelleri özelleştirebilecekleri ve uyarlama yapabilecekleri bir olanak sağlıyor.
Efektiflik ile Verimlilik Buluşuyor: Belge İşleme Yeni Bir Yaklaşım
Şirketin yaklaşımı, daha küçük, uzmanlaşmış modellerin ekonomik avantajlarını vurguluyor. Ambati, “Genelde eğitimli dönüştürücüler konusundaki yaklaşımımız, işbirliği yaptığımız müşterilerle birlikte iş belgelerinden anlam çıkarmaya yönelik derin yatırımımızdan gelmektedir” dedi.
H2O.ai’ın yeni modelleri, işletmelerin büyük belge hacimlerinden bilgi çıkarımak ve işlemek için daha verimli yollar aradığı bir dönemde duyuruldu. Geleneksel OCR ve belge analizi yöntemleri genellikle kötü kalitede taramalar, zor yazı karakterleri veya aşırı şekilde değiştirilmiş belgelerle zorlanırken, H2O.ai’ın yeni modelleri bu sorunları ele almaya ve belgeye yönelik belirli görevler için daha büyük dil modellerine kıyasla daha verimli bir alternatif sunmaya yönelik.
Özgür ve Kurumsal Uygun: H2O.ai’nın AI Benimseme Stratejisi
“H2O.ai’da AI’ı erişilebilir hale getirmek sadece bir fikir değil, bir harekettir” diyen Ambati, “Belirli görevlere kolayca ayarlanabilen küçük temel modeller serisi yayınlamakla AI oluşturma ve kullanma olanaklarını genişletiyoruz” şeklinde konuştu.
H2O.ai, Commonwealth Bank, Nvidia, Goldman Sachs ve Wells Fargo gibi yatırımcılardan 256 milyon dolar topladı. Şirketin açık kaynak yaklaşımı ve pratik, kurumsal uyumlu AI çözümlerine odaklanması, 20.000’den fazla kuruluş ve Fortune 500 şirketinin yarısından fazlasını müşteri olarak kazanmasına yardımcı oldu.
İşletmeler, dijital dönüşümle mücadele ederken ve yapılandırılmamış veriden değer çıkarma ihtiyacı duyarken, H2O.ai’ın yeni görüntü-dil modelleri, belge AI çözümlerini uygulamak isteyenler için daha büyük modellerin hesaplama yükü olmadan çekici bir seçenek sunabilir. Gerçek test, gerçek dünya uygulamalarında olacak, ancak H2O.ai’ın çok daha küçük modellerle rekabetçi performans sergilemesi, kurumsal AI’nın geleceği için umut verici bir yönde ilerleme gösterebilir.