| |

Fortgeschrittene ProgrammierungTexterkennung und Terminologie im großen Stil | |  | Autor: benne | Datum: 23.04.13 08:01 |
| Hallo zusammen,
ich habe mir ein Projekt aufgehalst, an dem ich mich vielleicht noch verschlucken könnte.
Es geht um folgendes:
In unserem ERP-System (SAP) haben wir (sehr viele) Datensätze für Teile. (ca. 1/2 Million)
Jedes Teil hat eine Kurzbezeichnung mit 40 Zeichen, die bei der Anlage des Datensatzes vergeben wird.
Von der Kurzbezeichnung gibt es auch Übersetzungen in andere Sprachen.
Es soll nun eine Prüfung auf bekannte Wörter stattfinden. Parallel dazu gibt es eine Datenbank mit den üblichen bzw. bevorzugten Begriffen, für die ich bereits Übersetzungen habe.
Die Bezeichnungen sehen oft so aus:
Gewindeschraube DINxxx M6x40
Gewindeschraube DINxxx M6x50
Zylinder Typbezeichung Herstellernummer
Ich kann also den Text über Split aufteilen und den ersten Teil als Begriff verwenden um ihn dann gegen meinen Bestand zu prüfen.
Nun gibt es aber Datensätze, deren "Begriff" aus zwei Wörtern besteht.
Die menschliche Logik erkennt sofort, dass man dann beide Begriffe zusammenziehen muss, wie mache ich das aber meinem Programm klar?
Dies gilt erst recht, wenn solche Terme kommen:
Pneu. Vorschubeinheit Typ xyz
Pneum. Vorschubeinheit Typ abc
Pneumatische Vorschub-Einheit Typ 123
Bei allen 3 Termen handelt es sich um den selben Begriff, den ich in diesem Zusammenhang vereinheitlichen will.
Die Prüfung auf bestehende Terme mache ich aktuell in folgenden Stufen:
1. "Begriff" ermitteln (mit dem Problem der geteilten Begriffe)
2. Begriff per SQL auf Vorkommnisse prüfen (harter Vergleich)
3. Falls bei 2. nichts gefunden, nochmals per SQL-Volltextsuche (contains) prüfen. Hier werden auch andere Schreibweisen mit Bindestrich gefunden.
Schritt 2 ist aber notwendig, weil sonst "O-Ring" als "Ring" gefunden wird.
Im Moment stochere ich etwas herum und drehe ein paar Schleifen, um zu sehen, wie der Code reagiert.
Die Frage ist, hat jemand schon mal so ein ähnliches Problem gehabt?
Mir fehlt gerade die zündende Idee, wie ich die zusammengesetzten Begriffe am Anfang der Bezeichnung erkennen kann.
Wenn der Datenbestand 1x durchgelaufen ist, dann habe ich nur noch wenige Datensätze pro Tag, die als Neuanlage geprüft werden.
Die Routine darf also auch etwas zeitaufwändiger sein.
Ich hoffe, dass mir jemand den entscheidenden Tip geben kann, wie ich an die Sache herangehen kann.
Viele Grüße
Bernd
|  |
 | Sie sind nicht angemeldet! Um auf diesen Beitrag zu antworten oder neue Beiträge schreiben zu können, müssen Sie sich zunächst anmelden.
Einloggen | Neu registrieren |
  |
|
sevGraph (VB/VBA) 
Grafische Auswertungen
Präsentieren Sie Ihre Daten mit wenig Aufwand in grafischer Form. sevGraph unterstützt hierbei Balken-, Linien- und Stapel-Diagramme (Stacked Bars), sowie 2D- und 3D-Tortendiagramme und arbeitet vollständig datenbankunabhängig! Weitere InfosTipp des Monats Access-Tools Vol.1 
Über 400 MByte Inhalt
Mehr als 250 Access-Beispiele, 25 Add-Ins und ActiveX-Komponenten, 16 VB-Projekt inkl. Source, mehr als 320 Tipps & Tricks für Access und VB
Nur 24,95 EURWeitere Infos
|
|
|
Copyright ©2000-2025 vb@rchiv Dieter Otter Alle Rechte vorbehalten.
Microsoft, Windows und Visual Basic sind entweder eingetragene Marken oder Marken der Microsoft Corporation in den USA und/oder anderen Ländern. Weitere auf dieser Homepage aufgeführten Produkt- und Firmennamen können geschützte Marken ihrer jeweiligen Inhaber sein.
Diese Seiten wurden optimiert für eine Bildschirmauflösung von mind. 1280x1024 Pixel
|
|